AI最新|OpenAI重大升级,新增语音对话,图像聊天[疯语咒AI]

OpenAI 今天宣布将推出新的语音和图像功能 ChatGPT。 新功能将允许用户与 ChatGPT 或通过图像与聊天机器人聊天。

AI最新|OpenAI重大升级,新增语音对话,图像聊天[疯语咒AI]

在此消息发布之前,Reddit 用户声称他们已经获得了访问权限 OpenAI的模型,随后在平台上分享了这些信息。 Redditor FeltSteam 描述了一个工作名称为 Arrakis 的人工智能模型,据报道该模型允许用户“输入文本、音频和视频的任意组合”。

“新的语音功能由新的文本转语音模型提供支持,能够仅从文本和几秒钟的示例语音中生成类似人类的音频,”Open AI 在一份报告中写道。 “我们与专业配音演员合作创作了每一个声音。 我们还使用我们的开源语音识别系统 Whisper 将您的口语转录成文本。”

我在 Reddit 上发现了一些关于强大内部模型的奇怪的未经证实的猜测。
– 请持保留态度。 –
显然,
两个不同的用户声称他们可以访问 OpenAI的内部模型,并在 Reddit 上分享信息。

借助新功能,用户可以与 ChatGPT 使用他们的声音。 他们还可以与聊天机器人讨论图像。 这些功能将在未来两周内向 Plus 和 Enterprise 用户推出。

语音功能将作为选择加入到 iOS 和 Android,而图像功能将在所有平台上提供。

要开始使用语音功能,用户可以前往移动应用程序上的“设置”→“新功能”,然后选择“语音对话”。 接下来,用户应该点击主屏幕右上角的耳机按钮,然后从五种不同的声音中选择他们喜欢的声音。

与交谈 ChatGPT 通过图像,用户可以点击照片按钮来捕获图像或选择图像。 如果使用 iOS 或 Android,请先点击加号按钮,然后再继续。 此外,他们可以使用多个图像进行讨论或使用它们来指导聊天机器人。

OpenAI 表示图像理解由多模态 GPT-3.5 和 GPT-4 提供支持。 这些模型利用语言推理能力来分析各种视觉内容,包括照片、屏幕截图以及包含文本和图像组合的文档。

OpenAI与 Spotify 的合作

Spotify 也 今天宣布证券 其人工智能语音翻译功能。 新功能可以利用播客的原始声音将播客翻译成不同的语言。

根据https://www.theverge.com/,这个翻译功能依赖于 OpenAI的语音转录工具Whisper,能够转录英语语音,并将各种语言翻译成英语。

作为试点的一部分,该公司与播客 Dax Shepard、Monica Padman、Lex Fridman、Bill Simmons 和 Steven Bartlett 合作,为特定的目录剧集和即将推出的节目创建西班牙语、法语和德语等人工智能驱动的语音翻译发布。

Spotify 个性化副总裁 Ziad Sultan 在一份声明中表示:“我们相信,深思熟虑的人工智能方法可以帮助在听众和创作者之间建立更深层次的联系,这是 Spotify 释放人类创造力潜力的使命的关键组成部分。”

试播节目创作者制作的语音翻译剧集将向全球的高级和免费用户开放。


ChatGPT能语音聊天和看图了,五种音色选项,背后模型细节公开

接下来两周内向Plus和企业版用户推出。

ChatGPT又升级了! 

智东西9月26日报道,OpenAI昨晚发布公告,宣布ChatGPT再度重磅升级,推出全新的语音和图像输入功能。 

以前你只能用文字跟ChatGPT交流,但现在就更方便了,像召唤Siri、小爱等语音助手的开麦形式,ChatGPT也能做!你可以直接说话,以语音交谈的方式,跟ChatGPT侃天侃地。 

图像功能也让体验更便捷。比如,当你在旅行时拍摄了某个景点的照片,你就能跟ChatGPT实时谈论一些有趣的信息;当你在家里拍下冰箱和食品储藏室的照片,可以问问ChatGPT有什么晚餐建议,然后让它给出相应的分步骤食谱。晚餐结束后,你还可以通过拍照、圈出作业问题,让ChatGPT帮你解题。 

全新语音和图像功能将在接下来两周内向Plus和企业版用户推出。语音将在iOS和Android平台提供,图像将在所有平台上提供。 

01 交谈更自如,与ChatGPT语音聊天,五种音色供选择

升级语音功能后,用户可以使用语音与助手进行来回对话。随时随地与它交谈,为您的家人请求睡前故事,或解决餐桌上的争论。 

在ChatGPT手机app中的“设置”里,选择“新功能”,然后选择加入语音对话,点击主屏幕右上角的耳机按钮,就可以从五种不同的声音中选择你喜欢的声音,开始跟ChatGPT自由聊天。 

‍‍新语音功能由新的文本转语音模型提供支持。该模型能仅从文本和几秒钟的样本语音中生成类似人类的音频。OpenAI与专业配音演员合作创作了每一个声音,并使用其开源语音识别系统Whisper将语音转录为文本。 

OpenAI展示了一些语音样本,比如讲制作冰拿铁的食谱,五种不同的声音效果如下: 

AI最新|OpenAI重大升级,新增语音对话,图像聊天[疯语咒AI]

juniper(杜松): 

sky(天空): 

cove(海湾): 

ember(微光): 

breeze(微风): 

02 随手一拍传图给AI,能排查故障、分析图表

升级图像功能后,用户可以点击照片按钮来拍照或选择图像,给ChatGPT发一张或多张图像。 

用途很丰富,比如排查烧烤炉无法启动的原因,探索冰箱中的物品来计划膳食,或分析复杂的图表以获取与工作相关的数据。 

‍‍‍如果想要关注图像的特定部分,用户可以使用ChatGPT移动app中的绘图工具。 

图像理解由多模态GPT-3.5和GPT-4提供支持。这些模型将其语言推理技能应用于照片、屏幕截图及图文文档等广泛的图像。 

03 限制语音和图像模型用途,避免被恶意滥用

OpenAI正在逐步部署图像和语音能力,随着时间推移改进和完善风险缓解措施。 

新的语音技术能够从短短几秒钟的真实语音中生成逼真的合成声音,为许多创造性和以可访问性为重点的应用程序打开了大门,但这些功能也带来了新的风险,例如恶意行为者可能冒充公众人物或实施欺诈。 

考虑到这些潜在风险,OpenAI使用这项技术来支持语音聊天等特定用例,由OpenAI直接合作的配音演员来创建,并以类似方式与其他机构合作。比如Spotify利用该技术试点播客语音翻译功能,可将播客翻译成相同音色的其他语言。 

基于视觉的模型也提出了新的挑战,从对人的幻觉到依赖模型对高风险领域图像的解释。在更广泛的部署之前,OpenAI与红队成员一起测试了该模型在极端主义和科学能力等领域的风险,以及一组不同的alpha测试人员。研究使OpenAI能够调整一些关键细节,以实现负责任的使用。 

与其他ChatGPT功能一样,Vision旨在为人们的日常生活提供帮助。当它能看到你所看到的东西时,它会做得最好。这种方法是通过OpenAI与为盲人和弱视人士提供的免费移动应用程序Be My Eyes的合作直接获得的。 

OpenAI还采取了技术措施来显著限制ChatGPT分析和直接发表有关人员的陈述的能力,因为 ChatGPT并不总是准确的,并且这些系统应该尊重个人隐私。 

OpenAI称,现实世界的使用和反馈将帮助他们更好地完善这些保障措施,同时保持该工具的有用性。 

用户可能依赖ChatGPT来获取一些专业的知识或信息。OpenAI对该模型的局限性保持透明,在没有适当验证的情况下不鼓励高风险用例。 

此外,ChatGPT擅长转录英语文本,但在其他一些语言(尤其是非罗马文字的语言)中表现不佳。OpenAI建议非英语用户不要将ChatGPT用于此目的。OpenAI还最新公布了一篇关于GPT-4V(ision) 系统卡的论文,详细介绍了其安全方法以及他们与Be My Eyes的合作。 

AI最新|OpenAI重大升级,新增语音对话,图像聊天[疯语咒AI]

论文地址:

04 结语:新功能未来两周上线,很快将向更多用户推出

随着OpenAI陆续推出新功能,ChatGPT的升级脉络已经逐渐清晰,一方面优化用户体验,让交流更加可信、更多交互、更快响应、更加便捷,另一方面严格控制模型驱动的功能用途,以守住“构建安全且有益的通用人工智能”的准则。 

OpenAI将陆续扩大访问范围。ChatGPT Plus和企业版用户将在接下来两周内体验语音和图像新功能。此外OpenAI表示很快将这些功能向其他用户群体(包括开发人员)推出。 

(1)
上一篇 2023年10月1日 上午11:33
下一篇 2023年10月2日 下午3:43

更多相关内容

开始你的AI探索之旅,开启无限可能,学习AI道路上我们一起前进。