OpenAI技术直播第六弹：ChatGPT“睁眼看世界” AI陪伴/AI教育新标杆？

科创板日报宋子乔责编季晟 2024-12-13 09:00

Play

语音播报

00:00

/

00:00

①ChatGPT开启高级语音模式：实时视频通话、屏幕共享和图像上传；
                ②高级语音模式支持超过50种语言，9种逼真输出语音选项，且每种语音都有自己独特的语气和特征。
                ③不仅让ChatGPT作为AI陪伴工具的体验感大幅提升，也为更高效强大的AI教育工具作出了示范。

《科创板日报》12月13日讯（编辑宋子乔） 技术分享日第六天，OpenAI给出了更贴近“本心”的东西——ChatGPT开启高级语音模式：实时视频通话、屏幕共享和图像上传。

为什么说更贴近“本心”？

OpenAI CEO Altman此前在接受Salesforce专访时透露，自己最喜欢的AI电影是《她》（《Her》，一个男人爱上他的AI虚拟助手的故事），“对话语言界面的想法具有令人难以置信的预见性。”The Information在报道中称，Altman希望最终开发出一种类似该电影中的AI助理那样，能够快速响应的虚拟助手。

《Her》里的机器人女友代表着具身智能的终极形态，可以与人无障碍交互。

此前，ChatGPT的DAN模式（Do anything now的简称）允许AI以更加随意的方式与用户对话，其“人味儿”之重已经让人惊艳，不仅可以低延迟交流，还能模仿人类语气，提供情绪价值。这次，ChatGPT不仅能听会说，还解锁了视觉能力，通过摄像头“睁眼看世界”。

此次分享直播中，CEO Sam Altman并没有出现，而是由包括OpenAI的首席产品官Kevin Weil、OpenAI产品经理Jackie Shannon、负责多模态的OpenAI技术团队成员Michelle Qin和Rowan Zellers在内的四位员工来介绍了更新的功能。

高级语音模式的实时视频通话功能最为出彩。在OpenAI的团队成员依次与ChatGPT视频打过招呼并有了一定的认识后，有人发问：带着驯鹿角的同事叫什么？ChatGPT用圣诞老人限定语音给出了准确答案，展现“记忆”能力。

接下来，团队演示了ChatGPT如何教人操作手冲咖啡设备，只需给ChatGPT打一通“视频通话”，它能根据你面前的器具，手把手教你完成每一个步骤。在整个演示过程中，ChatGPT的声音自然而亲切，还调整了语气，甚至像人类一样大笑。

屏幕共享功能则是通过屏幕共享的方式，让ChatGPT来“看”你的屏幕，也是一种实时视频理解能力。用户只需点击右下角的高级语音模式图标，在下拉菜单中选择分享屏幕，就能获得针对性的帮助。

OpenAI团队成员与其共享成功后，让ChatGPT浏览了自己的短信并要求指导回复，ChatGPT展现了“高情商”的一面，建议夸赞对方的圣诞装饰。

据介绍，高级语音模式支持超过50种语言，9种逼真输出语音选项，且每种语音都有自己独特的语气和特征。而其背后的GPT-4o不仅可以将语音转换为文本，还可以理解和标记音频的其他功能，例如呼吸和情感。

支持50多种语言的ChatGPT能够实时理解现实世界的场景，不仅让ChatGPT作为AI陪伴工具的体验感大幅提升，也为更高效强大的AI教育工具作出了示范。

上述功能即日起在ChatGPT移动应用中推出，在接下来的一周内，这些功能将向所有团队用户以及大多数Plus和Pro用户开放。

财联社声明：文章内容仅供参考，不构成投资建议。投资者据此操作，风险自担。