Kyutai 抢跑 OpenAI 推出语音助手 Moshi

0
4073

由亿万富翁 Xavier Niel 投资的法国人工智能研究实验室 Kyutai 展示了一款具有多种类似人类情感的新型语音助手Moshi。

值得一提的是,这款产品与 OpenAI 承诺的一款产品类似,但后者由于安全问题而推迟了。

实验室 Kyutai 称,Moshi 是全球首款全体大众都可使用的实时生成式语音 AI,能带着 70 种情绪和风格讲话。在演示活动中,该助理就攀登珠穆朗玛峰提供建议,并用浓重法国口音背诵一首自创的诗歌。

Kyutai 的 CEO Patrick Pérez  图片来源:Kyutai 官方新闻稿

根据 Kyutai 介绍,Moshi 由该实验室的八人研究团队耗时六个月从零开始开发,是全球首款全体大众都可使用的实时生成式语音 AI。Moshi 模型将未来几周内推出,模型代码免费分享,但没有透露具体日期。

Kyutai 认为,Moshi 有潜力彻底改变数字世界中语音的使用方式,并举例称,在表达情感和多种声音之间的互动方面,它的文本转语音功能非常出色。

Kyutai 的 CEO Patrick Pérez 称,Moshi 可以 “边说话边思考”,还说他们相信 Moshi 具有巨大的潜力,可以改变人类与机器交流的方式。”

知名研究者 Lucas Beyer 在社交媒体上发文指出,Kyutai 公司开发的 Moshi 是首个能够进行实时对话的大型语言模型(LLM)。在 Kyutai 的演示中,Moshi 展现了极低的延迟,甚至能够打断演讲者进行插话。Moshi 的代码已经完全开源。尽管目前 Moshi 的音质尚显机械,但作为一款初版产品,其表现已经相当出色。总体而言,他认为 Moshi 是一项非常令人期待的技术。

Moshi的问世让 Kyutai 成为在语音助手领域领先的先锋。有网友评论称,Kyutai 此举基本上等于将 OpenAI 尚未公开发布的客户产品开源了。

OpenAI 原计划在其聊天机器人 ChatGPT 上提供语音助手功能。今年 5 月中旬,该公司展示了基于 GPT-4 升级版 GPT-4o 模型的语音助手。这款助手表现出色,能听、能说、能看,还具备情绪变化,几乎可以即时回应用户请求。它不仅可以讲睡前故事,还能观察人的情绪变化,像朋友一样安抚紧张情绪,甚至可以充当经验丰富的数学老师指导解题。

然而,一个多月后,OpenAI 因安全考虑推迟了语音助手的发布。6 月 25 日,OpenAI 在社交媒体上表示,需要确保该功能能够安全有效地处理来自数百万用户的请求,还需要约一个月的时间才能达到公司的发布标准。

与此同时,Kyutai 迅速推出了 Moshi。Kyutai 首席科学官 Hervé Jégou 介绍,公司将使用索引和水印工具来识别和跟踪其 AI 生成的音频,以确保安全性。

资料来源:综合报道;图片来源:Kyutai 官方 Youtube

Previous article哈佛研究显示 部分减肥药与罕见的视觉丧失有关 诺和诺德大跌
Next article印度的手机出口额激增 40.5%

LEAVE A REPLY

Please enter your comment!
Please enter your name here