NVIDIA宣布推出Jarvis可互动的对话式人工智慧框架

图说:NVIDIA Jarvis框架提供开发人员最先进且已预先完成训练深度学习模型软体工具,以建立对话式AI服务。图/业者提供)

NVIDIA 宣布推出 NVIDIA Jarvis 框架,提供开发人员取得最先进且已预先完成训练的深度学习模型和软体工具,以建立可以轻松用在各产业领域、具互动性的对话式人工智慧 (AI) 服务。

全球每天产生出数十亿个小时语音通话网路会议和串流媒体广播影片内容,NVIDIA Jarvis 模型提供高精准度自动语音辨识,以及高超语言理解能力、多种语言的即时翻译和全新的文字转语音等功能,用以建立能够表达丰富内容的对话式 AI 代理程式

利用 GPU 加速技术的端到端语音管道,可以在 100 毫秒内完成动作,这个聆听、理解到产生回应内容的速度,比人类眨一下眼睛还要更快,并且可以部署云端资料中心或边缘,瞬间扩大触及到数百万名用户。

NVIDIA 创办人执行长黄仁勋表示,对话式 AI 在很多方面都是终极的 AI。深度学习在语音辨识、语言理解及语音合成的突破性成就,已经发展出许多优秀的云端服务。NVIDIA Jarvis 将这种最先进的对话式 AI 技术用在云端以外的地方,让客户可以在任何地方托管 AI 服务。

NVIDIA Jarvis 将带动开发过去无法做到的新一波语言类应用程式,提高人机互动程度。它为开发数位护理师等服务打开了大门,协助他们全天不间断地监控病人,减轻让医务人员疲于奔命的工作负担;线上助理可以了解消费者的需求并推荐最佳产品;即时翻译可以改善跨境工作场域协同合作,观众还能用自己的母语观看直播内容。

NVIDIA 使用超过十亿页的文字、六万小时的语音资料,并以不同的语言、口音、环境和术语,耗费数百万 GPU 小时来训练模型,才开发出达到具世界级水准的 Jarvis 框架。开发者首次可以使用 NVIDIA TAO 框架,轻松在任何系统上,为各种任务及产业训练、调整及最佳化这些模型。

开发人员可以从 NVIDIA 的 NGC 目录中挑选一个 Jarvis 已预先训练好的模型,用自己的资料与 NVIDIA 迁移学习工具套件对其进行微调和最佳化,以在即时语音服务中达到最高处理量与最低延迟,只要几行程式码就能轻松部署该模型,无需具备深厚的 AI 专业知识

自去年5月推出 Jarvis 早期试用计划以来,已经有数千家公司要求加入。早期试用者当中包括美国电信巨头 T-Mobile,该公司希望透过 AI 进一步加强旗下的机器学习产品,运用自然语言处理能力,提供即时洞察和推荐内容。

T-Mobile 产品与技术部门副总裁 Matthew Davis 表示,有了 NVIDIA Jarvis 服务,再利用 T-Mobile 的资料进行微调,我们将开发出有助于即时解决客户问题的产品。在评估了多款自动语音辨识解决方案后,T-Mobile 发现 Jarvis 能够提供高品质且极低延迟的模型,创造出客户喜爱的使用体验

NVIDIA 也与 Mozilla Common Voice 合作。Mozilla Common Voice 是一个开源语音资料集,提供新创公司、研究人员及开发人员用于训练语音类应用程式、服务和装置。Common Voice 是全球规模最大的多语言、公领域的语音资料集,内有超过九千小时、60 种语言的语音资料。NVIDIA 使用 Jarvis 和该资料集来开发预先训练好的模型,然后将它们免费提供给该社群使用。

Mozilla 执行董事 Mark Surman 表示,我们推出 Common Voice,以教导机器真实的人们是如何用他们独一无二的语言、口音和语言模式来说话。NVIDIA 与 Mozilla 有共同的愿景,就是实现语音技术的普及化,确保它反映出构成网际网路的人们和声音的多样性。

NVIDIA 的对话式 AI 工具下载量已经突破 4.5 万次。这些工具还能搭配数百个合作伙伴的技术,并支援主要的软体函式库,让全球开发者都能够开发创新且直观的对话式 AI 应用程式。

本身是 YouTuber,也是 PythonProgramming.net 创办人的 Harrison Kinsley 表示,Jarvis 提供众多预先训练好的模型,让它成为一个真正的对话式 AI 端到端工作流程,从自动语音辨识、自然语言处理,再到文字转语音。这些模型的运行速度都快得惊人,最佳化程度也极佳,开发人员也可以轻松使用 API,搭配适用于许多对话式 AI 任务的范例

新公布的功能将于第二季在进行中的 NVIDIA Jarvis 公测计划开放使用。