中关村论坛年会闭幕,科大讯飞智能语音技术为大会提供多项服务

4月29日,2024中关村论坛年会在北京圆满闭幕,100多个国家和地区、150余家外国政府部门和国际组织机构受邀参加了本次年会。面对上百位顶尖专家、上千名演讲嘉宾,来自科大讯飞的讯飞同传为各项会议全程提供中英转写、翻译上屏,线上直播字幕,多语种语音播报技术支持,获得高度认可。

讯飞同传第五年为中关村论坛服务

中关村论坛是中国面向全球科技创新交流合作的国家级平台。今年,中关村论坛首次在刚建成的永久会址举办,聚焦人工智能、数字金融、ESG、生命科学、国际交流等全球共同关注的科技发展方向组织专场活动。

这是讯飞同传连续服务中关村论坛年会的第5年。2024中关村论坛年会以"创新:建设更加美好的世界"为主题,为期5天里共举办近120场活动。在这近120场活动中,包括全体会议、国企发现与发明论坛、全球数字化应用创新论坛等在内的80场活动由讯飞同传提供服务。大咖们借助讯飞同传实现跨语言实时交流。

另外,本届中关村论坛年会中,全面开展线上语音直播频道,所有观众可通过扫描二维码,通过讯飞同传小程序进行多语种播报收听,打造多元化的创新参会模式。

讯飞同传的服务,给来自各国的参会者留下了深刻的印象。

讯飞同传基于科大讯飞语音转写、机器翻译和语音合成的核心技术,能够进行实时语音识别,包括中英文混合语音的识别,还能将中文语音翻译成英语、法语、俄语、德语、日语、韩语、西班牙语和阿拉伯语等多种语言。讯飞同传提供了离线单机版及在线版客户端两种形态,适用于大型高端会议、发布会和展览会等场合。

此外,讯飞同传还能够记录会议内容,并实时生成字幕,提供字幕条模式和多语种全屏模式,满足不同类型会议的需求。

参会者可以通过扫描二维码或佩戴同传耳机,在任何时间和地点收听和观看多语种的语音播报。通过讯飞同传App,参会者能实现端到端免切换的流畅同传体验,让用户在听到同传翻译播报的同时还可看到对应的文字以及多语种翻译结果,满足国际演讲、访谈直播、跨国会议等多种场景的使用需求,实现边看边听。

讯飞同传已是诸多国际大会的标配,2023年迪拜的联合国气候变化框架公约大会(COP28)、第六届南非金砖国家媒体高端论坛、第45届IAA世界广告大会、2023金融街论坛年会、日本大规模人工智能科技公司展会"AI EXPO TOKYO"、2023世界制造业大会、第31届世界大学生运动会、世界人工智能大会、2023全球人工智能技术大会、澳门BEYOND国际创新博览会等都有讯飞同传的助力,让来自全球各地的来宾沟通无障碍。

无论是政府间的高层对话,还是企业间的商务洽谈,抑或是学术研讨会上的学术交流,讯飞同传都能够提供高效便捷的同声传译服务。

目前,讯飞同传已服务超过全球50个国家及地区,服务支撑40万+场会议,覆盖超4亿观众。

智能语音技术赋能传统会议创新

25日上午,中关村论坛年会的开幕式上,集中发布了十项具有创新性、前瞻性、颠覆性的重大科技成果,涉及基础研究、前沿技术、科技基础设施等各方面。科大讯飞运用语音合成技术,为视频环节进行AI配音。

语音合成等智能语音技术对传统会议模式的创新突破效果显著。借助先进的深度学习技术,可将文本转化成拟人化的语音,即"赋予机器像人一样自然流畅说话的能力",是语音交互、语音翻译的关键接口能力。

自上世纪90年代,科大讯飞开始在语音领域的探索,坚持源头技术创新,14年蝉联国际语音合成大赛冠军,在语音识别、机器翻译等领域也多次在国际大赛上夺冠。

深耕智能语音领域25年,科大讯飞不仅将中文语音技术做到了最好,也将多语种语音技术做到了最好。2020年,科大讯飞60个语种的语音识别、翻译和37个语种的语音合成超过谷歌、微软,达到国际领先水平;2021年,科大讯飞在美国国家标准与技术研究院NIST发起的国际低资源多语种语音识别竞赛OpenASR中,获得全部受限赛道的15个语种冠军及7个语种非受限赛道冠军。目前,科大讯飞的多语种技术已经可以满足60余种语言的智能语音技术需求。

作为人工智能领域龙头企业,科大讯飞不仅将中文语音技术做到了最好,也将多语种语音技术做到了最好。1月份,结合语音属性解耦、多语种共享建模等技术创新发布讯飞星火语音大模型,在多语种语音识别方面首批37个主流语种效果超过OpenAI Whisper V3。

星火语音大模型首批覆盖语种中,24个主要语种识别率达到了90%(已超过实用门槛);13个重点语种识别率更是超过了94%。在多语种语音合成能力方面,27个主要语种MOS(Mean Opinion Score)评分达到了4.4(普通人口语水平为4),13个重点语种MOS评分高达4.6(地方播音员水平)。

4月26日,讯飞星火大模型V3.5春季上新,科大讯飞发布业界首个支持长文本、长图文以及长语音的大模型产品。在此次升级中,面对广泛的音视频信息高效获取需求,科大讯飞推出长语音功能,将语音识别和翻译技术结合起来,可以实现会议录音、学习视频等的一键研读,实现音视频场景的高效知识获取。

科大讯飞进一步升级星火语音大模型,首发多情感超拟人合成,情绪表达的可感知度达到 85% 以上,对高兴、抱歉、安慰、撒娇、困惑等语气表达更加生动,可以满足用户在各种场景下的自我减压、释放情绪等需求,并推出一句话声音复刻功能。

认知大模型的出现,让自然语言处理类任务的上限大幅提升,结合大语言模型更精准的语义理解和更精细的描述能力,语音各类任务也能快速突破效果的上限,未来的人机交互将更便捷、更智能、更人性化。