大模型重塑智能硬件!人手一个智能助手的时代来了?
智东西作者 徐豫编辑 漠影
在生成式AI浪潮的影响下,智能硬件开始出现全新的人机交互体验。
AI智能助手更有针对性地实时解答你的“十万个为什么”;AI卡片录音机能帮你实时转写会议内容,还随手就罗列好了会议总结、要点分析和待办事项;AR眼镜戴上后就能看到文字、图片、视频中的实时多语言字幕;智能门锁会根据来访人士定制主人的声音,模仿你的声音取快递、拿外卖,或者改变声音语调以恐吓无关逗留人士;毛绒小熊真的成为孩子的知心朋友,可以一起聊聊烦恼、疑惑和心事……
可以预见,更智能化的多模态大模型赋予了智能硬件新的生命。
就在上周六,RTE 2024第十届实时互联网大会IoT分论坛圆满结束。多位AI智能硬件赛道的资深人士齐聚一堂,共同探讨如何让“智能硬件产品们”迎头赶上AI的好时代。声网IoT行业负责人吴昌儒、旷视增值业务部负责人史泽鸿,海马爸比联合创始人谭国豪、佐臻科技技术经理徐偉恩、小米Xiaomi Vela开源负责人杜超、莲偶科技软件部总裁杨旺分享了他们在打通AI与智能硬件屏障方面的实战经验。
一、AI驱动多模态交互,人机互动更自然
在传统的硬件设备中,人机交互大多通过按键、触摸屏等图形用户界面(GUI)来完成。但随着AI技术的引入,尤其是对话用户界面(CUI)的崛起,用户可以通过语音、视觉、手势等多种方式与设备进行互动,带来了更加自然、直观的交互体验。
“AI驱动的智能硬件不再单纯依赖固定的功能按钮或菜单,而是通过对用户意图的理解,围绕用户想要完成的任务进行设计。”声网IoT行业负责人吴昌儒举例说道,智能家居中,用户仅用一句话便可触发多个设备的联动,说出“我要看电影”,AI系统随之做出自动调节灯光、开启电视、调整空调温度等操作。这种基于任务导向的设计,让用户体验更为丝滑和智能,大幅减少了手动操作的繁琐。
住着一个AI Agent的智能硬件不用再孤立工作,而是能够与其他智能硬件之间形成互联,彼此协作。也就是说,每个设备中的AI Agent都能独立执行特定任务,同时也能根据需求与其他AI Agent协作,整体上是一个复杂且灵活的智能系统。
现场,其他与会嘉宾也围绕各自产品或业务在AI方面的落地各抒己见。
长期以来,AI与AR的结合都是智能眼镜的理想答案。对于听音乐、拍视频、翻译等需求,不少市面上在售的AR眼镜都基本能满足,佐臻科技则为AR眼镜找到了更多个性化的应用场景。
其最新款的AR眼镜不仅适用于跌倒检测、呼吸监测等看护场景,还可以满足AI或XR多人混合实时互动算绘场景的需求。也许在不久的将来,只要一副AR眼镜,人们就能远程观展、跨国云旅游、多语言同声传译、实时共享影片、异地协同查看云端文件和3D模型。
按照徐偉恩的设想,装备了AI引擎的AR眼镜未来将即时提供更多个性化的反馈。举个例子,你佩戴着AI眼镜,刚好路过了一辆停在路边的车,你多看了几眼这辆车的Logo,AI眼镜会猜到你可能对这个汽车品牌感兴趣,随之提供相关的信息。值得一提的是,这种呈现信息的方式是私人化的,可以降低人们对信息共享的顾虑。
在徐偉恩看来,声网的语音交互技术充当了AI智能硬件实时人机交互的关键神经元。而AI智能硬件只有真正实现随时随地调用资料、与人交互、与环境交互后,才能与真实生活串联起来。
当底层的语音技术还较为稚嫩时,人们很难想象手上一枚小小的戒指,也能将AIoT的风吹到直播出海这一领域。
莲偶科技最新的空间戒指TOALL L-Ring 2通过多模态大模型落地了录音转写、AI对话、同声传译等功能,有助于人们在直播、讲课件、播放PPT、看电视以及驾驶过程中尽可能解放双手。未来,外贸主播在直播过程中,戴上它“挥挥手”就可以完成口型视频合成、情绪模拟、声纹模拟、语音合成等,从而同步、同时生成多语种的直播间。
水准较高、稳定可靠的实时AI语音交互技术,可谓是AIoT的强心剂。AI智能硬件若能及时语音反馈危险情况,在关键时刻或许能“救命”。
基于高精度的数据训练,海马爸比的婴儿看护机可以实时监测婴儿的睡眠情况和哭声,判断婴儿是否“遮脸”,并针对可能窒息的情况做出提醒。海马爸比联合创始人谭国豪告诉智东西,有了AIoT智能硬件技术的加持,新一代的婴儿看护器对婴儿哭声、状态的识别更敏感,可以及时发现吐奶等其他可能引发窒息的情况。现在,AI智能硬件或许比新手爸妈更能听懂婴言婴语。
海马爸比下一步计划将这些AI智能硬件融入个性化育儿教育、优化睡眠的婴儿房环境、互动式讲故事、协作式育儿支持等场景,为每个有娃家庭安排一个工作经验“无上限”、具备专业知识的“智能保姆”。
谭国豪称,声网的AI x IoT智能硬件解决方案可以有效解决“自动化场景但被动化输出”的AI技术应用困境,推动了智能硬件从工具转向服务。在他看来,AIoT中的AI智能硬件不应是被动地监测和响应,而是生成有意义的内容,并与用户展开有效互动。
小米则选择用一个面向轻量AI智能硬件的系统“Xiaomi Vela”,来串联起不同生活场景中的智能硬件。将来借助该系统,小米的智能手表、智能手机、智能平板和智能电视等硬件可以在其AIoT网络中实现联动。
旷视科技的AI生产力平台Brain++已实现AI视觉算法的快速量产,并将其与智能门锁、宠物智能用品、养老机器人、体育及训练等场景相结合。
其中,在宠物智能用品方面,Brain++可以提供诸如宠物检测、猫脸识别、猫砂检测和宠物Vlog等功能。在智能门锁方面,其可以实现生物特征识别、人员分析、快递和外卖提醒、儿童和宠物离家、邻居隐私保护、AOV和时光浓缩等功能。
二、秒级人机对话,生成式AI盘活IoT生态
相较于触控、空间手势等人机交互方式,语音交互的技术和形态更成熟,上手难度也更低,在AI时代仍具有独特的发展前景。吴昌儒提出多模态交互、对话式交互、大模型三者共同构成了AI Agent(智能体)。
同时,语音交互技术作为AI智能硬件的底层技术之一,其即时性、准确性水平高低,在很大程度上影响着用户的人机交互体验。从“喂,Siri”,到红极一时的智能音箱、故事机,再到当前快速迭代的多模态大模型,人机语音交互的体验正在不断优化。
吴昌儒认为,实时、准确、跨平台是AI Agent真正能够引入智能硬件的关键,声网AI x IoT智能硬件方案应运而生。该方案能够在低功耗、低算力芯片上快速实现大模型的接入,具备低延时实时互动、低成本灵活适配的特性,通过丰富的功能在智能硬件场景中构建真实、自然的 AI 语音交互体验。
例如其对交互延迟进行优化,语音交互延时低至1s内;支持多模态 AI 语义识别和理解;支持AI降噪,保证清晰的语音交互;支持小包体、低内存、低功耗;适配超70种主流、高性价比的芯片等,帮助开发者与企业快速构建适配自身硬件的 AI 实时语音对话服务。
声网AI x IoT智能硬件解决方案进一步优化了端到端互动体验,实现了人与设备之间基于大模型(LLM)的毫秒级互动体验,并且在80%丢包情况,即网络较差的环境下,仍能做到音频通话流畅。
为了让整个集成更加简单,声网还提供了模块化的组件。企业无需额外集成STT、TTS这些模块化的组件,就可以达到音频的端到端对话目的。
除此之外要让AI听得懂,收集的信息更有效,AI降噪算法和VAD控制是非常重要的一环。为此,声网自研了AI降噪算法,可以有效抑制键盘、脚步、杂音、啸叫等超100种常见噪声,同时为了改善驾驶、商场等场景的收声效果,也针对性地优化了算法。
在流畅和清晰的基础上,声网还追求语音对话过程中自然的交流感。其AI x IoT智能硬件方案支持AI-VAD技术,具有较高的语义理解能力,可以随时打断说话,模拟了人类对话时的真实反应。
除了推出内嵌多模态大模型的AI原生设备,AI智能硬件厂商还可以通过一套AIoT智能硬件解决方案和系统,复用现有的IoT资源,提供更进阶的人机交互体验。对此,声网最新的AI x IoT智能硬件方案也能在兼容性和商业化落地上提供支持。
该方案适配超70种主流、高性价比的芯片或模组,包括展锐Cat.1系列芯片、乐鑫ESP32-S2/S3、BK7256、BK7258、杰理AC7916、博流BL808等RTOS芯片,以及高通、联发科、君正、Sigmastar、全志、海思、Mstar等Linux芯片。
//oss.zhidx.com/uploads/2024/10/672332bed7ef7_672332bed3822_672332bed37fe_IoT视频(已压缩).mp4
在低功耗、低算力芯片上快速接入多模态大模型这一特点,解决了部分采用端侧AI的智能硬件由于算力不足,AI功能开发受限的痛点。这也意味着,许多做IoT的企业可以利用声网的模块化组件快速挂上AI Agent,拥有AI能力,并获得新的商业化引擎。
总的来说,声网的AI x IoT智能硬件解决方案针对生产力、情感陪伴、穿戴式装置优化了AI语音交互体验,具备低延时实时互动、低成本灵活适配的特性,从而在智能硬件场景中提供真实、自然的AI语音交互体验。
结语:AI智能硬件越来越有人情味
不少AI智能硬件上下游厂商关注到一些更具有人文意义、更贴近人性的领域。
声网为独居人士提供了AI对话式的智能门锁解决方案;旷视科技自研算法生产平台AIS首次应用于非遗文化保护;海马爸比为自闭症儿童推出了一款心理咨询机器人,心理医生可以通过此类机器了解到患者更真实的想法,从而提供更准确的心理疗愈方案。
有了AI Agent的加持,物联网中各个组件之间可以更高效、灵活地通信和任务调度。AI智能硬件的角色也从“管家”变成“卫士”,未来不仅可以帮人们减少一些重复性的劳动,还可以执行更多人们原本难以兼顾的工作。