识因智能AI与你同行|谷歌HeAR AI模型,通过声音识别疾病

Scale AI创始人论AI性能停滞与数据壁垒问题

Scale AI的华裔创始人指出,当前AI性能的停滞主要是由于数据壁垒,即互联网上可访问的数据已被耗尽。为了突破性能瓶颈,需要更多多样化和专业化的数据。同时,他强调AI技术的重要性,并提出对最先进的AI系统采取封闭策略,以防止潜在的负面后果。此外,数据获取与治理被视为AI发展的关键,需要更宽松的数据访问政策来支持AI技术的进步。

谷歌HeAR AI模型,通过声音识别疾病

谷歌推出的HeAR AI模型,通过分析咳嗽、说话和呼吸声音来识别疾病,特别是肺结核等。HeAR模型经过超过1亿次咳嗽声的训练,能够准确识别疾病的早期征兆。该模型已在印度得到应用,并得到了联合国“终止结核伙伴关系”的支持,提高了肺结核的早期检测能力。

字节跳动Seed-ASR语音模型,支持多语言和方言识别

字节跳动推出的Seed-ASR语音模型,能够识别和转录包括13种中国方言和7种外语在内的多种语言。该模型采用数十亿参数,结合音频编码器和大语言模型,实现了上下文感知的语音识别。通过自监督学习、监督微调、上下文微调和强化学习的训练过程,Seed-ASR在长文本处理和专业领域的表现得到了显著提升。

KAN 2.0神经网络架构更新,助力经典物理学研究

KAN 2.0是一次重要的神经网络架构更新,它增强了对经典物理学问题的处理能力,支持研究者定制化使用。新增的MultKAN、kanpiler和树转换器等功能,提升了模型的解释性和科学发现能力。KAN 2.0在物理定律的发现和构造方面展示了其应用潜力,并计划将这种能力扩展到更多的科学领域。

英伟达LongVILA模型,长视频处理准确率近100%

英伟达推出的LongVILA是一种全栈长视频视觉语言模型解决方案,能够处理高达1024帧的视频,准确率接近100%。LongVILA采用多模态序列并行技术,优化了内存使用和处理速度,显著提升了长上下文训练的效率。在长视频字幕和指令遵循任务上,LongVILA展现出卓越的性能,通过创新的系统设计和模型训练策略,增强了处理长序列视频的能力。

英伟达AI NPC技术首次应用于游戏《解限机》

英伟达利用其Nvidia ACE技术,首次在游戏中推出了能理解玩家语音并动态响应的AI NPC。这一技术采用了Minitron 4B模型,仅需2GB显存即可在本地快速响应,适用于所有型号的RTX GPU。尽管AI NPC在智能和响应速度上有所提升,但玩家反馈显示,其反应与传统游戏NPC相似,暴露了轻量级模型在某些方面的局限性。

AI模型AutMedAI提前识别儿童自闭症,准确率超80%

使用AI模型AutMedAI,研究者能够在儿童12个月大之前准确识别自闭症,准确率达到80.5%。AutMedAI模型利用基础医疗筛查和背景历史信息,依赖家长报告的数据,简化了特征选择,使得早期筛查更加实用和广泛适用。研究利用了大规模数据库SPARK,确保了研究的广泛适用性和模型的泛化能力。

微软发布Phi 3.5系列AI模型,支持自定义微调

微软近期推出了Phi 3.5系列的三款新模型,包括Phi-3.5-mini-instruct、Phi-3.5-MoE-instruct和Phi-3.5-vision-instruct,它们均支持自定义微调和商业用途。这些模型覆盖了从轻量级到多模态的多样化需求,特别是Phi-3.5-MoE-instruct采用的混合专家架构,以及Phi-3.5-vision-instruct的多模态能力,为高质量推理和复杂视觉任务提供了强有力的支持。

OpenAI推出GPT-4o微调服务,提升AI应用性能

OpenAI最新宣布的GPT-4o微调服务,为开发者提供了一个使用自定义数据集进行模型优化的平台。这项服务不仅提高了AI在特定应用场景中的性能,还通过优惠期的免费训练tokens,增加了成本效率。GPT-4o在软件工程和SQL查询生成等多个行业基准测试中表现卓越,展现了其在企业级解决方案中的实际价值和潜力。

人工智能成为新质生产力的重要引擎

2024年世界机器人大会在北京举行,聚焦人工智能与机器人技术融合,展出27款人形机器人。《政府工作报告》首次提出"人工智能+"行动,强调其在产业升级中的关键作用。人工智能正广泛应用于智能制造、医疗等领域,推动生产力质的飞跃。为进一步发挥其潜力,需加速技术创新和行业应用落地,同时获得政策支持。我国庞大的市场和丰富的应用场景为人工智能发展提供广阔空间。

*内容来源于互联网信息整理,仅供参考