NVIDIA 推出适用于小型 LLM 的全新混合架构 Hymba
据analyticsindiamag 11月23日报道,英伟达NVIDIA 近日推出了小型语言模型(LLM) Hymba-1.5B-Base,它将 Transformer 注意力机制与状态空间模型 (SSM) 相结合,旨在提高自然语言处理任务的效率。
与其他小型LLM相比,Hymba-1.5B-Base 表现出了显著的优势。它在 20 亿参数下的表现优于所有公开可用的模型,并且超越了 Llama-3.2-3B,平均准确率提高了 1.32%,缓存大小减少了 11.67 倍,吞吐量提高了 3.49 倍。
Hugging Face 的技术主管Philipp Schmid表示:“Hymba 的表现优于其他小型LLM,如 Meta 3.2 或 SmolLM v2,而LLM仅在 1.5T Tokens 上进行训练。” NVIDIA还提供了一个安装脚本以方便环境配置,支持CUDA版本12.1和12.4。NVIDIA 承认,Hymba是在互联网数据上训练的,其中包括恶意语言、不安全内容和社会偏见。因此,Hymba可能会反映这些偏见,对恶意提示产生恶意反应,甚至在中性提示下也会产生不准确或不相关的文本。
NVIDIA为Hymba开发制定了道德准,并强调共同责任在创建值得信赖的AI方面尤为重要,建议用户负责任地使用该模型,同时注意其局限性。
(编译:雅慧)
链接:
https://analyticsindiamag.com/ai-news-updates/nvidia-launches-hymba-its-new-hybrid-architecture-for-small-llms/