广州壁仞申请模型推理方法专利,能节省内存等

金融界2024年12月18日消息,国家知识产权局信息显示,广州壁仞集成电路有限公司、上海壁仞科技股份有限公司申请一项名为“模型推理方法、装置、电子设备及存储介质”的专利,公开号 CN 119129750 A,申请日期为 2024 年 9 月。

专利摘要显示,本发明提供 一种模型推理方法、装 置、电子设备及存储介质,其中模型推理方法, 包括:响应于词元稀疏 指令,从大模型的每层的键值缓存信息中分别获取待丢弃词 元每层的待丢弃词元均是经过词元稀疏处理后确定的对各 层各自的待丢弃词元进行层间合并,并基于层间合并结果执行 模型推理操作。本发明既能在整个模型推理过程中同时实现节 省内存、加速attention计算和提高模型推理效果的目的,此外 对于硬件的影响主要体现在内存节省方面,也可以减少人工智 能芯片的内存或片上存储,因此可直接支持现有的多数大模 型,也无需额外的训练代价。

本文源自:金融界

作者:情报员