第四范式申请模型服务的扩缩容专利,提升资源分配精细程度
金融界2024年9月30日消息,国家知识产权局信息显示,第四范式(北京)技术有限公司申请一项名为“模型服务的扩缩容方法、装置、设备及存储介质”的专利,公开号CN 118708349 A,申请日期为2024年6月。
专利摘要显示,本公开涉及一种模型服务的扩缩容方法、装置、设备及存储介质。预测未来词元负载,未来词元负载用于表征与未来一段时间内的全部请求对应的输入词元数量和/或输出词元数量;基于未来词元负载和模型服务的当前词元生成速度,确定扩缩容策略,扩缩容策略指示了对模型服务包括的当前服务实例数量进行增加或缩减的数量;按照扩缩容策略对模型服务包括的当前服务实例数量进行增加或缩减。本公开在对模型服务进行扩缩容时充分考虑了请求特性,从而可以提升资源分配的精细程度。并且,本公开能够针对未来负载提前进行资源分配,因此可以提前应对即将到来的请求高峰或低谷。
本文源自:金融界
作者:情报员