2024中国国际数字经济博览会:林咏华谈大模型
希望大模型在更多行业发挥作用
——访北京智源人工智能研究院副院长兼总工程师林咏华
在2024中国国际数字经济博览会上,北京智源人工智能研究院发布了“行业数据集—场景应用创新计划”第一期成果。10月24日,就大模型促进行业发展等话题,本报记者采访了北京智源人工智能研究院副院长兼总工程师林咏华。
记者:“行业数据集—场景应用创新计划”成果颇受关注,这个创新计划发起的背景是什么?
林咏华:我们知道,数据决定了大模型的智力边界。当前,在通用领域,大模型初步呈现了一定的场景应用能力,然而,在医疗健康、教育等垂直领域,大模型所展现的能力尚不足以支持专业应用,其主要原因在于模型训练缺乏高质量可用的行业数据集。
为解决大模型垂直领域训练数据稀缺与质量问题,推动大模型在千行百业的应用创新与发展,中国互联网协会、中国人工智能产业发展联盟数据委员会、北京智源人工智能研究院于今年6月正式发起了“行业数据集—场景应用创新计划”第一期。
创新计划第一期历时3个月,近百家企业报名,覆盖医疗、教育、金融、旅游、法律、医疗等10个行业。
记者:“行业数据集—场景应用创新计划”第一期的成果及落地情况如何?
林咏华:以医疗行业为例,据测算,经过训练后,行业大模型的能力提升了20%。
通过与多家企业和机构的紧密合作,北京智源人工智能研究院成功推动了一系列行业解决方案的落地应用,这些方案涵盖金融财税、农产品价格监测及优化、汽车行业智能客服及维修检测辅助、智能简报与辅助撰写、合同审查及风险评估、法律问答、教学教辅等多个行业的不同应用场景。
我们当初发起“行业数据集—场景应用创新计划”第一期的目的是希望大模型在更多行业发挥作用,现在看来,这个目的在一些行业实现了。
记者:我们注意到,京冀等地企业在解决方案落地过程中表现亮眼,请介绍一下相关情况和以后的打算。
林咏华:解决方案落地过程中,京冀等地4家企业表现良好,获评“技术创新先锋企业”,河北的长城汽车股份有限公司入选。长城汽车股份有限公司深耕智能化领域,在智能驾驶、智能座舱、智慧底盘等方面进行全产业链布局,在售后智能技术支持等方面实现了技术突破。近年来,河北企业在数字经济新赛道上越跑越快。
吸收“行业数据集—场景应用创新计划”第一期的成果,9月25日,北京智源人工智能研究院正式发布了全新升级的智源行业数据集2.0版。智源行业数据集2.0版包括了覆盖30个行业的分类预训练数据集,新增了行业指令数据集,全面提升了数据的行业覆盖、质量和种类。
依托该数据集,下一步,北京智源人工智能研究院将与魔搭社区、中国互联网协会人工智能工委会、中国人工智能产业发展联盟数据委员会共同发起“行业数据集—场景应用创新计划2.0暨行业数据应用大赛”。我们将提供算力、技术方面的辅导和支持,欢迎更多的河北人工智能企业和开发者参加这个活动,我们将帮助他们更加高效地利用大模型技术赋能生产力。(河北日报记者 曹 智)