游族网络的AI“生意经”
本报记者 许心怡 吴可仲 上海报道
AIGC(人工智能生成内容)浪潮汹涌,众多内容生产商、社交平台抢滩布局。
7月6日,游族网络(002174.SZ)CEO陈芳表示,该公司将持续进行语料库的建设,通过自行开发与外部合作并行的方式,将优质语料在IP塑造、音视频生成、用户体验提升等文化娱乐产业各业务板块进行全面应用。
游族网络相关人士对《中国经营报》记者表示,语料库建设是一个系统性工程,需要精心规划和多步骤实施。目前各家公司都在逐步开展自己的语料库构建活动。游族网络方面希望建立行业标准的语料收集、清洗和标注流程,并在此过程中关注保护玩家隐私和数据安全,加强版权意识,尊重原创内容。
构建语料库
“作为推动AI发展的关键力量,我们也将持续进行语料库的建设。”7月6日,在2024世界人工智能大会暨人工智能全球治理高级别会议上,陈芳出席语料主题论坛时说道。
游族网络方面表示,高质量语料是人工智能突破式发展的核心因素之一,以游戏为首的互动娱乐语料具有极高的经济和社会价值。一是由于全球有几十亿人口活跃数据,庞大的用户基数为优质游戏语料的培植提供了沃土;二是游戏涵盖多种类型,通过不同游戏玩家的不同反应,能为AI提供多样化的学习材料。
游族网络方面还介绍,在IP塑造、价值观正向引导上,游戏语料也占据着天然的优势。游戏研发人员能直观地通过数据获取用户对不同IP角色的喜好程度,并进行IP要素拆解分析,针对不同群体的喜好进行IP定制。
陈芳谈到,游族网络接下来将着力构建语料库:“(我们将)通过自行开发与外部合作并行的方式,将优质语料在IP塑造、音视频生成、用户体验提升等文化娱乐产业各业务板块进行全面应用,将优质的中国文化以更易被主动选择的方式向世界传递。”
如果说大模型是引擎,语料就是推动引擎运作的“燃料”。AI模型对高质量语料需求巨大,人们需要为其供给大量的数据,保证持续训练现有AI模型以及开发更强大的模型。
今年3月,美国社交平台Reddit在纽约证券交易所上市,开盘首日收涨48.35%。据公开数据,Reddit每日活跃用户达到7310万人,2023年的发帖量大约为4.69亿条,评论和互动量达到28.4亿条。该公司宣布与谷歌达成合作,授权其使用Reddit的数据训练AI模型。Reddit计划在2024年通过这种方式获得约6640万美元的收入。
当月,谷歌因未经许可使用出版商内容训练聊天机器人,在法国被罚款2.5亿欧元。
今年4月,德国图片共享平台EyeEm宣布授权AI公司使用社区中的图片用于训练AI模型。EyeEm通过电子邮件告知用户相关条款,并向不愿意将照片用于AI训练的用户提供30天时间删除内容。EyeEm在与Instagram的竞争中落败,于去年被西班牙公司Freepik收购。被收购时,EyeEm的照片库包含1.6亿张图片和近15万名用户。
并非单纯数据抓取
游族网络相关负责人对记者表示,游戏研发中会需要用到多种类型的语料,比如代码辅助、美术设计、用户分析、本地化、内部知识库、开发日志、技术文档、测试文档等,还有游戏相关的特定语料,例如角色台词、游戏背景、角色设定、故事大纲、世界观等信息。
“用户生成内容(UGC)是大模型的主要语料来源之一。它们来自各个社区、论坛、渠道的评论区,既可以来自同类型产品,也可以来自自己产品的市场测试和运营结果。”该人士表示,网民、玩家们的表达是语料的主要来源之一。此外,语音、美术设计、音乐、视频等也可以形成多模态语料库,代码则主要来自于公司项目工程。
尽管互联网上有着海量数据,但是符合大模型训练的却有一定标准。
上述人士介绍,对于游戏研发来说,高质量的语料应具备覆盖性、准确性、多样性:语料应涵盖游戏相关的各个方面,包括但不限于游戏剧情、角色对话、用户评论、游戏指南、策略讨论;这些语料应正确传递信息,避免错误信息误导AI训练效果;多样性则是指语料能覆盖多种类型的游戏种类,以及不同风格和体裁的文本,来训练AI的通用性和适应性。
他补充道,本地化、交互性、情感丰富性的高质量语料应能表达丰富的情感和语气,使AI能够理解和生成具有情感色彩的文本,增强游戏的沉浸感。
“当前语料的覆盖性、准确度、时效性是否符合要求,取决于以下几个因素:数据收集的广度和深度、数据是否经过清洗和预处理、数据更新频率、版权是否合规。目前在这些方面,语料质量依然存在很大上升空间。”游族网络相关负责人表示。
语料库的构建也并非单纯的数据抓取。该负责人告诉记者:“语料库建设是一个系统性工程,需要精心规划和多步骤实施,包括需求分析、数据收集、版权审查、数据清洗、数据标注、数据增强、构建知识库、技术选型、模型训练与测试、持续更新与维护等。”
他表示,目前各家公司都在逐步开展自己的语料库构建活动。游族网络方面认为,构建语料库,首先要设立标准化流程。游族网络方面希望建立行业标准的语料收集、清洗和标注流程,提高语料库建设的效率和质量,“而不是各家搭建,这样才能更快实现更符合游戏行业垂向的语料库”。
上述人士还表示,数据安全也很重要,收集数据过程中需要保护玩家隐私和数据安全,遵守相关法律法规的同时,加强版权意识,确保语料库建设过程中尊重原创内容。
打磨AI之剑
7月1日,游族网络方面透露,其与火山引擎达成合作。具体合作内容包括:将火山引擎在云计算、大数据、数据库等方向的技术优势,与游族网络在游戏运维领域的经验结合,完成大数据存算分离、数据湖架构、高可靠数据库等架构和技术上的升级迭代。
此外,游族网络和火山引擎将以云计算和AI大模型技术为底座,依托火山引擎的豆包大模型,为玩家提供更加沉浸式的AI交互体验。
在上述论坛上,陈芳介绍了游族网络在AI算力、AI软硬件基建、AI在产业层面应用、人才培养、行业责任等方面的布局。例如,在AI软硬件基础设施方面,游族网络参与了由上海自主智能无人系统科学中心发起的“自主智能无人系统大模型计划”,重点推动人工智能在各方面的场景应用,为“数智化虚实融合”提供了技术支撑。
据游族网络方面介绍,其在2017年开始布局AI技术,于去年6月成立AI创新院,目前已经将AI技术运用于研发和发行环节。
关于在游戏发行环节对AI技术的引用,游族网络方面向记者介绍:“由AI创新院研发的广告投放引擎,在自研大数据平台的支持下,利用AI驱动沉淀优质广告投放策略,提高素材归因能力和定向能力,以确保最佳的广告投放效果;同时,借助AIGC快速进行美术风格的迭代尝试,通过广告投放效果及时了解用户偏好,我们进一步提升了获客能力。”
据游族网络2023年财报披露,在游戏研发环节,其将AI应用于美术资产生产、本地化多语言版本制作、数据查询、质量管理、NPC(非玩家角色)等多个领域,其中AI自有渲染管线能同时支持前向渲染管线和延迟渲染管线,可以大幅提升游戏品质,目前已经接入《少年西游记2》《Vice Nation》《少年三国志3》等项目;在基础架构保障方面,目前AI创新院已支持200多个平台项目的运维工作。
今年6月,游族网络推出AI玩伴“代号小游酱”。据游族网络方面介绍,“代号小游酱”是其面向玩家的首款AI产品,可以为玩家提供客服答疑和游戏攻略,还能在陪玩与倾听中提供丰富的情绪价值,并兼顾养成与辅助等系列陪伴,可以支持个性化定制。
游族网络方面表示,未来将让AI不仅服务于游戏生产环节,更服务于玩家的游戏乐趣,使AI更好玩。
(编辑:董曙光 审核:吴可仲 校对:颜京宁)