☰

独家观察－打造主权AI 必须接地气

自从ChatGPT问世、百度研发ERNIE大型语言模型以来，社会各界对打造繁体中文大型语言模型的讨论不曾间断，俨然成为一场国家数位主权、文化保卫战。行政院长卓荣泰公开宣示：「台湾应进入主权AI的应用时代」。

不过，推动主权AI之前，恐需先克服眼前几个难关。首先，大型语言模型对于资金、软硬体、资料的要求极高，作为运算能力源头的GPU是最关键的基础元件，同时也须有AI素养的高端技术人才，最重要的是，必须具备高品质且多样化的数据资料，让AI变得更聪明。

若数据资料不够完整，模型便难以学习基础的在地语言逻辑、常识及知识，遑论以符合在地语境的方式进行表达。因此，打造台湾自己的繁体中文语言资料集，以建立接地气的大型语言模型，是开发者们刻不容缓的课题。

目前国科会主导可信任生成式AI对话引擎计划（TAIDE），使用政府报告摘要、各县市政府旅游网站、司法院判决、科技产业资讯室、三采文化童话书、教育部《国语小字典》与《重编国语辞典修订本》、学术会议论文摘要、中文维基百科、部分新闻机构授权资料库等繁体中文资料进行训练，但是，这些训练资料大多属于政府公开资料，多数繁体中文内容受限于版权，可搜集利用的数据资料量仍有局限。

不少评论认为，台湾目前的法律架构追不上科技脚步，版权方在没有明确法律保护下，不愿意分享有价值的内容，使开发团队难以取得大型资料库。如何在发展主权AI与维护著作财产权人权利间取得平衡，让著作财产权人可分配适当利益，同时充实语言资料集，值得主管机关思考。

此外，若想提高企业导入AI应用的诱因，不只要兼顾繁体中文的需求，产出结果也必须符合业界对技术精确度、可信任度、精准度、资讯安全的要求，才有可能成功推广，真正达成卓揆口中「主权AI的应用时代」之目标。

主权AI发展攸关文化自主权与国家经济安全利益，如何在世界AI赛局中，确保国家拥有AI技术自主性，不依赖外部资源就能进行创新，是全体国人共同的期待。期许台湾能确保数位主权，在全球竞逐下持续保持竞争力。

独家观察－打造主权AI 必须接地气

相关资讯