独家观察-打造主权AI 必须接地气

自从ChatGPT问世、百度研发ERNIE大型语言模型以来,社会各界对打造繁体中文大型语言模型的讨论不曾间断,俨然成为一场国家数位主权、文化保卫战。行政院长卓荣泰公开宣示:「台湾应进入主权AI的应用时代」。

不过,推动主权AI之前,恐需先克服眼前几个难关。首先,大型语言模型对于资金、软硬体、资料的要求极高,作为运算能力源头的GPU是最关键的基础元件,同时也须有AI素养的高端技术人才,最重要的是,必须具备高品质且多样化的数据资料,让AI变得更聪明。

若数据资料不够完整,模型便难以学习基础的在地语言逻辑、常识及知识,遑论以符合在地语境的方式进行表达。因此,打造台湾自己的繁体中文语言资料集,以建立接地气的大型语言模型,是开发者们刻不容缓的课题。

目前国科会主导可信任生成式AI对话引擎计划(TAIDE),使用政府报告摘要、各县市政府旅游网站、司法院判决、科技产业资讯室、三采文化童话书、教育部《国语小字典》与《重编国语辞典修订本》、学术会议论文摘要、中文维基百科、部分新闻机构授权资料库等繁体中文资料进行训练,但是,这些训练资料大多属于政府公开资料,多数繁体中文内容受限于版权,可搜集利用的数据资料量仍有局限。

不少评论认为,台湾目前的法律架构追不上科技脚步,版权方在没有明确法律保护下,不愿意分享有价值的内容,使开发团队难以取得大型资料库。如何在发展主权AI与维护著作财产权人权利间取得平衡,让著作财产权人可分配适当利益,同时充实语言资料集,值得主管机关思考。

此外,若想提高企业导入AI应用的诱因,不只要兼顾繁体中文的需求,产出结果也必须符合业界对技术精确度、可信任度、精准度、资讯安全的要求,才有可能成功推广,真正达成卓揆口中「主权AI的应用时代」之目标。

主权AI发展攸关文化自主权与国家经济安全利益,如何在世界AI赛局中,确保国家拥有AI技术自主性,不依赖外部资源就能进行创新,是全体国人共同的期待。期许台湾能确保数位主权,在全球竞逐下持续保持竞争力。