科技.人文聯合講座/AI知識幻覺
布尔斯汀(Daniel J. Boorstin; 1914-2004)。林一平/绘
林一平
随着AI技术在各行各业中的广泛应用,最令人担忧的是陷入「AI知识幻觉」的陷阱。今日我们常用的AI技术,不论是分析型(Analytic)AI或生成式(Generative)AI,都依赖正确标注的数据进行训练。然而,许多学校在教授AI时往往忽略了数据本身的重要性。结果,学生们常常不清楚输入数据的特性,甚至标注错误,未经验证就急于将数据投入AI模型,导致「垃圾进,垃圾出」(Garbage in, Garbage out)的现象。这种不适当的AI发展不仅浪费了大量的算力和电力,还助长了「AI知识幻觉」。结果是,教育成本随之增加。因此,学生学习如何理解和使用正确的数据(包括质与量)才是台湾是否能AI大跃进的关键。
台湾可用于AI训练的数据量远少于美国和中国。而数据格式的混乱及不互通更成为阻碍AI技术发展的重要挑战。农业部洞悉此一问题,在发展智慧农业时特别重视数据格式的标准化,让各种农业物联网设备能互通,这是一个具有远见的举措。在业界,不少公司早已注重数据科学(Data Science),例如华邦电子在其新进员工训练中加入了数据科学相关内容,让他们了解能处理公司数据的重要性,我也有幸曾受邀担任相关课程的讲师。
经济部中小企业署最近积极规画培训传统企业导入AI,并邀请专家学者编撰教学教材。署方在检视初版授课大纲后,发现教材偏重于资讯专业论述,不适合其他非资讯领域的学员。经过多次讨论后,我们认为课程重点应该是让学员了解数据,而非专注于学习AI模型的原理。例如在纺织厂,员工需要学习的是了解纺织机生成的数据代表什么意义、如何正确标注这些数据,并知道如何找到对应的AI工具来解决问题。在运用AI工具时,讲师不应要求纺织员工学习电脑语言、修改AI模型或填写超参数,因为这样会增加学习难度。正确的方法是找到友善的AI工具,学员只需通过图形化介面输入专业数据即可获得结果,无需编写程式。
我的结论是,非资讯领域的百工百业要实现AI赋能,应培训员工了解其专业数据,并提供不需编写程式的AI工具。而AI专家的责任则在于开发这样的无码工具,最好能如ChatGPT这般亲民。只有百工百业的员工了解自己专业的数据,运用AI时才不会造成知识的幻觉。
(作者为前科技部代理部长)