我见我思-AI再次冲击人类 小心ChatGPT的「毒性」

几个月来,各大媒体不断报导这个主题,引起学界一阵恐慌。怕学生日后都用ChatGPT来写报告,许多学校也纷纷禁止在学校里用ChatGPT。这就有点像2017年Google的AlphaGO打败了世界第一棋手时,引发的震撼一样,让人感觉机器人就将占领世界。慢慢地,使用人多了,开始发现它会产生许多似是而非的叙述。跟它聊久了,也发现它开始胡言乱语。

ChatGPT是GPT3.5大型语言模型的微调应用。所谓语言模型,就是将一大堆文章语料喂入模型训练,之后就能根据前文来预测后文的发生机率。就跟人一样,书读久了,就能背起来。读多了,就见多识广。

预先训练好的语言模型可以用来作微调加值,可以回答复选题,是非题或问答题。只要你将问题跟答案连在一起,喂给它背起来。日后它搜索相似问题时,搜索到的问题后面跟着答案,就可以把答案拿出来回答。这样可以拿来当问题回答机应用。如果题目和答案,刚好都出现在它之前看过的文章里,那它当然就把答案抓来给你。但如果很不巧,答案并不在之前的文章里,它就会根据语言模型里的机率,自己来编答案。

一般的问题回答机包括两大部分,一个叫做资讯撷取(Information Retrieval),另外一个就是答案编纂(Answer Merging and Scoring)。资讯撷取就是从网路或资料库里面抓出和问题相关的文章,依序排出。这与搜索引擎的功能差不多。答案编纂是将搜索到最相关的资料,汇整浓缩成一篇通顺的文章。聊天机器人是在语言模型的基础上,加入对话集的语料,加以进一步微调训练。如果应用在客服聊天,就可以收集这行业里客户最常问的问题和答案,来反复训练这个聊天机器人。过久了,它就会记住所有的问题跟答案,能够上线应付客户了。

而ChatGPT是使用一种人类回馈强化学习(RLHF)来训练模型。OpenAI说他雇了40个人,来评判机器人的回答分数。之后会根据这些回馈,再来训练一个报酬模型,了解人类喜欢什么样的回答。然后再根据刚训练好的报酬模型,用PPO运算法来训练出一个强化学习策略模型,以找出报酬最高的策略来回答问题。这跟早期AlphaGo使用强化学习来学习价值网路跟策略网路,以找出最高累积行动报酬的策略的目标一致。

由此我们可以了解,用这样的模型回答问题,是没有逻辑,非思考产生的。可说完全是以统计的方式来猜题,只不过命中率很高罢了。对某个问题,平常如果我们能在考古题中找到,几乎都可以确定这题的正确答案是什么。但所谓garbage–in,garbage-out,这种用网路语料,而非完全用教科书,考古题或wiki训练的问答模型,几乎无法保证某个答案的可信度。

毒性与杜撰是OpenAI最在意的问题。ChatGPT的最佳模型有超过20%的回答是杜撰的。而它根据网路语料所训练出的答案,也不确定到底是否含毒性。这些都必须要日后根据用户的回馈才能再慢慢地修正,之后才能侦测哪类的回答有害。在可预见的未来,ChatGPT产生的问题,将是网路上似是而非的假资料泛滥,从此网路资料可信度将更低,再也无法判断真假了。