Google搜寻能力进化 数秒辨识800种疫苗用语

Google语言模型工具MUM可在几秒钟内辨识出800种以上、超过50种语言用来称呼疫苗词语,帮助使用者在Google搜寻中找到COVID-19(2019冠状病毒疾病)疫苗的可靠资讯。(Google提供)

Google推出语言模型新工具MUM,可在几秒钟内辨识出800种以上、超过50种语言用来称呼疫苗的词语,帮助使用者在Google搜寻中找到COVID-19(2019冠状病毒疾病)疫苗的可靠资讯。

Google搜寻研究员副总裁纳雅克(Pandu Nayak)今天在官方部落发文说,根据Google的分析,AstraZeneca、CoronaVac、Moderna、Pfizer、Sputnik 等广泛使用的疫苗,在全世界共有超过800种名称。使用者搜寻疫苗资讯时,可能会使用Coronavaccin Pfizer、mRNA-1273、CoVaccine等各式各样的关键字

纳雅克强调,Google是否能正确识别所有疫苗名称,对于使用者能否获得可靠的最新疫苗资讯至关重要。然而,想辨识出全球使用者对于疫苗的不同称呼,就得付出大量时间成本,以人工而言需要几百小时

现在有了MUM(Multitask Unified Model),Google可以在短短几秒钟内辨识出800种以上、超过50种语言用来称呼疫苗的词语。纳雅克表示,在验证MUM的搜寻结果后,Google已能将这个模型应用在Google搜寻服务中,帮助使用者找到全世界有关COVID-19疫苗的资讯。

MUM之所以能在几秒内完成一项原本需要数周时间的工作,是因为具有知识转移能力。纳雅克说,MUM能够从本身接受训练的超过75种语言中学习并转移知识。以阅读一本书为例,如果一个人会多种语言,就可以在阅读后用自己会的其他语言来分享书中重点,MUM对于不同语言知识的转移也很类似这样的概念

纳雅克指出,这种跨语言迁移学习能力,可以帮助Google快速扩展系统改善,这在一定程度上要归功于MUM的样本效率;相较于之前的模型,MUM在完成同一件工作时需要的资料量大幅减少。以疫苗名称来说,只需要一小部分官方疫苗名称作为样本,MUM就能快速识别这是疫苗在不同语言间的名称。

Google期待MUM在未来可以透过多种方式,让Google搜寻变得更实用。纳雅克说,Google早期的测试结果显示,MUM不仅可以在许多面向上改进Google现有的系统,还可以帮助打造全新的方式来探索和搜寻资讯。(编辑:郭无患)1100630