Android 搭載 AI 功能 手機更能理解文意、甚至可以防詐騙

Google I/O 2024大会进入第二天,Android 生态系总裁 Sameer Samat在官方部落格上,公布Android搭载 Google AI 的各项功能更新。包括「画圈搜寻」直接内建在使用者体验里,以简单手势搜寻在手机上看到的任何内容,不需要停止正在进行的操作,或切换到其他应用程式。这项功能目前在超过1亿台装置应用,以三星为主,即将扩展为全萤幕搜寻,并支援更多Pixel 和三星装置。

Google指出,这项功能支援直接用手机和平板电脑画圈搜寻,以学生为例,圈出遇到困难的部分时,不用离开数位资讯表或课程大纲,就可以获得逐步的指引,解决许多物理和数学应用题。今年稍晚,画圈搜寻还能更进一步解决与符号公式、图表和图形等相关更复杂的问题,主要是Google的新模型系列 LearnLM。

Gemini以生成式 AI 更准确地了解萤幕画面上内容的上下文,还有正在使用的应用程式。未来可以把生成的图片拖放到Gmail、Google 讯息和其他地方,或在 YouTube 影片中点击「询问有关这部影片的问题」,获取特定资讯。Gemini Advanced可以用「询问有关这个 PDF 的问题」选项,不需要翻阅很多页,就可以快速获得答案。这项功能未来几个月之内将向数亿台装置推出。

Gemini Nano 将具备完整的多模态功能,Android将是首创装置内建有基础模型的行动作业系统。今年稍晚,从 Pixel开始,Gemini Nano 将具备全面的多模态功能,除了处理文字输入外,手机还能理解更多与上下文相关的资讯,像是影像、声音和口说对话等。

此外,Gemini Nano 的多模态功能将整合到 TalkBack 功能里,帮助视障使用者获得更丰富、更清晰的影像描述。TalkBack使用者平均每天会遇到90张未标记的图片。这项更新,将会帮助弥补影像资讯不全的问题,未来无论是家人朋友传来照片中的更多细节,或是网路购物时要选择的衣服款式和剪裁,都能轻松掌握资讯。由于 Gemini Nano 是直接在装置上运作,因此能快速取得这些描述,而且即使没有网路时也能正常运作。

Google也指出,正在测试一项Gemini Nano的新功能,在通话过程中如果侦测到与诈骗有关的对话模式,就会立即发出警报。例如,如果有一个「银行代表」提出不常见的银行要求,要求你紧急转帐、使用礼品卡付款,或是提供 PIN 码或密码这种个人资讯,你就会收到警报。这项保护可以直接在装置上进行,因此对话能够完全保密。我们将在今年稍晚与大家分享更多关于这项选用功能的资讯。