第158章 我们究竟在谈些什么

顾莫杰本该下班了,但是严磊的报告,成功引起了顾莫杰的注意,他决定加夜班。

让叶敏茹去楼下云咖啡拿了两个套餐,然后他在办公室里请严磊边吃边谈他的想法。

“说说吧,你对‘谷歌中国五年来在华搜集的搜索数据’的用法细节,是怎么看的。”

严磊依然保持着四年前认识顾莫杰时的学者气,不怎么讲究礼貌,就大咧咧坐在顾莫杰对面,一边用便当,一边闲聊。

“你不都已经把‘初秘’那个项目交给我做了么,寒假就要和iphone4的siri掰腕子了,难道就不想让‘初秘’的水平在这个节骨眼上,再上升一个台阶?”

严磊口中提到的这个‘初秘’项目,是顾莫杰从去年初心1代手机上线后,就丢给初音的人工智能研究团队研发的项目。

他对后世智能手机行业发展那一点仅存的记忆,到2012年底为止。那段历史上,苹果公司的手机在iphone5这个型号上戛然而止。

苹果公司会做出siri这个人工智能语音助手,顾莫杰是知道的。

那些买了iphone4s以上苹果手机或者ipad3以上平板的用户,可以通过siri,对机器发送语音聊天。机器会试图模拟真人对话,并且给出使用者想搜索的内容、答案、软件app应用,或者帮助用户拨打电话、寻找联系人等等。

顾莫杰要弄的‘初秘’,就是一个狙击siri的存在。

iphone4明年二季度就要上市了,初心2代手机会比iphone4更早一两个月。

‘初秘’的开发,本来已经到了箭在弦上的冲刺阶段。

初音集团在人工智能方面的步伐,并不比苹果公司慢。哪怕没有别的新招,顾莫杰手下的人也能按期完成初秘。

但是此刻,严磊让顾莫杰看到了一股更高的期待。

他眉毛一挑,身子微微前倾。

“你是说,给你弄到谷歌中国过去五年在华搜集的搜索数据,就可以帮助你提升初秘的人工智能程度?”

严磊细嚼慢咽地吞下一片肥牛,喝了口饮料:

“当然。问题问答型的人工智能,本来就是要靠不断训练、不断积累云端大数据,才会回答地得越来越准、越来越接近真人思维模式。搜索、点击,本身不就是深度学习算法架构下,问答智能的最初渊薮么?”

深度学习算法,本该是杰夫辛顿教授提出的学说。

本时空,这个机会被顾莫杰分润了。

要说所有互联网大佬当中,对深度学习算法和云端架构的人工智能认识程度,恐怕顾莫杰能排世界第一。

只是在所有当老板的人里面,见识排世界第一。不包括和砖家们比。

也就是说,在对人工智能的远见卓识上。哪怕拉里佩奇、扎克伯格、乔布斯,这3个大佬的见识,也比不上顾莫杰。

严磊的话,点拨到这种程度,已经足够顾莫杰秒懂。

这个思路很不错!

用百度,或者谷歌,搜索网页。

这个搜索动作的本质,是什么?

其实就是一次问答。

比如一个网民,在百度上搜“权宝儿”三个字,然后弹出几百万个搜索结果。

第一个搜的人,得到结果列表后,点击了“权宝儿”的百度百科词条。

第二个搜的人,点击了一条她参加的综艺节目视频。

第三个搜的人,点击了一条关于她的娱乐新闻。

第四个、第五个、第六个,又点了百度百科词条。

假设,因为百度的用户容量够大,有10万人次搜了“权宝儿”这三个字,然后百度根据反馈统计:其中43%的人搜索后,点击了百科词条,22%的人,点了某娱乐新闻,17%的人……

这时候,如果把百度搜索的云端大数据,接为‘初秘’或者siri的服务器端,初秘就会知道:当下一次她的手机主人说出“权宝儿”这三个字的时候,优先把这个词的百度百科词条内容推送给主人——当然,是用语音阅读的方式。

这是最简单的问答型人工智能,靠统计数据,来让机器的回答,更贴近代表所有网民中最大众的那一群人的意见。

这个过程中,机器并不理解“权宝儿”这三字代表了什么,它只是在算法上统计了“所有曾经搜过这个词的人,在搜索后点击查看了哪条答案”,然后把看过人最多的那条答案,推送给最新问这个问题的人。

这样的大数据,只有搜索引擎服务的提供商,才拥有。或者说,只有那类公司的数据,样本容量才足够巨大,足够客观,足够撇掉误差。

在中国,只有百度和谷歌有这个资本。

而且,百度和谷歌除了搜索大数据的历史记录足够庞大、完爆其他搜索服务提供商之外,他们还有一个独门之秘,在2009年只有他们两家形成了规模。

那就是“百度知道”,以及比百度知道逊色一些的“谷歌问答”。

“知道”,是一个比搜索更加贴近人类语言习惯的问答产品。在搜索的时候,人只会打几个关键词,很少会直接长篇大论写一句话,写一个用人类正常语法表述的问题。

而用百度知道的时候,因为背后是人类在回答,所以大家都遵循了人类语言的语法。

一个新买手机的用户,和初秘或者siri聊天的时候,问到的问题,真的是绝无仅有、从来没有前人问过的么?

恐怕不尽然。

十几亿人心中的困惑,有相当大一部分是重合的。同一个问题,可能全国有几百万人想问。

有了百度知道的云端大数据之后,初秘或者siri再听到手机主人的语音发问时,就可以先搜一搜这个云端数据,看看有没有近似的或者重复的前人提问。

如果有,直接把前人提问中的“被采纳答案”推送过来、语音阅读一遍就行了。

在“知道”这个产品上,谷歌其实走得比百度慢。谷歌的强项,是“谷歌学术”那种专业标准化的问答,而缺少家长里短的日常人工智能锻炼。

在人工智能领域,如果非要对比谷歌和百度的优劣势,只能说:谷歌可以训练出更精密的机器,但是不如百度那样容易给机器学会‘七情六欲’。

因为早年的谷歌,压根就没想到去锻炼其人工智能的这个方面。

当然,说句良心话,百度也没想到。

“百度知道”日后教会了“度秘”比siri更能插科打诨,也只是百度发展时一招无心插柳的歪打正着。

……

正因为顾莫杰懂行,因为他自己就懂深度学习算法,所以,他比别人更能领会严磊开出的条件诱惑力。

初音集团,在搜索上是弱项。

但是初音集团,在人工智能的算法领域,是强项。

一个企业人工智能产品的强弱,受制于两个因素。

一个是算法的好坏,一个是大数据的规模。

比如,谷歌的算法效率假设是10%,而谷歌的日搜索处理量是10亿条,所以谷歌的人工智能每天理论消化的问答是1亿条。

如果初音的算法效率更好,有20%,但初音每天的搜索处理量只有1亿条,那么初音人工智能每天理论消化的问答只有2000万,比谷歌弱了五倍。

有好算法,有好的“数据消化效率”,却没有足够的“数据饲料”去喂养这副“消化功能”极强的“胃口”。

这一直是初音人工智能研究院的缺憾,短板。

但是,如果按照严磊的说法,把谷歌中国过去五年,在中国市场上搜集到的服务器端历史记录数据统统copy过来,“填鸭式”地塞给“初秘”去学习,那么初秘在“真正听懂中国人讲话”这个问题上,起码可以赢得相当于额外获得两三年时间锻炼的效果。

历史上siri公司成立于2007年,10年被苹果收购后,在4s上放出了这个人工智能产品。

但是用过iphone4s的用户,恐怕都有一种记忆:

刚开始,4s上的siri智能程度真的很低,几乎听不懂什么话。还是只能和旧时代的“语音拨号助手”那样,帮主人翻翻通讯录、拨打一下电话为主。

至于让siri真的近似于人一样和主人聊天,似乎是2012~2013年的事情了,那时候的siri才渐渐说话像人话。

那就是因为,siri花了两三年时间来“学习”、来积累和消化云端大数据,渐渐统计出人类语言习惯。

如果谷歌中国不倒下,谷歌在华的那多年数据记录,肯定是作为商业秘密不会公开的。因为那涉及到其对中国人上网习惯的统计。如果公开了,很有可能被对手拿去,作为优化对手引擎算法的参照物。

但是,如果谷歌中国倒下了,这些数据再遮遮掩掩藏着,似乎就没什么意义了。

只要顾莫杰出一笔看上去挺诚意的价码,谷歌总部相信就会把这笔数据财富卖给初音。

顾莫杰意淫着美好前景,简直要兽血沸腾。

恨不得现在就在老朋友拉利佩奇脊梁骨上捅一刀,然后把谷歌中国的数据资源巧取豪夺走。

“磊哥,来,好好说说你数据到手之后的详细使用计划。我都有点迫不及待了……”

“当然没问题,就是如此如此,这般这般……”

严磊一副指点江山状,对顾莫杰讲解了一个钟头的技术路线梗概。

“只要做到了这些,然后,我们的初秘肯定可以在‘人话识别率’上领先siri至少两年。”

第25章 大手笔第五十五章 威武霸气吊第五十四章 不能慎独就不要独第九十三章 不是抄家也是抄家第三十五章 转移焦点第八十四章 谁敢说这是柏林蔷第四十四章 爱买不买第十七章 临阵磨枪第六十二章 一个小时一个价第九十六章 不择手段也要上第29章 侮辱的就是肌肉记忆第四十六章 搁置争议,共同开发?第五十一章 你当初的目的是什么第四十七章 剑宗乎?气宗乎?第四章 这算不算北冥神功?第175章 真.富二代第八章 游戏界狂潮第128章 天外飞祸第二十四章 人心难服第一百零五章 以刷止刷第七十章 请迈克尔杰克逊去中国?第五十八章 泼泥码的逆袭计划第二十八章 处处有江湖第119章 胜利的阴影下第12章 全球独家第八十三章 巫妖王之怒第四十一章 重生者就了不起了?第三十五章 一口老血第四十九章 初音初火爆第十八章 败老娘的雅兴第147章 初心2代-上第一章 巨头生存法则第九十五章 最后一张多米诺骨牌第六十三章 万川归海第八十一章 风暴中的收割者第七十七章 回归第187章 独家猛料第四章 家业大了迟早要开撕第154章 新生代进场第三十六章 年关琐事第九十八章 连环增资-上第21章 神级烧钱速度第二十九章 初见初体验-上第八十章 人生如戏第十三章 电击狂魔终极版第八十五章 盗梦同款第40章 见招拆招破偷袭第五十七章 眼界第二十二章 尾大不掉第一百零二章 小马哥的大手笔第九十一章 布局四万亿第三十五章 哭晕在厕所的英特尔第四十八章 小钱花出大钱的效果第八十四章 硅谷氛围第二十一章 冷浸溶溶月第五十章 虚晃一枪的志愿第二十二章 初音网络科技第51章 不择手段第三十二章 无为而治第八十四章 硅谷氛围第二十九章 曹子建七步成诗的节奏第51章 不择手段第192章 既生乔何生顾第二十四章 QQ战争第十一章 新年新气象第57章 一百亿美元眼都不眨一下第五十四章 不必多礼第四十五章 摊牌时刻第二十九章 曹子建七步成诗的节奏第199章 无处不在炒房团第二十一章 比逼格更逼格第三十四章 连横合纵皆未果第78章 我说谁是救世主谁就是救世主第164章 打完收工第六十六章 三十年剑宗三十年气宗第四十三章 非典来袭第七十八章 忙死你不偿命第九十二章 对不起为了部落第六十四章 痘痘男扎克伯格第56章 攘外必先安内第三十九章 新年祈福第2章 声望值MAX的效果第五十七章 偷菜偷车偷奴隶第二章 不一样的重生第26章 思考器官第148章 初心2代-下第104章 智能汽车第32章 肌肉时刻丧钟响第六十二章 场外和解?第五十一章 门口的野蛮人-上第138章 承认共识也没用第五十四章 鸟枪换炮第九十章 谷歌想入股?第十八章 底细第七十二章 产学研一体第八十一章 逆风高飞第41章 抢票软件第66章 地图炮射程太远第五十七章 妈妈再也不担心我跪着看视频了