记AI英雄榜先锋奖得主周曦:深耕语音十余年为何转战图像
作者|丁广胜
“我做了一个错误的判断,一个正确的决定。”
周曦这样形容自己在创业伊始,学习研究领域和创业实践领域的不同。
按照摩尔定理,语音识别每 18 个月错误率能够减半,他感觉实用还是很难,而图像识别的视频和图像是个更大的天地,可以解决的问题要多得多。对于图像来说,识别宇宙万物都非常有意义,不仅仅是识别人的脸。
判断的错误之处在于,他现在感受到了语音识别的迅猛进展,由于公司发展需要,云从科技也在完善语音与NLP等感知技术。
而笃定正确的原因在于,图像应用场景更加广泛,而人脸是图像之中最重要的东西,每个行业都与人有关,它是天然的跨行业入口,“作为一项对社会生活必将影响深远的事业,人工智能企业的重点就是要解决问题,人工智能企业目前的体量还没有大到几百上千亿的规模,即便最领先的公司,收入规模也就是10亿级,这对于GDP快100万亿的国内市场而言,还是非常小的数字。”
在语音识别领域研究探索十余年,如今战斗在图像识别一线,“转型”成功的周曦如何一步步成长?又如何洞悉未来?
学习之路
从1999年开始,周曦进入中国科学技术大学学习,2006年硕士毕业。
读研究生期间,他成为一名微软亚洲研究院的实习生,谈及这段经历,周曦感慨万千。
他当时照着《肖申克的救赎》里的桥段开始给微软亚洲研究院发邮件,在电影中,安迪写信向州议会要钱建监狱图书馆,当时狱警跟他说肯定没用,你写多少都没用,他们不会理你的,但最后真的拨款建了起来。周曦也在一直坚持,从最初每周一封到后来每周两封,写了近三个月,居然真的拿到了实习通知。
后来他才知道,申请实习的那个组,中途发生了人事变动,一直处于无专业组长的状态,新来的负责人无意中看到信,他才终于等来实习机会。
“我们永远不知道过程中会发生什么,跟搞研究一样,能做的只有努力。”在微软亚洲研究院,他还遇到了一群当时全中国最优秀的人,大家在一起可以产生思维和技术上的碰撞与融合就是最大的收获。“那个时候的微软是技术研究者的圣地。”
在这里他还遇到了自己的人生中最重要的导师——周健来,“他是一个技术背景深厚,兢兢业业的科学家。”周曦谈到,从推导数学公式到电脑上的实验,需要经历一系列复杂的过程。而实验结果基本上都会很坏,因为程序、推导可能写错,假设也可能出错,在这么长的链条上,很多时候我们根本不知道错在哪里。
“这是一个痛苦的过程,周健来却让我从中意识到了做研究的乐趣,而之前我们采用的办法是走捷径,风险都被前人承担了。做研究就像打战,虽然推导的过程前人已经做过,但你走一遍就相当于掌握了这项武器,就可以上战场了。”
而周曦对于图像识别研究的兴趣也始于这段时间,有一天,他看到一条新闻,国外有人在泳池下装了一个摄像头,可以自动识别游泳者是不是溺水,他想,做图像视频可以有很多的方法帮助别人,非常有意思而且价值巨大。
硕士毕业之后,周曦离开微软,在2006年的夏天来到了美国伊利诺伊大学(UIUC)。
周曦(左一)、Thomas S. Huang(左二)、中科院重庆研究院院长袁家虎(左三)
四年的博士与博士后生涯,周曦师从四院院士、“计算机视觉之父”黄煦涛Thomas S. Huang,“他是那种给我们营造环境的大师,给我们很大的平台和 high-level 的指导,比较轻松自由的环境,可以去做自己想做的方向,我们那会儿自己三五成群研究自己感兴趣的东西。”
在那个时候,语音识别走在图像识别前面,已经到了系统化的阶段,语音有很多做得很好的算法和思想,周曦在图像上实践,2006-2010 年之间拿了很多世界冠军。周曦开始琢磨,拿了这么多冠军,总要做什么有意义的事儿吧,这时他就发现,图像识别虽然能识别宇宙万物,但一定要具体到一件事上才能帮助别人。
2011年秋天,周曦选择回国。
创业之路
周曦以中国科学院“百人计划”专家的身份归国加入了中科院重庆绿色智能技术研究院,成立智能多媒体中心,这个中心是由中国科学院联合新加坡国立大学,伊利诺伊大学创办,专门从事人工智能领域的研究。
在中科院的几年间,他将多年来的积累所学上线实践,在2007-2016年期间七次获得智能识别类世界大赛冠军,曾作为中国科学院人脸识别唯一代表参与战略先导A类专项“新疆安防布控”。
在周曦看来,智能语音的发展成熟度要比图像高很多,但图像识别领域不一样,这里正处在“战国时期”,百花齐放百家争鸣,这是一座大金矿,每家都说自己的东西是最好的,同时,图像识别领域还没有形成大环境,竞技的舞台还没有搭好,这是一个机会,百家争鸣的时代,更容易异军突起。
2015年4月,周曦牵头成立云从科技,走上创业道路,初创团队大多来自中国科学院各大研究所、著名大学及研究机构。
截止目前,在金融领域,云从科技服务包括农行、建行、中行、招行总行等全国400家银行,提供对比服务日均2.16亿次;在安防领域,他们的产品已在29个省级行政区实战,每天比对超过10亿次,数据汇聚总量超过千亿,协助全国公安抓获超过1万名犯罪嫌疑人;在民航领域,云从科技已进入60余家机场,日均服务旅客超6千万。
近四年的创业路,周曦也吃了很多“教训”,他告诉本站智能,学术界所关心的大部分是技术问题,而工业界需要关注的问题更为广泛和实际,一个好的技术与一个好的商业实践之间,有着巨大的鸿沟,只靠技术和科研是远远不够的,从核心技术走到产品;从产品走到行业解决方案;从行业解决方案走到销售;从销售走到整个服务体系,这一圈只有亲自走完,才能得到客户的认可。
他举例到,在创业初期,团队要去一家银行做投标,参与人脸身份认证的业务。为了拿下这个项目,科学家在一起憋了好多天,写了十几页的方案,自己觉得已经非常详尽了,也考虑到了各种情况,但实际情况却让他们大吃一惊——银行方说从来没有供应商给他们写过十几页的方案,最少都是300页起。
而在这之前,团队根本不知道这个事情需要写这么多内容,行业认识的不足导致他们栽了跟头。“要想让对方接受自己的方案,就必须从对方的需求出发,只有你熟悉了细分行业,了解整个行业的信息技术架构,才能知道自己需要做多少准备,才能考虑整个产品的解决方案。”周曦总结道。
目前,周曦越来越少出现在公共场合,将主要精力用在了打磨产品和解决方案上,他认为解决用户的问题就要做出好的产品,在好的产品和解决方案基础上形成平台,最终组成一套联动的网络。
他还提到喝酒拉客户的问题,周曦说从公司成立起就从不陪客户喝酒,“如果能够真正帮助人家解决真正的问题,人家不在乎你跟他是不是喝酒,反过来如果你靠喝酒,我不认为你最后能解决人家大问题。”
他认为当企业比较小的时候,也许能靠搞关系去搞定几个大客户,但如果真的想做一番事业,就回到一个科学问题,要有一套科学体系,一层一层解构,并且进行验证。
探索之路
“中国有一个习惯,在短期内过于高估技术的实力,而又在长期低估技术的潜力。”
在1997年,人类象棋冠军卡斯帕罗夫输给了一台深蓝人工智能,当时就有很多人说,这是一个新的时代、一个人类将被人工智能支配的时代。但20年后的今天,我们和人工智能关系的最大改变是iPhone,不是深蓝,也不是Alpha Go,周曦谈到。
从长期来看,他认为人机交互技术是一个时代的入口,它能让用户更方便的与服务、内容连接,而今后的交互模式就是人工智能、互联网(5G)、IoT,人工智能作为核心能力,通过5G网络驱动加载AI芯片,具备计算能力的终端设备,“最好的人机交互,就是没有交互,一个想法就可以实现服务”。
对于云从科技而言,在平台化之外,则是AI定义场景与AI定义设备的谋划布局。什么叫AI定义场景呢?周曦介绍称就是说与行业专家一起,提取行业最广泛和最关键的需求,做出最好最通用的产品和解决方案去满足他们的需求,让人工智能能够大幅提升行业智能化水平,AI+细分场景能够被认可。
一言以蔽之就是,从客户的实际需求出发,研究推出全新的解决方案和服务。他们还总结出了五点方法论:
L1,核心技术;多个核心技术研究,打造核心技术闭环,解决学术成果领先性问题;
L2,技术验证;解决使用环境中的问题,验证成果在行业中是否能够实战;
L3,服务行业;将获得验证的核心技术形成产品和解决方案,真正帮助行业。
L4,构建平台;构建行业大脑,提升整体行业水平,而非单个企业。
L5,建立生态;AI企业以核心技术、产品能力、行业平台作为基础,带动产业上下游,使人工智能成为中枢,形成智能生态,实现“头雁”效应。
周曦认为只要真正的在一个个行业里解决问题,一定会有市场,资本寒冬也不是问题,问题就在于没有做出好产品,或者你对自己做出来的产品,有没有决胜千里的信心,未来谁能实现从产品型企业到平台型企业,进而建立产业生态,一定是企业良性发展的重要保障。
但这个过程充满挑战。