先探投资周刊/郑威宏:海量资料将成企业标准配备

【文/郑威宏】

凡走过必留下痕迹,同时也留下大量商机,在美国海量资料应用已扑天盖地而来,大到打总统选战,小到挤牛奶,未来公司要在产业站稳脚步,海量资料处理已从「选配到标配」,预估产业每年以六成的速度高速增长。

著名新月派现代诗人徐志摩留下脍炙人口的新诗︱再别康桥,新诗中「悄悄的我走了,正如我悄悄的来;我挥一挥衣袖,不带走一片云彩」,营造出那番寂然无声沉静味道。如果回到现代社会,可能这种飘逸感就打上不小折扣。

当今,作诗写稿也已不再使用纸张,人类的行为模式开始由实体转向虚拟(电脑云端硬碟),也因为如此,不带走一片云彩也只好改成「凡走过必留下痕迹」。

到处都是走过的痕迹

事实上,凡走过必留下痕迹,这其实就是BIG DATA(海量资料)时代来临的一项特征。

近年来,随着3G智慧型手机的普及(4G随侍在后)、电子商务的盛行、社群网路的大行其道、云端伺服器应用增加等因素使然,一来增加消费者对于网路世界的黏着度,二来消费者的使用频率高品质档案传输环境成熟,大幅提高网路上的资料传输量。

据IBM一○年底统计,亚马逊每秒的订单数量达七二.九笔、每家户每天的资料使用量三七五MB、全球使用者脸书每月的使用已达七○○○亿分钟以上、谷歌每天处理的资料量达二四PB(1024 Trillionbyte)、移动数据每日的流量达一.三EB(一○二四PB)等,这些都是使用者留下的痕迹。

但在过去,由于处理技术上的不足,如此大批的资料库却苦无用武之地,最后因使用频率太低,或是储存成本压力,只好舍去。

不过,○三至○四年间,由谷歌发表两篇论文「The Google File System、MapReduce : Simplified Data Processing on Large Cluster」开始,叙述谷歌如何利用MapReduce演算法来计算查询索引,让使用者能在最短时间从网际网路上取得自已所需查询的资料,让海量资料处理开始浮上台面,也是海量资料最早的应用之一。

海量资料处理能力翻数倍

尔后,Doug Cutting(又被称为Hadoop之父)参考上述谷歌二篇论文为蓝图,演变成一套如何储存、处理、分析TB至PB等级的资料处理方法︱Hadoop。

Hadoop是一个免费且开放原始码的分散式档案系统,可以用于各种不同电脑之间,总和成为单一电脑系统进行平行运算,不仅全球最快的运算系统,也是当今海量资料处理最主要的基础架构,就如同一般消费者笔电中的Windows作业系统

而且,Hadoop更可怕的不只是能处理一TB以上的海量型资料,此外,过去的资料处理领域多为局限在结构化资料(指资料经过分析后可分解成多个互相关联的组成部分,各组成部分间有明确的层次结构)。

但Hadoop还能加入非结构化资料的分析能力,像是log记录档、照片、声音、通讯记录或是电子邮件等,过去不易、不被且昂贵的储存、处理、分析的资料,现在都得到解决。

过去而言,结构化资料约占资料量的一五%,但半非结构化资料却高达八五%,也就是说,有了Hadoop的出现,不但能让现有的资料处理能力以倍数增加,而且,这种半 非结构化的资料就像一个新发现的矿山,处处充满商机,更是让海量资料威力发挥得更淋漓尽致。

比方来说,如果消费者要去实体商店消费,服务认真一点的店家会记录消费者的最终消费纪录,未来有新品,或是店家以直觉的提供相关产品的试用等,但消费者走向虚拟店家(电子商务)后,不仅是最终的消费纪录。

像是曾在网页上点击过什么样的产品、停留时间、购物顺序等都会被记录下来,不仅能提供给下一个同性质的客群添购上的推荐参考,而且,别人的消费选择也会再次回馈,以便同一位消费者再次光临。

近期最夯的例子是美国最大线上影片出租服务公司Netflix(NFLX.US),在使用海量资料分析后,网站推荐给客户的影片中,十部有七.五部会被消费者采用,大大减少行销成本外,还增加Netflix与客户间的黏着度。

此外,更神奇的是,由于Netflix已先将影片的导演、明星组合、影片剧情元素等资料经由演算及分析过,当使用者看完影片,要对影片下评价前,Netflix已预测出使用者会给怎样的评等,充分满足客户需求,难怪Netflix股价从去年中的五○美元,涨至目前超过二五○美金

租片牛乳、总统选战

而且,海量资料不仅可应用在虚拟经济上,实体经济同样受惠。先前彭博新闻曾报导,一家牛乳农场将挤奶机器置上资料储存系统,记录每头乳牛长期分泌牛乳的资料,并找到最佳化的挤奶策略;并且,透过这些非结构资料,还能知道乳牛是否健康,是否感染乳腺炎,大大增加采乳量及农场运作效率。

另外,去年美国总统大选时,欧巴马竞选团队也使用海量资料来进行选战分析,发现选民喜欢竞赛、小型宴会及名人加持等元素,而且,由于海量资料的取得及解读,可以准确了解某族群或是某地区对于欧巴马的支持度,因而可以采取相关的应对措施,成为欧巴马赢得选战的秘密武器

不论是虚拟或是实体的世界,海量资料的应用已经是越来越普及,不再是谷歌、雅虎搜寻引擎业者的专利。

近年来,已明确使用海量资料分析的国际级知名企业,像是脸书、IBM、纽约时报、丰田、三星、微软等都已先后采用,可预见的,未来行销及营运策略面向的针对性将大为不同,具有分析及使用海量资料的企业,相较之下竞争力势必大幅提升,也让企业提高架设海量资料平台的意愿。

因此,可以预见海量资料市场势必将快速扩大,根据Wikibon研调资料指出,预估在二○一六年底时,全球海量资料处理市场将成长至五三四亿美元,较去年底时,市场整整成长超过十倍,换算成年复合成长率高达五九.九%,可说是超快速成长的市场,一点也不逊于云端市场的成长速度。(全文未完)

全文详情及图表请见《先探投资周刊》有更多精彩当期内文转载