网路资讯/ 透过Hadoop 巨量资料蜕变巨大商机

网路资讯杂志/曹乙帆

巨量资料来袭,它或许是个契机,但也可能是场灾难,端看企业的心态及作为而定。趋势科技董事长张明正大声疾呼表示,如今正值云端运算、巨量资料再加上物联网?聚在一起的最佳时机点,无疑是再造台湾黄金30年的千载难逢大契机。台湾IT 发展会向上提升,还是向下沈沦,全在此一战!

过去,有价值的资料都会被正规化地储存资料库系统里,进而成为整个IT系统运作所仰赖的结构化资料,反观数量更加庞大的非/半结构性资料,在过去关联式资料库无法有效消化的情况下,只有被迫视之为敝屣地加以丢弃。但随着Hadoop及NoSQL 等新技术的出现,过去堆积如山的「垃圾」,竟然摇身变为企业致胜于千里的关键宝矿

事实证明,站在技术浪头尖端的Google、Yahoo、Amazon 及脸书,其在激烈商业大战中所展现的「远见」,竟然全都是从过去视之为敝屣的垃圾堆中萃取而出的。一时之间,巨量资料遂成为想要出人头地也好、大赚其钱也对,甚至想绝地逢生企业们的仙丹妙药。巨量资料的搜集、储存、建模(Modeling)、运算及分析因而成为当前最热门的显学,而Hadoop分散式平行运算架构及各类NoSQL分散式资料库更成为其中的佼佼者, 进而成为让企业拥有智慧洞见, 并能发掘巨量价值、创造无穷商机的新利器

面对巨量资料,企业可以正面对待,也可视而不见,全看企业的需求而定。所以巨量资料绝非非做不可的事情,而是要不要做的问题,换言之,如果觉得透过传统资料库便可在结构性资料中找到商业价值,那么就不必在影像图档日志中辛苦地翻箱倒柜,寻找出可为企业增长智慧的蛛丝马迹。

但在激烈的商业战争中,一丁点宝贵的智慧及洞见,都可能让原本僵侍战局出现戏剧化一面倒的局面,抑或让原本委靡不振的颓势出现出人意表的大翻盘。如果在原本传统资料库及结构性资料中无法生出更进一步的新意时,或许致敌于机先的锦囊妙计与答案就藏在巨量非/半结构性资料之中。对此,企业岂有如同缩头乌龟般地视而不见,白白放过向上提升的机会?

张明正在由趋势科技、国家高速网路与计算中心腾云计算公司主办的Hadoop in Taiwan 2012盛会会后指出,物联网所产生的巨量资料,再结合到后端云端运算及Hadoop分散式平行运算平台,将勾勒出今后长达30年光景的新产业价值体系供应链。在此体系及供应链中,不会再由过去商业软体巨头所能垄断,转而会是开原软体主导的天下,这对台湾产业而言无疑会是千载难逢向上提升的大契机。

打造台湾专属巨量资料产业价值体系

张明正认为台湾全新产业价值体系及供应链中拥有诸多无与伦比的优势。首先,今后物联网中Machine to Maching(M2M)网路,事实上会是装置感测器相互连结,并将搜集资讯上传云端进行分析的网路架构。谈到感测器,可说是台湾的强项及优势所在,这是因为台湾过去从BIOS到各种类比感测元件之开发上,累积了全球无出其右的丰富经验及Know-how,所以台湾绝对有能力在巨量资料这一波潮流当中,完成感测器子系统的建置。

过去台湾无法建立感测器子系统,而只能在OEM的微利中奋力周旋的原因,即在于缺乏后端可与之相连的运算平台。当前在生活周遭不乏许多感测元件的应用实例,例如现今ATM提款机的背后运作,即为感测器对感测器,以及对后端伺服器间的资料互通

同样的,机场通关的感测扫描元件,会将资料后传至伺服器或资料中心做分析比对。随着物联网时代的到来,各类装置间的互通有无将形成更加巨大可观的资料,这中间需要借助感测器将资料传送到后端主机或云端上,同时也要建置Hadoop储存及运算平台,乃至NoSQL资料库进行巨量资料的处理及分析。 过去从应用软体到伺服器,莫不是大型厂商禁脔,如今云端运算不再如此,开放原始码已经成为云端运算中一股非常重要的势力,其中尤以OpenStack及CloudStack 堪称是今后开放原始码云端之两大中流砥柱,今后不论私有云端、公有云端及混合云端的建置,同为Apache基金会开放原始码的OpenStack及CloudStack将成为商用方案之外的最佳选择之一。

除此之外,目前一谈到巨量资料,人们脑海中首现浮现的不再是过去制霸资料库市场的甲骨文也不是软体巨人微软,却是同为Apache基金会旗下的开放原始码Hadoop平行运算暨储存架构,以及HBase NoSQL分散式资料库。

由此可见,从云端运算,到巨量资料的储存、运算及资料库系统,不再是过去商业软体所垄断的局面,开放原始码在其中发挥非常巨大的影响力。同样的,台湾产业也可借由开放原始码发光发热,借此打造从感测子系统到后端云端运算与Hadoop平台的产业价值供应链及生态体系。

张明正极富洞见地指出,身处巨量资料及物联网的新世代里,「资料」就等同于科技界的新能源,谁掌握的愈多、愈充份,谁就是这个世代的主宰者