网路资讯/企业IT平台在云端 APM如何管住应用效能

作/狄恩

云端巨量资料以及分散式运算可说是系统的炼狱,而这能否透过应用效能管理来冷却其复杂性呢?

以为自己充分掌握了系统的应用效能?亚马逊(Amazon)也这么想,不过他们的电子商务曾当机了49分钟。另外纳斯达克(Nasdaq)也出现了状况,8月时因为技术故障导致系统3小时无法交易,让USA Today等报纸猜测伊朗骇客可能瘫痪了美国证券交易市场。

他们还在调查真正原因,不过基于这些组织拥有非常先进的基础设施,可以想像,能够瘫痪他们设备的人,绝非那些只会关掉网路数据机的泛泛之辈。

要管理整个企业的应用(applications)从来不是件简单的事,更不用说还要管理网路与伺服器虚拟化、云端应用与基础建设、巨量资料与因素分析诊断,若一不小心有个闪失,贵公司也可能会遭遇严重的问题,进而失去控制。

是什么阻碍APM的发展?

有些IT专家已经放弃了应用效能管理系统(applications performance management,以下简称APM),因为他们认为这些系统已经无法应付当今各种分散的应用,尤其是各种资源与资料根本四散各处。

几年前用的应用效能管理系统,如今已经不敷需求,而InformationWeek《2013年应用效能管理调查》显示,IT人员确实感到无力

从2010年开始调查以来,使用应用效能管理系统的受访者持续微幅下滑;当问到为何不使用这类系统时,回答「占用太多员工时间」者大幅跳升,从32%增加到51%。另外,缺乏相关专业则是位居第2的因素,占40%。

总括来说,资料的数量与种类变化,以及架构复杂度,从2010年以来大幅上升,而部分应用效能管理业者并没有跟上这个潮流

各家公司的资讯长就算花钱也解决不了问题,只能硬着头皮解决。不过,先别急着放弃应用效能管理系统。许多大型业者,包括BMC、CA、惠普(HP)与IBM等,都透过并购得到了相关能力,足以解决终端使用者的问题。

如果使用这些APM的公司,不仅仅只设定临界值、延迟中断监控反应时间基本功能外,还能向下挖掘,或许会发现一些好东西,像是即时反映趋势的图表。这会需要一些实验,而且必须与业者的顾问团队深入交涉,不过结果应会让人非常惊喜。

第3个阻碍APM的因素就是成本,有33%的受访者提到这个因素(2010年为41%)。当然,即使有些时候,许多配置在内部已投入了大量时间,但仍需要外在的协助。笔者有个客户的专案就是如此,他们一开始不想使用专业服务,但最后仍被迫重新分配资金,以达到APM业者的要求。

基本上,如果企业想要获得正式支援,必须雇用业者来评估环境。这次只有10%的APM用户表示,他们的系统规格超出预期,低于2010年的18%。

笔者发现,无论是APM用户或是业者,他们都无法了解,现今的虚拟化系统与云端系统怎么会产生如此巨大、复杂的营运资料。

解决云端与巨量资料的复杂性

为了监控、管理虚拟网路,现在伺服器虚拟化工具被大量使用,也使得资料点和资料测量变得更复杂。比起5年前,当时实体伺服器的轮询间隔(Polling intervals)约为10到15分钟,如今虚拟伺服器大约是2到5分钟,有时还得更频繁。

并不是所有搜集到的资料都有用,但为了确保高度虚拟化系统的应用效能,企业应该找出关键的资料流,并找到适合的应用效能管理系统进行整理,以产出有用的资讯。在寻找的过程中,企业可能会遇到下列2个阻碍。

1.使用混合云的IT团队其应用服务通常横跨了云端业者和内部网路,而且彼此独立运作。要仔细监控这些共享资源,几乎不太可能。

必须使用新方法来解决这个问题,例如从云端服务与管理业者取得应用程式介面(API)。不过,尽管多数API是以REST为基础、使用XML语言,但API通常无法在基础设施、平台或SaaS层次上跨越不同的云。

Simple Cloud API希望降低云之间的障碍,解决供应商锁定问题,但笔者只能说:祝他们好运。云端管理系统业者(BMC、CA、HP、IBM)必须持续强化他们与公有云、混合云的介面,但他们必须等待云端业者的API。

2.庞大的资料来源包括记录档、封包撷取、SNMP、XML资料、企业回应时间量表等。笔者对于APM的未来,有不同看法:如果可以利用这些资料来源,把目前的应用效能问题与未来可能碰到的问题独立出来,将头痛问题变成自己的利器

不过,要得到这样的好处,传统随意查询与产生历史资料报表的方法,也必须跟着改变,例如开始使用NoSQL查询法。

这会产生两种重大风险。

第一,就是没有足够的储存空间。

第二,如果APM系统吃掉太多网路与运算资源,那么它不但无法提升效能,反而会伤害效能。

现在企业应该审慎思考,究竟要使用多少资料来源。在近期一项计划中,笔者想要设定一个大数量的应用纪录。结果,当笔者用类似生产负载量测试该应用时,才发现资料处理的时间过长;所以,只好减少资料纪录量。

如果贵公司也遇到相同状况,即设定了太长的资料留存时间,则应该思考如何选择对的资料,因为这才是重点。