网路资讯/两岸三地MIS应对技术变迁之道(一)

作/林恩雅

资讯部门而言,何谓资讯系统的HA?简单来说,就是让系统不停机正常运作,一旦无法运作,不论是正常维修或异常状况下,也能让用户在可以容忍的时间内恢复正常。

高度可用性(High Availability,以下简称HA)的观念可以拆分成以下两组词汇

1.Mean Time To Failure(MTTF, 平均无故障时间)或是Mean Time Between Failure(MTBF,两个故障之间的时间):系统的可靠性越高,MTTF或MTBF的时间就越长,代表可用性越好。

2.Mean Time Repair(MTTR,平均修复时间):时间越短,就越能符合用户的容忍范围

业界有个不成文的HA算法,即HA = MTTF / (MTTF + MTTR)。

两案三地资讯系统HA 需考量的范围与界限

传统HA方案不外是讨论双主机备援、资料备份或Replication,但这种方案对两岸三地型的企业显然是不够的。

以右页图1典型两岸三地架构为例,至少要考虑以下几部份的状况才能完整体现出整体HA,任何一个点失效就有可能导致用户无法使用系统,包含两岸三地主机的HA、两岸三地ERP AP的HA、两岸三地资料库的HA、两岸三地线路的HA、两岸三地各个节点路由器等重要设备的HA。

除此之外,还有人的HA,包括相关系统开发、维护人员的HA,以及相关供应商的HA。

两岸三地主机的HA

对于两岸三地制造型的企业来说,除了大陆的五一、十一、及过年外,基本上生产单位都是一周7天无休、2班倒或3班倒生产,随时随地在对系统输入资料或对File server进行资料存取,因此机房中的主机除了以上3个时间点之外,是无法好好的停机整顿。

就算有时间停机整顿,时间够吗?笔者曾看过几个知名企业的File server资料量极度庞大,即便是用一天一夜的时间来进行完整扫毒、完整备份、资料重整,竟然还不够!这都是当初在规划过程中未考虑HA机制所造成。

如果要让主机有较好的HA可以从以下几个部份着手:

1.硬体组件:所采购的主机为双电源配备、RAID、热插拔,但这个方式仍无法解决作业系统损毁的问题

2.备份机:即新增一台组态一样的主机,平时正式机每日定期备份、定期将资料移转到备份机, 当正式机无法使用时,即使用备份机来处理。

但由于正式机与备援机的资料通常有时间差的问题,因此当正式机损毁时有可能造成资料损失(例如一天备份一次,则最坏情况有可能损失一天的资料)。同时如果资料量很大,则MTTR仍然会很长。

3.备援机:即用户端存取正式机时,资料会同时被写入另一台备援机,当正式机损毁时便自动人工方式切换到备援机,由于资料是同时写入到两台主机,因此不会有资料遗失的问题。此种MTTR几乎为0,但方案最贵!通常要有外部厂商、特定软体、特定硬体的协助才能完成。

另外,这些方案要特别注意「异地备援」!异地的机房、异地的主机才能有效保证主机高度的可用性,否则碰上如台湾的921大地震四川汶川大地震、或是大陆当地机关因查帐把公司主机抱走,先前所做的HA投资一样无效。

两岸三地ERP AP的HA

至少有2个理由需要让ERP AP有2台以上。首先,假设如果只有一台ERP AP,当毁损时代表两岸三地的ERP会全部停摆,代价会非常高。其次,则是基于负载平衡(Load balance),因为每一台AP Sever都会随着用户连线人数的增多、所需运算资料的增多而逐步耗用AP Server资源,当用户连线数超过某一个稳定值时,AP Server将无法为每一个Connection提供足够的CPU与记忆体资源,导致所有Connection的运作效率大幅滑落。