近一段時間以來,在媒體上不斷傳出經(jīng)濟(jì)復(fù)蘇的討論讓飽受經(jīng)濟(jì)危機煎熬的人們感到一絲絲的振奮。但在經(jīng)濟(jì)復(fù)蘇進(jìn)程中一般都會存在著許多不確定的因素,一不留神這些不確定的因素就會對企業(yè)的復(fù)蘇進(jìn)程造成打擊。例如,在上周發(fā)生的IT災(zāi)難就讓CIO張遠(yuǎn)達(dá)出了一身的冷汗。這一事件表明,當(dāng)人們沒有對IT災(zāi)難作好準(zhǔn)備時,經(jīng)濟(jì)復(fù)蘇的愿望還只是一個良好的美麗謠傳,因為IT災(zāi)難的強大旋渦力量會把企業(yè)再往深水處拖曳。
“養(yǎng)兵千日,用在一時,但在經(jīng)濟(jì)復(fù)蘇的最關(guān)鍵時刻,你們卻掉鏈子了”。面對CEO的嚴(yán)厲批評,張遠(yuǎn)達(dá)無言以對。原來在上周公司如常進(jìn)行IT系統(tǒng)批處理時,生產(chǎn)系統(tǒng)發(fā)生了嚴(yán)重的癱瘓事故。最初沒有人把這個問題當(dāng)回事,但在獲知上千兆的數(shù)據(jù)庫發(fā)生崩潰后,而進(jìn)行異地?zé)醾浞莸呐σ残媸r,CIO張遠(yuǎn)達(dá)就意識到事情大了。因為備份文件對崩潰的系統(tǒng)進(jìn)行了鏡像,一場真正的災(zāi)難擺在了IT部門的面前。
盡管結(jié)局最后是完美的解決了,但企業(yè)卻已經(jīng)到了很危險的邊緣,差點就要造成業(yè)務(wù)上和生產(chǎn)上的重大損失。而造成這一災(zāi)難的罪魁禍?zhǔn)字皇擒浖囊粋€小沖突造成的,但讓人遺憾的是公司沒有對IT災(zāi)難有事先足夠的應(yīng)對措施。尤其是面對這突如其來的IT災(zāi)難,IT部門顯得有點手足無措。
一.什么是IT災(zāi)難意識?
隨著技術(shù)的發(fā)展,企業(yè)運營越來越依賴于IT系統(tǒng)的穩(wěn)定運行。因此,對于CIO來說保障IT系統(tǒng)正常運行是非常重要的。IT災(zāi)難有各種各樣,可分為兩大類:一是企業(yè)外部引起的災(zāi)難,可能是天災(zāi)比如地震、臺風(fēng)暴雨等影響網(wǎng)絡(luò)通信,也可能是人禍比如911事件等;二是企業(yè)內(nèi)部因素所引起的災(zāi)難,如系統(tǒng)崩潰、系統(tǒng)故障或最簡單的掉電使數(shù)據(jù)備份失敗,還有就是頻繁的病毒和木馬的攻擊等。
(1)什么是IT災(zāi)難?
IT災(zāi)難是指使企業(yè)在IT方面遭受嚴(yán)重?fù)p失或面臨嚴(yán)重?fù)p失威脅的突發(fā)事件。這種突發(fā)事件在很短時間內(nèi)波及很廣層面,對企業(yè)正常運作產(chǎn)生嚴(yán)重影響。因此,我們要時刻提防IT災(zāi)難的發(fā)生。而在提防IT災(zāi)難發(fā)生時,我們需要先理解IT災(zāi)難的特點。IT災(zāi)難一般情況下都具有三個特點:一是突發(fā)性:IT災(zāi)難往往都是不期而至,令人措手不及,例如木馬病毒的攻擊。二是威脅性:IT災(zāi)難的出現(xiàn)往往威脅到公司業(yè)務(wù)運作,甚至危及企業(yè)的生存與發(fā)展,例如造成關(guān)鍵數(shù)據(jù)掉失和損壞。三是緊迫性:當(dāng)IT災(zāi)難出現(xiàn)時,對災(zāi)難做出的反應(yīng)和處理的時間十分緊迫,任何延遲都會帶來更大的損失,一點點的失誤都會釀成軒然大波。
(2)IT災(zāi)難意識的重要性
從上述的IT災(zāi)難特點,我們知道IT災(zāi)難對企業(yè)IT系統(tǒng)的破壞程度是突發(fā)的、影響巨大的。例如,眾所周知的“9.11”事件曾造成1200家公司受災(zāi),其中一半以上的企業(yè)因為IT數(shù)據(jù)損毀、丟失,導(dǎo)致業(yè)務(wù)無法恢復(fù),以致于宣布倒閉。因此,面對IT災(zāi)難時切不可有僥幸的心理,如象鴕鳥一樣把頭埋在沙土里,那樣即使回避了一時的問題,卻可能為更大的IT災(zāi)難播下了潛在的種子。因為像鴕鳥一樣的逃避態(tài)度,隨便把頭埋在沙里,殊不知自己大大的屁股正露在外面。
據(jù)有關(guān)調(diào)查顯示,IT災(zāi)難悲劇的誕生一方面是企業(yè)和CIO的心存僥幸,但更深層次的原因是企業(yè)內(nèi)的決策系統(tǒng)缺乏責(zé)任認(rèn)定,缺乏IT災(zāi)難意識。盡管IT災(zāi)難是小概率事件,但它一旦發(fā)生就是高風(fēng)險事件,因為哪怕是1%的數(shù)據(jù)災(zāi)難也能導(dǎo)致100%的損失。事實上,目前許多企業(yè)并沒有意識到IT災(zāi)難的潛伏危害性,未雨綢繆在他們的口中就是紙上談兵,畢竟救火的英雄遠(yuǎn)比預(yù)防火災(zāi)的人更奪目,更有英雄式的表現(xiàn)。因此,推行IT災(zāi)難防范意識不但困難重重,而且還任重道遠(yuǎn)。
二.防范IT災(zāi)難對經(jīng)濟(jì)復(fù)蘇打擊的策略
風(fēng)云變化萬千,只有未雨綢繆的人才能坦然應(yīng)對災(zāi)難。IT災(zāi)難總是突然的、出人意料地爆發(fā),這是CIO必須面對的一個重要考驗。而防范IT災(zāi)難的最好辦法就是準(zhǔn)確的預(yù)見,這是成本最低、最簡便的方法。因此,最基本的做法是建立起IT災(zāi)難預(yù)警系統(tǒng)。包括事先明確定義IT災(zāi)難管理人員的角色、職責(zé)和權(quán)限,識別IT災(zāi)難類型和反應(yīng)對策流程以及確認(rèn)所需的資源。另外,還需要事先對各級反應(yīng)計劃進(jìn)行預(yù)演。主要具體步驟如下:
(1)建立IT災(zāi)難預(yù)警系統(tǒng)
常言道:生于憂患,死于安樂。CIO要想IT系統(tǒng)長久的穩(wěn)定運行,需要先樹立起危機意識:IT災(zāi)難是遲早都會來的。因此,要想在災(zāi)難來臨時做到不被動,光有災(zāi)難意識是不夠的,必須要未雨綢繆建立IT災(zāi)難預(yù)警系統(tǒng),以及時捕捉可能發(fā)生的災(zāi)難征兆,和為各種災(zāi)難提供切實可行的應(yīng)對措施。例如,明確當(dāng)IT災(zāi)難發(fā)生時應(yīng)該采取什么樣的對策,通過什么樣的程序進(jìn)行有效處理,確定什么人員在什么時間做什么事。主要包括以下三個方面:
①成立IT災(zāi)難管理小組
建立IT災(zāi)難預(yù)警系統(tǒng)的一項重要工作是成立IT災(zāi)難管理小組。因為只有做好組織上的準(zhǔn)備,有備才能無患,才能更好的應(yīng)對IT災(zāi)難的爆發(fā)。IT災(zāi)難管理小組的主要作用在于全面清晰的對企業(yè)可能面對的各種IT災(zāi)難進(jìn)行預(yù)測,為處理各種IT災(zāi)難制定有關(guān)的策略和步驟。從而在遇到IT災(zāi)難時,能夠全面、及時、快速的處理災(zāi)難。
?、诹谐鲈敿?xì)的IT災(zāi)難級別
為了更好的預(yù)警IT災(zāi)難,首先要將所有可能突發(fā)的IT災(zāi)難事件一一列舉出來,考慮其可能發(fā)生的后果,并且估計預(yù)防所需的花費。這樣做可能很費事,但卻很有必要。我們強調(diào)的是不能坐以待斃,而是應(yīng)該要在災(zāi)難發(fā)生之前,做好相關(guān)的準(zhǔn)備工作,這樣才能從容不迫的應(yīng)變。因此,對CIO來說必須列出一張IT災(zāi)難評估表,詳細(xì)列出可能發(fā)生的災(zāi)難,并且評估它們的等級,并依發(fā)生的可能性從最可能到不太可能依序排列。例如,在可能遇到的各類災(zāi)難可分為三級:一般事件,緊急事件和重大事件,并形成IT災(zāi)難級別詳細(xì)列表說明。這樣,一旦發(fā)生IT災(zāi)難時,IT部門和各人員就能對照表上的要求進(jìn)行檢查,及時的調(diào)動資源來處理災(zāi)難。
?、勖鞔_IT災(zāi)難處理流程和處理細(xì)則
只有制定明確的IT災(zāi)難處理流程、策略和細(xì)則,才能確保在IT災(zāi)難洶涌而來時能夠理智冷靜,胸有成竹。這些IT災(zāi)難處理流程在業(yè)務(wù)正常時不起作用,但是在IT災(zāi)難發(fā)生時會及時啟動并有效運轉(zhuǎn)。這樣一旦IT災(zāi)難出現(xiàn)時,IT部門各員工就都知道應(yīng)該要做什么,而不必依靠某一個關(guān)鍵人物的急中生智來力挽狂瀾。因為在IT災(zāi)難發(fā)生時,要處理的工作是何其繁多復(fù)雜,而這一切都需要在極短的時間內(nèi)完成。如果事前沒有周全的計劃、能夠立即付諸實施的制度和流程、能夠立即投入角色并展開工作的人員,則可以預(yù)見在IT災(zāi)難發(fā)生時,反應(yīng)遲緩和內(nèi)外混亂將是無法避免的。
(2)制定災(zāi)難后的保障:IT容災(zāi)系統(tǒng)
在經(jīng)濟(jì)復(fù)蘇進(jìn)程中,既然IT災(zāi)難不能完全避免,也不能預(yù)測其發(fā)生的時間和危害,所以在IT災(zāi)難發(fā)生后保證業(yè)務(wù)連續(xù)性是IT部門和CIO的重大職責(zé)之一。因為當(dāng)IT災(zāi)難無可避免地要發(fā)生時,導(dǎo)致災(zāi)難發(fā)生的根本原因也許已經(jīng)不那么重要了。最重要的是如何快速、可靠地解決問題,并將IT系統(tǒng)崩潰所造成的損失降到最低。所以,當(dāng)災(zāi)難不可避免時,如何在災(zāi)難中快速恢復(fù)將考驗每一位CIO。因為企業(yè)在遭遇災(zāi)難后,IT系統(tǒng)和業(yè)務(wù)恢復(fù)的速度在一定程度上將決定企業(yè)的生死存亡。
IT容災(zāi)系統(tǒng),顧名思義就是對可能被IT災(zāi)難破壞的數(shù)據(jù)、數(shù)據(jù)處理系統(tǒng)、網(wǎng)絡(luò)系統(tǒng)、基礎(chǔ)設(shè)施及運行管理能力備份的過程。不過,IT容災(zāi)系統(tǒng)并非只是IT災(zāi)難的恢復(fù),它更重要的內(nèi)涵是恢復(fù)企業(yè)的業(yè)務(wù)能力。它有一個整體性的管理流程與方法,主要是識別潛在的IT災(zāi)難和相關(guān)影響,并制訂一個快速恢復(fù)能力和有效反應(yīng)能力的計劃,確保關(guān)鍵業(yè)務(wù)的持續(xù)性。它包括IT部門的災(zāi)難恢復(fù)預(yù)案及業(yè)務(wù)部門的災(zāi)難恢復(fù)預(yù)案。因此,一個完整的IT容災(zāi)系統(tǒng)應(yīng)該包括本地數(shù)據(jù)備份、遠(yuǎn)程數(shù)據(jù)異地備份,以及采用多種技術(shù)手段進(jìn)行快速業(yè)務(wù)恢復(fù)的能力。
(3)強化IT災(zāi)難模擬預(yù)演
有一句俗語:幸運之神永遠(yuǎn)只關(guān)照那些有準(zhǔn)備的人。因為災(zāi)難并不可怕,可怕的是沒有應(yīng)對的措施。但制定好IT災(zāi)難應(yīng)對措施后,并不是萬事大吉。很多企業(yè)就沒有意識到這一點,它們往往花費了大量的人力和物力制定了IT災(zāi)難預(yù)警系統(tǒng),以為萬事大吉了。殊不知,在IT災(zāi)難狀態(tài)下這些措施并不一定有效,因為不經(jīng)過模擬演練的計劃無異于紙上談兵。
據(jù)有關(guān)調(diào)查顯示,目前許多企業(yè)面臨的問題:一是缺乏IT災(zāi)難防范意識;二是IT災(zāi)難盲目建設(shè);但最嚴(yán)重的問題是缺乏必要的模擬演練。因為IT災(zāi)難恢復(fù)系統(tǒng)只在災(zāi)難發(fā)生時才會考慮啟用,在企業(yè)日常運營中并不投入使用。所以,即使有問題不能使用也不會立即暴露出來。因此正是這個原因,模擬演練就顯得特別重要。而事實上對IT災(zāi)難恢復(fù)進(jìn)行模擬演練用不了多少投入,但定期進(jìn)行不同范圍不同形式的IT災(zāi)難演練,卻可以充分檢驗所制定的IT災(zāi)難預(yù)警、IT災(zāi)難恢復(fù)以及業(yè)務(wù)連續(xù)運營能力是否可靠有效。現(xiàn)在,張遠(yuǎn)達(dá)就經(jīng)常心有感觸的說道:“任何未經(jīng)模擬演練的IT災(zāi)難預(yù)案都是無效的!”。
古語有云:“人無遠(yuǎn)慮,必有近憂”。IT災(zāi)難是每個企業(yè)都不愿面對的事情,既然IT災(zāi)難不可避免,那么只有積極的防患于未然中,才能扭轉(zhuǎn)IT災(zāi)難于旦夕之間。平時多一些IT災(zāi)難意識,多制定幾套IT災(zāi)難的處理方案,在災(zāi)難來臨時就會鎮(zhèn)定從容得多。經(jīng)濟(jì)復(fù)蘇進(jìn)程也就不會被意外打斷,經(jīng)濟(jì)復(fù)蘇也就會更有保障了。