在數(shù)字時代提高IT彈性的七個技巧
譯文?譯者 | 李睿
審校 | 孫淑娟
在大部分時間里,IT彈性一直專注于正常運行時間,確保業(yè)務系統(tǒng)不會出現(xiàn)宕機。如果出現(xiàn)宕機,則盡快讓它們恢復在線運營。
但這只是現(xiàn)代數(shù)字時代的一部分。如今,IT彈性意味著更多。
博思艾倫咨詢公司的首席信息官Brad Stone表示,他通常從兩個方面考慮彈性:一個是讓業(yè)務不受干擾;二是要具有調整、應對變化和應對突發(fā)事件的能力。此外,彈性現(xiàn)在意味著做到這一切的同時,不斷地提供用戶期望的體驗。
他說,“在十年前,如果發(fā)生故障或中斷,只是及時處理即可。但是當今的用戶和業(yè)務主管希望科技一直發(fā)揮作用,并提供令人驚嘆的體驗。人們現(xiàn)在的期望值要高得多,因為IT是一個推動者,它變得更加重要。雖然用戶可能并不要求完美,但他們的標準非常高?!?
這反過來又促進采用更廣泛的方法來確保當今的IT彈性。專家和IT領導者為此提供了建議首席信息官采用的7個最佳實踐,以確保他們滿足當前對彈性的期望。
1.與業(yè)務需求保持一致
咨詢和服務機構GuidePoint Security公司的業(yè)務彈性總監(jiān)Ron Brown將IT彈性定義為確保技術總是可用,盡管他承認不太可能做到完美。
他說:“企業(yè)必須做好準備,因為突發(fā)事情會在某個時候發(fā)生?!?/p>
Brown指出,首席信息官可以清楚地知道哪些系統(tǒng)對業(yè)務最重要,從而為這種必然性做好準備;這種清晰性讓IT團隊知道在任何類型的宕機期間首先應該關注什么。
他說,“毫無疑問,IT團隊必須做的第一件事就是與業(yè)務團隊保持一致,了解他們的需求以及愿意為其目標所付出的代價。業(yè)務影響分析可以幫助IT部門和業(yè)務部門實現(xiàn)這種一致性。一旦了解了業(yè)務的需求,那么將如何規(guī)劃擁有的服務和功能以及哪些應用程序由哪些團隊使用,以便在出現(xiàn)問題時知道把重點放在哪里,并讓它們恢復正常。”
2.打破孤島
現(xiàn)在擔任網絡風險管理商Axio Global公司的高級顧問Richard Caralli以前曾是一名首席信息安全官。他認為,彈性是從管理運營風險延伸出來的一種新興屬性。
為了做到這一點,IT運營和網絡安全應與負責監(jiān)督業(yè)務連續(xù)性/災難恢復計劃的領導者合作。然而,這種情況并不總是發(fā)生。
他說,“這些活動往往是孤立的,因此每個學科都在不同的風險假設和情景下運作,而實際上它們必須融合并協(xié)同工作?!?
Caralli表示,例如,企業(yè)的網絡安全團隊可能專注于創(chuàng)建一個出色的深度防御策略,以便更好地確保它能夠防止入侵,在發(fā)生入侵時進行檢測,并在它們發(fā)生時做出響應。但是,如果網絡安全人員沒有與風險和IT團隊密切合作,那么IT團隊可能無法很好地規(guī)劃如何以最少的后果盡快恢復正常運行條件。
他補充說,“如果他們沒有在一起進行協(xié)商討論,可能會針對不同的風險各自進行規(guī)劃或量化。他們必須一起規(guī)劃和運行方案。如果從影響方面看待風險,并能夠預見可能發(fā)生什么樣的后果,就可以開始量化風險,然后知道將資金花費在哪里,是將其用于預防方面還是花在減少影響的安全實踐上。”
3.讓指標更加成熟
管理咨詢公司麥肯錫公司的合伙人Jorge Machado表示,隨著IT彈性的發(fā)展,首席信息官應該調整用來衡量和管理運營的指標,以確保他們實現(xiàn)正確的目標。
Machado說,“在傳統(tǒng)上,如果回到10年前,這將是關于正常運行時間、應用程序的可用性以及平均恢復時間。但如今,隨著應用程序越來越以微服務為導向,我們不再使用單一的系統(tǒng),需要以更細致入微的方式進行衡量。”
他和他的同事麥肯錫公司合伙人Arun Gundurao建議,將衡量重點放在執(zhí)行關鍵交易的能力上,例如從用戶角度衡量客戶交互失敗、應用程序體驗或服務水平目標。
Gundura說,“這是企業(yè)關心這個應用程序或客戶旅程中的重點,要衡量的是企業(yè)想要衡量的東西?!?/p>
4練習和實踐
博思艾倫咨詢公司的Stone認為,彈性意味著成功處理意外情況。為此,Stone需要確保其IT部門不會為突發(fā)事件而措手不及。這意味著通過練習和模擬進行培訓、測試和練習。
他說,“IT團隊經常進行練習,而不是事先所有人,在發(fā)生突發(fā)事件時觀察團隊成員的反應。這就像是實彈演習。IT團隊必須在正確的時間小心行事,但這必須成為節(jié)奏的一部分。而IT團隊必須有一些標準的操作程序,通過這些程序并加以完善。必須讓員工感到不舒服,向他們發(fā)起挑戰(zhàn)。而團隊成員在練習中也會加深友誼,因為只有團結在一起才能度過難關?!?
Stone說,這樣的練習讓首席信息官和他們的IT主管有機會在運作良好的流程中建立信心,并找出不足之處,例如缺乏經過關鍵技術培訓的冗余員工,或者在某個應用程序失敗時缺乏備份程序。
5.架構彈性
IT顧問強調,通過跨地理位置分布實例和有效負載,將彈性構建到架構本身非常重要。
Stone表示,確保彈性系統(tǒng)的一種方法是簡化所做的事情,這樣可以很好地滿足期望。這種方法還有助于防止團隊規(guī)模過度擴張。
他補充說,將事件、問題和變更管理實現(xiàn)自動化也有助于建立彈性。
Gundurao建議采用站點可靠性工程(SRE),這是一套用于基礎設施和運營的原則和實踐,旨在創(chuàng)建可擴展和可靠的系統(tǒng)。Machado補充說,站點可靠性工程(SRE)以及那些專注于構建IT技術并接受過相關培訓的人員,不僅可以在順境中順利工作,而且還能夠在困境中開展業(yè)務。
埃森哲公司全球企業(yè)架構負責人Andrew Long認為,大型傳統(tǒng)企業(yè)越來越多地采用數(shù)字原生組織使用的原則、技術和方法來構建更具彈性的IT系統(tǒng)。他說,“這使企業(yè)能夠提高其對破壞性業(yè)務事件的應變能力,從而變得更具競爭力。為此,IT領導者正在強調速度和敏捷性、以數(shù)據(jù)為中心和去中心化,以及持續(xù)集成和持續(xù)交付、站點可靠性工程(SRE)和微服務,以更加模塊化和可組合的方式提供未來組織所需的業(yè)務能力?!?
他補充道,還從傳統(tǒng)的基于瀑布的IT項目交付轉變?yōu)楦援a品為中心的IT交付和運營,這往往會考慮支持IT彈性的更廣泛的更具戰(zhàn)略性的需求。
Long說,“幾乎所有企業(yè)都在云中擁有部分IT資產,但關鍵是考慮可以利用哪些獨特的云計算能力來提高企業(yè)的能力,使其變得更敏捷和更有彈性?!?/p>
6.保持警惕
專家表示,企業(yè)風險、業(yè)務需求和技術都將繼續(xù)發(fā)展,圍繞IT彈性的實踐也應如此。
Long說,“在與企業(yè)合作的過程中,了解他們看到的業(yè)務中斷風險、風險規(guī)模,以及至關重要的是,他們如何量化這種風險以及潛在價值。通過清楚地了解企業(yè)的技術環(huán)境的當前狀態(tài),可以更好地了解如何應對這種中斷,以及關鍵風險區(qū)域所在的位置?!?
他表示,確認需要采取的具體干預措施以最大限度地降低風險,并制定路線圖以實現(xiàn)變革。只有每個人都對業(yè)務風險保持一致,才能執(zhí)行這一路線圖。
7.讓業(yè)務團隊分擔責任
Machado表示,業(yè)務團隊也可以在IT彈性方面發(fā)揮重要作用,因此業(yè)務團隊的領導者也應該對此承擔一些負責。
他解釋說,“我認為業(yè)務團隊必須有一個問責制模型,并且應該與員工共同承擔,無論誰開發(fā)應用程序,都應該為其分擔責任。這不應該只是首席信息官的職責?!?/p>
Machado并不提倡業(yè)務團隊接管IT運營以及應用程序和系統(tǒng)的日常管理。與其相反,他們應該明白他們的要求和優(yōu)先事項會影響彈性。
例如,如果業(yè)務團隊主管不斷地將上市時間和價值創(chuàng)造速度放在優(yōu)先位置,那么他們需要對是否以及在多大程度上影響彈性承擔責任。
原文標題:??7 tips for improving IT resilience in the digital era???,作者:Mary Pratt?