
我們將從“關(guan)鍵(jian)設(she)施管理”的(de)(de)角度重(zhong)點介紹(shao)與運(yun)營數據中心相關(guan)的(de)(de)基本最(zui)佳實踐。這涉及對建筑(zhu)基礎架構的(de)(de)監視,管理和維護,最(zui)終(zhong)支持安裝IT負(fu)載及其提供的(de)(de)服務(wu)。這方面的基(ji)本要素是確(que)(que)保由數(shu)據(ju)中心托管的服務的連續性,并(bing)確(que)(que)保這些服務所依賴的基(ji)礎結(jie)構的正常運行。
應采用這些做法(fa),以達到設計站(zhan)點所期望的可(ke)用性或彈性水平(ping)。但是,應該注意(yi)的是,如果未(wei)將站(zhan)點設計,構建(jian)或事先維(wei)護(hu)為維(wei)持企(qi)業(ye)所需(xu)的可(ke)用性水平(ping)所需(xu)的水平(ping),則任何數量的監視,管理或維(wei)護(hu)都無法(fa)達到可(ke)用性或彈性水平(ping)。
數據中心設施運營(ying)管理和現場管理
現(xian)場(chang)關鍵設施/機(ji)電工程團隊應至少在現(xian)場(chang)運行前六周安裝在現(xian)場(chang),以確保(bao)所有文檔都是完整和(he)(he)準確的(de),現(xian)場(chang)流(liu)程和(he)(he)程序是經(jing)過嚴(yan)格測試的(de),并且團隊具(ju)有有機(ji)會重(zhong)新配置和(he)(he)操作(zuo)站點基礎結構,而(er)沒(mei)有附加實(shi)時負載。
如果(guo)可能的(de)(de)(de)話,請車記以上幾點,提供機(ji)(ji)會讓(rang)現(xian)場團(tuan)隊(dui)參(can)與設計(ji)過(guo)程,以確(que)保(bao)潛(qian)在(zai)的(de)(de)(de)可靠現(xian)場操(cao)作和維護。另外,讓(rang)現(xian)場團(tuan)隊(dui)參(can)與調試過(guo)程,以驗證已安裝的(de)(de)(de)基礎結構的(de)(de)(de)正確(que)運行,還使現(xian)場工程團(tuan)隊(dui)有(you)機(ji)(ji)會參(can)與到現(xian)場屏蔽列(lie)表的(de)(de)(de)開發中,并(bing)最終簽署以正確(que)完(wan)成(cheng)工作。一旦承包(bao)商(shang)(shang)移交了(le)《操作和(he)維護》手冊,所有(you)內部人員,承包(bao)商(shang)(shang)和(he)供應(ying)商(shang)(shang)都必須使這些文件保持最新(xin)和(he)準確。此外,“竣工時間”記錄(lu)圖也(ye)應(ying)不(bu)斷更(geng)新(xin),以反(fan)映(ying)安裝(zhuang)的最新(xin)狀態,以反(fan)映(ying)對該站點所做(zuo)的任(ren)何(he)更(geng)改或添加(jia)。
在進行所有維護或項目活動之前,應編制方法聲明并與包括服務客戶在內的所有各方達成協議。就其自身的通知要求而言,使客戶了解任何站點維護或項目活動非常重要。這包括用于維護服務協議或告知可能導致的任何潛在服務中斷或風險的預防措施。
數據中心關鍵站點預算
關(guan)鍵站點(dian)預算應嚴格控制,并與非(fei)關(guan)鍵站點(dian)預算分開(kai),以(yi)減少在不了解不可避免后果(guo)的(de)情況下侵蝕資金的(de)機會(hui)。
除了要對他們負責操(cao)作或維護的(de)任(ren)何系統進行詳細培訓外,所(suo)有新的(de)現場(chang)工作人(ren)員或訪客都應接受與(yu)現場(chang)相關的(de)特定規則和(he)安全方面(mian)的(de)培訓。為(wei)確(que)保這一點(dian)到位,應為(wei)所(suo)有現場(chang)工作人(ren)員提供完整的(de)記錄并定期更新的(de)培訓計劃(hua)。
應(ying)該(gai)可以(yi)使用(yong)顯示命令鏈和(he)(he)職責的(de)組(zu)織結(jie)構(gou)圖,詳細(xi)說明設施管(guan)理,IT和(he)(he)安全組(zu)之(zhi)間的(de)所(suo)有接口。這(zhe)應(ying)該(gai)包括一個角色(se)和(he)(he)責任矩(ju)陣(zhen),該(gai)矩(ju)陣(zhen)涵蓋數據中(zhong)心(xin)的(de)所(suo)有活(huo)動(dong)以(yi)及關(guan)鍵設施的(de)工作描述。
全面的文檔庫(ku)應隨時(shi)可供站(zhan)點工作(zuo)人(ren)員參考,并不斷(duan)進行更新(xin)。其中應包括(kuo)最新(xin)的竣工”圖紙,調試(shi)記(ji)錄(lu),維護(hu)記(ji)錄(lu),培訓記(ji)錄(lu)和(he)證明,準確的運維手冊,現場(chang)政(zheng)策和(he)程序等。
應維護完整,準(zhun)確且定期(qi)更(geng)新(xin)的(de)關(guan)鍵備件清單(dan),包(bao)括關(guan)鍵供應商(shang)詳(xiang)細(xi)信息和(he)重新(xin)供應訂單(dan)點通知。現(xian)場操作員(yuan)應與供應商(shang)商(shang)定最有可能失敗的(de)關(guan)鍵備件庫存,因此應避免這種(zhong)情況發(fa)生(sheng)。
這樣的(de)做法可以大(da)大(da)減少平均(jun)修復時(shi)(shi)(shi)間(jian)(或恢復時(shi)(shi)(shi)間(jian),MTTR),即可靠性和(he)可用(yong)(yong)性計(ji)算中使用(yong)(yong)的(de)數字(zi)。此外,維護合(he)同(tong)應包含保證的(de)最大(da)呼出(chu)時(shi)(shi)(shi)間(jian)。確(que)保采用(yong)(yong)和(he)維護準確(que)且(qie)不斷更新的(de)風(feng)(feng)(feng)險(xian)(xian)登(deng)記冊。這應該(gai)(gai)包括(kuo)風(feng)(feng)(feng)險(xian)(xian)通知和(he)風(feng)(feng)(feng)險(xian)(xian)緩解以及潛(qian)在風(feng)(feng)(feng)險(xian)(xian)本身的(de)全(quan)面記錄。應該(gai)(gai)對所有基礎設(she)施組件進(jin)行清(qing)晰,準確(que)和(he)全(quan)面的(de)標記,以便于識(shi)別和(he)跟蹤分發路徑。這還應包括(kuo)閥門,開(kai)關,斷路器,指示(shi)(shi)器等的(de)正常位(wei)置(zhi)指示(shi)(shi)器(磁性按鈕或廉價的(de)彩(cai)色貼紙以指示(shi)(shi)正常操作狀(zhuang)態(tai)。旨在突出(chu)顯示(shi)(shi)預期位(wei)置(zhi)以提供事件發生時(shi)(shi)(shi)可能發生變化的(de)即時(shi)(shi)(shi)視圖)。對(dui)于所有站(zhan)點(dian)人(ren)員,應在(zai)可見的位置顯示(shi)(shi)突出顯示(shi)(shi)當前站(zhan)點(dian)警報狀(zhuang)態的可視指示(shi)(shi)器。例如在(zai)維護,客戶實(shi)地訪問,恐怖威(wei)脅,在(zai)發電(dian)機上運行等過程中面臨增(zeng)加的風險(xian)。
數據中心維護和檢查計劃
應(ying)(ying)制定嚴格的計劃(hua)維護和檢(jian)查計劃(hua),其中應(ying)(ying)包括基于(yu)預測和狀(zhuang)況的維護元(yuan)素。這(zhe)可(ke)能包括;熱(re)/紅外(wai)掃描,振動分析(xi),潤滑(hua)液,水,燃(ran)料(liao),冷卻(que)液,空氣(qi)質量等的定期分析(xi),以及維護記錄和設(she)備(bei)性能及狀(zhuang)況的趨勢分析(xi)。定期維護和檢(jian)查計劃(hua)的一個例子是(shi)定期清潔和/或更換空氣(qi)過濾器維護的目的是(shi)將數據中心站點保持在“新狀(zhuang)態”。這(zhe)既可(ke)以減少(shao)由于(yu)設(she)備(bei)故障引起的操作(zuo)風(feng)險,又可(ke)以確保設(she)備(bei)的操作(zuo)效率(lv)保持較高水平,從而減少(shao)了電能消耗并因此降(jiang)低了能源成本。
確(que)保在所(suo)(suo)有關(guan)鍵設備工廠的(de)房(fang)(fang)間中都可以(yi)看到,易于訪問的(de)緊急操(cao)作程(cheng)序(xu),以(yi)及適當的(de)聯系電話和(he)上報地點。為了(le)幫助這個地方,在所(suo)(suo)有工廠房(fang)(fang)間中都安裝了(le)壁(bi)掛(gua)式單線圖(tu)和(he)原理圖(tu)。
已定(ding)義(yi)的程(cheng)序應(ying)存在于(yu)所(suo)有交換操作(zuo)和維(wei)護(hu)活動中,應(ying)始(shi)終遵循并遵循這些程(cheng)序。此外,應(ying)該有一(yi)個治理流程(cheng),該流程(cheng)可以在簽字(zi)之(zhi)前(qian)驗證任(ren)何維(wei)護(hu)活動的質量和正確完(wan)(wan)成(cheng)的工作(zuo)。預防性維(wei)護(hu)任(ren)務的完(wan)(wan)成(cheng)率(lv)應(ying)大于(yu)95%。
應記錄數據,以便對設備性能進行長(chang)期趨勢分析(xi),包括(但(dan)不(bu)限于),能源效(xiao)率,可靠性和(he)維護開銷。
維護成本增加或預期壽命終止來安排設備更換并為其提供資金
應保存所(suo)有保存,未命(ming)中,事件,關(guan)鍵事件以(yi)及任何(he)影響停機的(de)(de)服務(wu)的(de)(de)記錄,包括日期,時(shi)間(jian),人員,所(suo)涉及的(de)(de)設備,根本原因分析的(de)(de)結(jie)果以(yi)及任何(he)經驗教訓(xun)。這應具(ju)有預測,識別(bie)和減(jian)輕風險或采取糾正措施以(yi)防止再次發(fa)生的(de)(de)能力。
在(zai)公用電(dian)(dian)(dian)源(yuan)故(gu)障(zhang)后(hou)啟動(dong)發(fa)電(dian)(dian)(dian)機可能是數據中心站點持續運(yun)行中的(de)(de)薄弱環(huan)節。因此,至關重要的(de)(de)是,發(fa)電(dian)(dian)(dian)機必須得到良好的(de)(de)維(wei)護和(he)測試。應檢查發(fa)電(dian)(dian)(dian)機的(de)(de)電(dian)(dian)(dian)池(chi),并(bing)按照制造(zao)商的(de)(de)建議按預定(ding)(ding)的(de)(de)預定(ding)(ding)時間表啟動(dong)發(fa)電(dian)(dian)(dian)機。
發電機(ji)(ji)應定期(至(zhi)少每(mei)年(nian)一(yi)次)在整個建筑物(wu)中運行(xing),以模擬總的(de)(de)公用事業(ye)電源故(gu)障。這(zhe)通(tong)常被稱為(wei)“黑色建筑測試(shi)(shi)”。許多運營商由于(yu)感知到的(de)(de)風險而(er)避開了該測試(shi)(shi),但(dan)是事實證(zheng)(zheng)明,對(dui)于(yu)許多數(shu)據中心而(er)言,不執行(xing)此測試(shi)(shi)并保證(zheng)(zheng)這(zhe)些(xie)系(xi)統(tong)的(de)(de)正確運行(xing)將帶來更大的(de)(de)風險。沒(mei)有(you)執行(xing)此測試(shi)(shi)的(de)(de)直接結果是,發生了幾起廣為(wei)人知的(de)(de)停機(ji)(ji)。