搬遷實施方案必須貼近實際,在內(nèi)容上周密細致、切實可行,其中重點是如何保障網(wǎng)絡(luò)遷移的平滑。
隨著近些年信息化建設(shè)步伐的加快,舊的機房已逐漸無法適應(yīng)現(xiàn)代化的信息化應(yīng)用和管理,新建容災(zāi)機房,改造舊機房等新需求正變?yōu)楝F(xiàn)實。相對來說,在經(jīng)費充足的情況下,新建或改造一座機房并不是那么困難,如何搬機房才是真正的難點。我們或許考慮過兩座機房該如何容災(zāi),考慮過業(yè)務(wù)系統(tǒng)如何高可用,考慮過單點故障時有哪些可應(yīng)急的方案,但是,當我們要搬移這些網(wǎng)絡(luò)和計算設(shè)備時,之前的所有考慮都還能管用么?
毫無疑問,機房的搬遷工作是一項復雜的工程,不僅要把網(wǎng)絡(luò)、計算、存儲等各類生產(chǎn)設(shè)備安全遷移到新機房,而且要求網(wǎng)絡(luò)系統(tǒng)的遷移和集中存儲系統(tǒng)的遷移必須安全、平穩(wěn),甚至達到不停機,不影響業(yè)務(wù)系統(tǒng)應(yīng)用的要求?;诖?,機房搬遷的風險點更加難以控制,技術(shù)難點也比初始部署或技術(shù)改造更為繁瑣。
雖然高校的業(yè)務(wù)還尚未達到極致的24小時×7天的連續(xù)性需求,但保證業(yè)務(wù)連續(xù)性仍然是數(shù)據(jù)中心搬遷過程最核心的要求,網(wǎng)絡(luò)保障則是機房搬遷成敗的關(guān)鍵。
中南民族大學原有舊機房建于1999年,面積約70平方米,在配電、空調(diào)制冷、機柜容量、潔凈度等方面已遠遠落后于當前信息化發(fā)展水平。經(jīng)過“十二五”期間的數(shù)字化校園建設(shè),逐漸改造或新建了邊界網(wǎng)絡(luò)、核心網(wǎng)絡(luò)、數(shù)據(jù)中心網(wǎng)絡(luò)、數(shù)據(jù)中心計算資源池等關(guān)鍵基礎(chǔ)設(shè)施。在學校的大力支持下,于2014年末立項新建了兩座機房,分別位于校內(nèi)相隔1千米的兩座建筑物內(nèi),功能上分為容災(zāi)機房和新的主機房,每座機房面積約120平方米,至2015年兩座機房分別竣工,將舊機房設(shè)備和業(yè)務(wù)分別遷移到兩座新機房,最后拆除舊機房。
按照機房和數(shù)字化校園的建設(shè)規(guī)劃,網(wǎng)絡(luò)、計算、存儲等主體架構(gòu)設(shè)施都是雙活設(shè)計,雙活的實現(xiàn)也成為本次搬遷可利用的技術(shù)要點和有利條件,它使搬遷具備了不停機、不斷網(wǎng)的可能。
理清搬遷思路
總體來說,本次搬遷規(guī)劃分為兩個階段:第一個階段為舊機房搬遷到容災(zāi)機房,使容災(zāi)機房具備完全獨立承載全校網(wǎng)絡(luò)和業(yè)務(wù)的能力;第二個階段為舊機房斷電,剩余全部設(shè)備搬遷到主機房并與容災(zāi)機房一起雙活運行。整個搬遷過程按照不斷網(wǎng),不停業(yè)務(wù)的高標準進行組織安排,工期安排在暑假進行。圖1所示為校園總體網(wǎng)絡(luò)拓撲結(jié)構(gòu)。
網(wǎng)絡(luò)方面,自無線控制器,核心交換機、認證BRAS、防火墻,到邊界交換機均以IEEE802.3ad協(xié)議實現(xiàn)雙設(shè)備雙活配置連接,所需做的重點是梳理線路連接,確保分拆到兩座機房后立即正確接好心跳線,避免腦裂導致的網(wǎng)絡(luò)異常,之后逐條接好匯聚到核心的雙上行鏈路,確保雙上行鏈路在割接過程中至少有一條不斷開,用戶不會感知到網(wǎng)絡(luò)中斷。數(shù)據(jù)中心的計算資源方面,已有兩套刀片服務(wù)器,絕大多數(shù)關(guān)鍵應(yīng)用和服務(wù)都創(chuàng)建在兩套刀片組成的一個虛擬化集群內(nèi),在兩個搬遷階段中分別將全部業(yè)務(wù)漂移到一組不搬的計算環(huán)境就能確保業(yè)務(wù)不斷條件下的搬遷實施。存儲方面,已在2014年末采購了雙活存儲網(wǎng)關(guān),一直等待新機房完工,圖1所示的存儲拓撲為搬遷完后規(guī)劃的存儲拓撲。雙活存儲網(wǎng)關(guān)和一套新存儲在搬遷過程中部署在容災(zāi)機房,先與舊機房存儲做好雙活同步,使新舊兩套存儲都具有完整的數(shù)據(jù),再將搬到容災(zāi)機房的刀片服務(wù)器、新存儲、雙活存儲網(wǎng)關(guān)接通,使容災(zāi)機房的服務(wù)器與存儲能全部接管全部業(yè)務(wù),達到舊機房存儲停機條件,將舊機房存儲搬遷到新主機房,從而保障業(yè)務(wù)運行的同時也兼顧了存儲的搬遷工作。除此之外,還剩余一些非關(guān)鍵業(yè)務(wù)的服務(wù)器或交換機,則在需要搬遷時短暫停機。
根據(jù)上述搬遷思路規(guī)劃,不僅可以在實踐中檢驗雙活架構(gòu)真正做到業(yè)務(wù)和網(wǎng)絡(luò)不中斷的效果,還有額外的優(yōu)勢在于:第一,所有的搬遷和割接工作都可安排在白天進行,實施人員可在頭腦清醒的狀態(tài)下投入工作,降低人為誤操作的機率;第二,由于是不間斷網(wǎng)絡(luò)和業(yè)務(wù)的搬遷,所以不存在搬遷的窗口時間,實施過程的時間壓力減小很多,尤其對于機器設(shè)備存在搬動后硬件故障的可能,更是無法掌握的時間因素;第三,割接過程萬一出現(xiàn)預(yù)料之外的差錯,用戶會在最短的時間反饋給實施人員,以便及時調(diào)整和解決,若在夜間進行搬遷和割接因無法得到用戶反饋,即使準備了相應(yīng)的驗證條件,也可能獲得有偏差的結(jié)果,到白天又付出更多回退和中斷事件才能找到癥結(jié)。
搬遷的風險是客觀存在的,總體上也有三個方面。技術(shù)方面,雖然有高可用性技術(shù)作為支撐,但仍可能存在意料之外的問題,因此必須制定一些策略,將業(yè)務(wù)對技術(shù)所依賴的各個方面都考慮進來,在搬遷前進行驗證性測試和檢查,以縮短萬一出現(xiàn)的停機時間。硬件遷移方面,很多設(shè)備可能都會導致搬運過程中遭到損壞,策略之一是提前聯(lián)系好供貨商,在質(zhì)保期內(nèi)還可及時提供備件的更換,策略之二則是對該硬件承載的功能提前做出預(yù)判和備用,確保損壞真的發(fā)生時能減少損失。數(shù)據(jù)方面,不停機的搬遷在數(shù)據(jù)層面一直是活動的,提前的備份并不能持續(xù)跟蹤變化的數(shù)據(jù)存儲,但備份仍然是不可缺少的,我們可以采取業(yè)務(wù)系統(tǒng)只讀等措施來減少搬遷期間的數(shù)據(jù)變化,以兼顧網(wǎng)絡(luò)服務(wù)的持續(xù)使用和數(shù)據(jù)可恢復能力。