江蘇移動信息技術中心云備份平臺實踐
中國移動江蘇公司 信息技術中心 云備份平臺實踐 作者姓名: 張晶、王堅 、王宏圖 、孫凱 作者單位: 中國移動通信集團 江蘇 有限公 司 單位地址: 南京市虎踞路 59 號 郵政編碼: 210029 摘 要 隨著運營商用戶數(shù)的持續(xù)增長,業(yè)務的飛速發(fā)展, 3G 業(yè)務的推廣,企業(yè)數(shù)據(jù)中心的規(guī)模越來越大,數(shù)據(jù)也越來越重要,需要備份的數(shù)據(jù)量在持續(xù)的增長。與之對應的卻是 業(yè)務系統(tǒng)要求的越來越苛刻的恢復準確率 。 業(yè)務支撐部門面對 分散的數(shù)據(jù)中心, 持續(xù)擴大的系統(tǒng)平臺規(guī)模, 7*24 小時的服務時間要求,全面 嚴謹 的業(yè)務指標考核標準, 業(yè)務數(shù)據(jù) “零” 丟失的嚴謹要求 現(xiàn)狀 ,緊張的維護人力資源配置狀況,迫切需要 提高現(xiàn)有備份系統(tǒng) 的備份效能,提高 運維管理效率高、降低運維成本。 并根據(jù)這些經(jīng)驗及公司未來的 務發(fā)展戰(zhàn)略,也可以將這些成熟服務產(chǎn)品推向市場。 本文通過介紹 中國移動江蘇公司 統(tǒng)一備份 平臺在 備份 虛擬化 、 備份服務差異化 、 備份系統(tǒng)管理自動化、 系統(tǒng)架構云 備份 模型優(yōu)化的具體實踐, 能夠很好的解決 中國移動江蘇公司 現(xiàn)網(wǎng)系統(tǒng)運行遇到的種種問題 ,為讀者建立了一種全新的 備份 系統(tǒng)架構設計思路。 關鍵字 : 備份 虛擬化 , 云 備份 , 獨立備份 絡 系統(tǒng) , 系統(tǒng)設計 目 錄 1、 引言 2、 系統(tǒng)建設背景 3、 系統(tǒng)技術實現(xiàn)方案 擬化 份服務 動化管理 4、 架構收益 5、 結束語 1 1、 引言 如今的數(shù)據(jù)中心越來越復雜,不僅系統(tǒng)規(guī)模每年翻番,系統(tǒng)的復雜性及面臨的風險也與日俱增, 另一面,業(yè)務部門對 業(yè)務連續(xù)運行的要求 卻是不斷提高的,甚至越來越多的系統(tǒng)要求“零數(shù)據(jù)丟失”。拿 中國移動江蘇公司 的核心業(yè)務 支撐系統(tǒng)來看 ,包括 統(tǒng)、經(jīng)營分析系統(tǒng)、客服系統(tǒng)、企業(yè)信息化系統(tǒng)等子系統(tǒng) , 總計近 400 臺服務器 ( 超過 10000 萬) , 近 100 臺 高 、 中 、 低端 存儲設備 ,超過 1000重要業(yè)務數(shù)據(jù) ,分布于南京和無錫的 5 個數(shù)據(jù)中心 。為了提高數(shù)據(jù)的安全性,作為數(shù)據(jù)保護的最后一道防線 是根據(jù)國際知名調研機構對世界五百強大企業(yè)的技術主管的回訪記錄和巡檢記錄來看,大部分企業(yè)用戶的平均備份成功率在 75%左右 。事實上, 我們還注意到很多時候的備份成功率小于 50%,恢復率就更低 。一方面我們面臨的實際情況是每天需 要備份的數(shù)據(jù)量在增長, 中國移動江蘇公司 業(yè)務支撐系統(tǒng) 每年需要備份數(shù)據(jù)的增長量在 50%75%之間,但備份 系統(tǒng) 的預算的增長卻遠遠小于這個速度 。 傳統(tǒng)的備份系統(tǒng)都是和項目一起采購,造成數(shù)據(jù)中心多個獨立的備份系統(tǒng),備份的效率差和備份資源的浪費很嚴重, 備份系統(tǒng)架構及其不合理, 管理也極其復雜 。 相同的問題也給 業(yè)的發(fā)展帶來挑戰(zhàn) 。 因此 “虛擬化”、“ 云 備份 ”、“標準化”和“ 備份 資源整合”等成為 目前業(yè)界最為熱門的技術話題,同樣也代表著未來技術 發(fā)展的方向 。近幾年來,在業(yè)界也涌現(xiàn)出幾家在這個領域運營不錯的云備份服務的廠商 門鐵克的 作為術、 統(tǒng)大量應用的 中國移動江蘇公司 該如何解決自己發(fā)展中遇到的問題 ,如何整合行業(yè)先進經(jīng)驗、新技術、解決方案,如何規(guī)劃 統(tǒng)架構科學發(fā)展,我們在 上述領域 做出 了一些 自己的實踐 。 2、 系統(tǒng)建設背景 中國移動江蘇公司 擁有一套完整的企業(yè)備份產(chǎn)品, 在架構設計上基于原來的經(jīng)驗進行了創(chuàng)新, 并結合一些 云技術的設計理念,為 業(yè)務支撐系統(tǒng) 的數(shù)據(jù)保駕護航。 2 虛擬化 不是基于應用和設備的備份資源管理 ; 不是綁定特定的應用或設備的備份軟硬件設備; 自動化 現(xiàn)備份 任務 的靈活調度、 實時 監(jiān)控和報告,而不僅僅是僵化的為備份而備份 圖 1:中國 移動 江蘇公司 業(yè)務支撐 系統(tǒng) 備份云示意 3、 系統(tǒng)技術實現(xiàn)方案 系統(tǒng)的技術設計及實現(xiàn)方案分為以下幾個層次: 備份虛擬化技術引入及部署 自動化管理 率降低復雜度 3 擬化 首先, 在 云備份 架構中將 備份 生產(chǎn) 離出來,這一變革,使得原有的四 個數(shù)據(jù)中心中,分散在各個應用系統(tǒng)中的備份設備通過備份 呈現(xiàn)給整個數(shù)據(jù)中心,形成了一個集中的備份資源池。同時備份的 以根據(jù)業(yè)務的變化,備份任務的變化靈活的擴展和回收,實現(xiàn)了備份資源的靈活調度和靈活的縮放,對生產(chǎn) 有任何影響。 在數(shù)據(jù)中心備份 基礎上,建立了跨數(shù)據(jù)中心的備份 接,使得所有數(shù)據(jù)中心都能物理共享第 五 個數(shù)據(jù)中心 (浦口高新機房) 的備份設備,這樣當任何一個數(shù)據(jù)中心 的備份設備故障時,云備份架構將自動啟用第 五數(shù)據(jù)中心的備份設備, 保證核心生產(chǎn)系統(tǒng)備份作業(yè),如數(shù)據(jù)庫歸檔日志備份能夠持續(xù)進行。這里的關鍵是第 五 數(shù)據(jù)中心的備份設備是共享的而不是其中一個數(shù)據(jù)中心專享的。 對于 絡的資源虛擬化 ,則在云備份架構中建立了一個具有負載均衡功能的介質服務器資源池,接入云備份架構的任何一個網(wǎng)絡備份客戶端的備份任務可以自動計算并分配到一個負載最低的備份介質服務器。所以對于通過網(wǎng)絡備份的應用系統(tǒng)來說,備份系統(tǒng)是即插即用式的,備份客戶端軟件從備份服務器自動下發(fā),同時客戶端不需要關心對應哪個介質服 務器,或具體使用哪里的備份設備。 多層次的備份架構,除了傳統(tǒng)的磁帶庫設備,還采用了新型的磁盤備份技術,如虛擬磁帶庫技術,數(shù)據(jù)重復刪除技術,這些技術都作為基礎架構的形式提供,為接入云備份系統(tǒng)的不同性質數(shù)據(jù)提供不同類型的存儲方式。其中使用的數(shù)據(jù)重復刪除技術 是云備份體系中核心組成部分即備份軟件自帶的功能,在對客服系統(tǒng)中大量的具有冗余性質的 擬環(huán)境的備份有良好的效果。 建立面向地市分公司支撐系統(tǒng)的共享備份架構,對于分公司的備份需求,統(tǒng)一提供備份資源池,提供用戶透明的集中備份服務,用戶不需要考慮備份系統(tǒng)所 在的地點和具體結構, 同時 通過 重復數(shù)據(jù)刪除技術,減少本地寫入的數(shù)據(jù)量,相應的減少網(wǎng)絡數(shù)據(jù)流量。 份 服務 一個共享的、可伸縮的備份架構是實現(xiàn) 一個滿足 備份服務 投送平臺的基礎 。我們所定義的備份服務基于備份云上的各個關鍵要素 數(shù)據(jù)、網(wǎng)絡、存儲資源,分別細化、組合、封裝,最后形成備份服務的 對服務的使用者來說,云服務通過封裝底層技術屏蔽了復雜的技術組合, 使得一個復雜的備份策略設置操作,變成簡單的服務挑選 。 我們首先通過區(qū)分應用系統(tǒng)數(shù)據(jù)重要性等級,分別定義金,銀,銅三個服務等級;數(shù)據(jù) 重要性等級指標有三個,一為是否需要快速恢復,二為是否需要長期保存,三為是否需要異地保存 。之后我們 將應用系統(tǒng)對應到備份平臺的 從 服務等級的 角度看,銅牌服務僅提供長期保存 (磁帶備 4 份) ,銀牌服務則在滿足長期保存基礎上提供了異地保護 (磁帶復制等 ),金牌服務除包括長期保存和異地保存外還提供了數(shù)據(jù)的快速恢復 (綜合磁盤備份等多種技術) 。這樣在備份平臺上每個服務器都被賦予了 屬性,并將貫徹到其對應數(shù)據(jù)的整個備份生命周期。 這其中用到了術,不同服務標準的 備份作業(yè)會自動尋找 合適 的存儲資源,備份數(shù)據(jù)也可以根據(jù)設定的數(shù)據(jù)生命周期在存儲資源間進行流動 。 圖 2: 備份服務等級 管理 對備份系統(tǒng)服務水平的評價標準之一是是否滿足集團對數(shù)據(jù)保護的要求,其中關鍵的一點是能否 為特定數(shù)據(jù) 提供異地的備份數(shù)據(jù)冗余,比如 跨機房的 數(shù)據(jù) 復制 。 由于備份 構的形成 ,使得南京各數(shù)據(jù)中心和無錫數(shù)據(jù)中心的備份 數(shù)據(jù)可以互相流動 ,流動的形式是多樣的,可以是在線多數(shù)據(jù)流復制,也可以是離線的 險柜)復制 ,相比傳統(tǒng)的手工出庫和磁帶運送方式先進很多 。 共享的 備份數(shù)據(jù) 驗證 服務,大多數(shù)企業(yè)的集中 備份環(huán)境都缺少可行的數(shù)據(jù)恢復驗證環(huán)節(jié),但事實上數(shù)據(jù)的恢復是比備份更復雜的過程,即使系統(tǒng)在初始備份后進行了成功的恢復測試,也不代表在實際生產(chǎn)中需要恢復的時候一定能成功, 實際情況中數(shù)據(jù)庫軟件的升級,備份軟件的參數(shù)調整,失敗的備份作業(yè),操作系統(tǒng)參數(shù)的調整都有可能造成恢復失敗,而恢復失敗時現(xiàn)場定位錯誤原因需要的時間將直接影響業(yè)務系統(tǒng)恢復的時間,所以常規(guī)例行的數(shù)據(jù)恢復驗證能最大程度保證生產(chǎn)系統(tǒng)的快速恢復。在我們的云備份架構中提供了共享的數(shù)據(jù)恢復平臺, 能夠 滿足多個核心系統(tǒng)的數(shù)據(jù)恢復 驗證需求。 并專門立項建立了業(yè)務支撐系統(tǒng) 數(shù)據(jù)備份恢復測試環(huán)境,覆 5 蓋了支撐系統(tǒng)主機的所有相關機型和版本 和存儲的主要型號 。 數(shù)據(jù)安全性 ,不同的業(yè)務系統(tǒng)其數(shù)據(jù)的敏感程度不同,對備份數(shù)據(jù)安全性的要求也不同,當所有系統(tǒng)的備份都歸入云備份架構后如何保證數(shù)據(jù)的安全性,如何保證敏感信息不泄露?事實上我們可以利用云備份架構中的數(shù)據(jù)加密模塊,啟用數(shù)據(jù)加密的備份數(shù)據(jù)只能被數(shù)據(jù)源系統(tǒng)所 恢復 ,數(shù)據(jù)加密所需要的證書管理和認證都作為平臺 服務 提供 ,對于高負載的業(yè)務系統(tǒng)的加密備份可以由資源池中的介質服務器承擔加密運算,減少對業(yè)務系統(tǒng)的性能影響。 動化管理 集中的報表平臺 ,報表平臺作為云備份架構的重要組成部分,可以為遵從驗證和業(yè)務規(guī)劃提供高級備份報告。在云備份作為 儲服務的情況下,我們需要具有跟蹤和分析備份服務水平遵從以及將操作作為一項業(yè)務來進行管理的能力。 備份管理平臺 為我們提供了所需的報告,以驗證各關鍵系統(tǒng)的數(shù)據(jù)庫等數(shù)據(jù)受到確實的保護,以及 復時間目標)和 恢復點目標)要求可以得到滿足。同時還可以深入了解數(shù)據(jù)保護基礎架構,這樣就可以為備份操作進行有效的業(yè)務計劃。 例如,可以按照業(yè)務系統(tǒng)、用戶和部門分析增長趨勢和資源需求。 同時,可以為備份服務使用部門 或系統(tǒng)提供在線的報表展示,確保服務水平承諾。 報表平臺還可以根據(jù)各部門或應用系統(tǒng)統(tǒng)計固定時間段內(nèi)其備份所產(chǎn)生的費用成本,這樣的報表數(shù)據(jù)既可以做為部門成本核算的依據(jù),也可以做為系統(tǒng)擴容的參考。 圖 3:集中報表平臺 集中的管理平臺,我們 通過 基于 集中管理門戶能夠 實現(xiàn) 所有監(jiān)控、警報、報告和故障排除功能,并通過圖形化的方式顯示。管理員能夠實時收集信息,包括恢復的成功率、哪些系統(tǒng)由于備份故障而面臨風險、存儲 6 使用的趨勢、關于特定警報與錯誤的詳細信息。可提供整個基礎設施范疇的所有數(shù)據(jù)保護操作的視圖。為了簡化日常管 理工作, 還 能夠通過統(tǒng)一備份界面,保護和管理數(shù)據(jù)資源。管理員能夠主動診斷故障,識別可能的問題,并采取正確的糾正措施。 4、 架構收益 隨著該系統(tǒng)架構投入使 用,我們獲得了諸多 收益,很好的解決了目前系統(tǒng) 采購、建設、 運行、維護、使用 、應用支撐方面的諸多問題,具體的內(nèi)容如下: ( 1) 成本 云架構的采用對備份系統(tǒng)成本的影響是革命性的。備份系統(tǒng)占總體架構的投資比例 顯著 下降 了 。原來備份系統(tǒng)占總體投資的 10,云架構使得這個比例下降到 不足 5,節(jié)約了 50以上的投資 。 備份資源 的增加來自云備份架構整體需求,資源復用率和整體利用率提高,由 此帶來了成本的相對減少。 維護成本的減少來自兩個方面,一個方面,低端磁帶庫主要面向中小型業(yè)務系統(tǒng)的獨立備份需求,由于 機械 故障率極高,帶來的維護成本較高, 云備份使得這方面的維護成本消失。另一方面,由于備份標準不統(tǒng)一、業(yè)務平臺各自為陣,一個數(shù)據(jù)中心就有多個備份管理員,云備份把多個備份平臺整合成一個,一個專業(yè)備份管理員就夠了。 ( 2) 構架“ 云”模型來 提高備份服務能力 實現(xiàn)任意業(yè)務 數(shù)據(jù)備份 可以隨時運行在任意“云節(jié)點”上 , 實現(xiàn)了負載均衡與隨需調度 充分利用云架構的擴展能力,實現(xiàn)了比業(yè)務增長速度更高的擴展性。核心業(yè)務系統(tǒng)的 數(shù)據(jù)量在增長, 備份 /恢復 窗口卻在縮小。 針對業(yè)務 系統(tǒng)的架構瓶頸 和備份策略 , 通過交叉?zhèn)浞莘绞絹硖嵘龜?shù)據(jù)備份和恢復的效率和成功率 , 成功 實現(xiàn)了 門 承諾的 恢復成功率。 備份 系統(tǒng)處理 余 量由原來的 30%下降到 15%甚至更低 ( 3) 利用備份 “ 解耦”提升 備份 系統(tǒng)可靠性 業(yè)務應用模塊并不關心備份數(shù)據(jù)在哪里 一套完整備份策略可以靈活在任意的備份中心部署 ( 4) 利用備份共享提高備份資源利用率 , 提高備份調度運維效率 通過構建全局備份視圖將需要管理的備份空間數(shù)量有效降低了 20%, 將預 7 留的冗余備份空間容量有效降低了 25%。 更 好的根據(jù)業(yè)務調整備份策略,充分利用網(wǎng)絡的資源 , 提高備份的處理效率 通過細分業(yè)務、方式 調整備份策略,實現(xiàn)業(yè)務服務水平和備份服務水平的的精細化管理,既提高了整體備份服務水平,也優(yōu)化了備份資源 備份 系統(tǒng)運行及配置環(huán)境集中管理,實現(xiàn)一點配置,全網(wǎng)生效 ( 5) 極佳的魯棒性和系統(tǒng)彈性 每個業(yè)務模塊的備份策略部署已經(jīng)可以完全產(chǎn)品化 ,提升了系統(tǒng)整體 備份能力 ; 備份系統(tǒng)處理的能力可以線性擴充,對現(xiàn)有系統(tǒng)不產(chǎn)生影響,只需增加新的軟硬件資源; 未來新的業(yè)務模塊增減 、數(shù)據(jù)存儲空間添加、業(yè)務模塊調度調整 或備份備份策略的調整都 可以 分別 在 線進行,系統(tǒng)架構 不需要發(fā)生聯(lián)動 變化,為 生產(chǎn)系統(tǒng)、備份 系統(tǒng)平臺的能力提升提供了安全、高效的手段 ; 提供 分級 備份 規(guī)劃能力, 幫助對業(yè)務系統(tǒng)生命周期管理 , 實現(xiàn)分級備份 ,隨需調度,降低 硬件 采購成本并體現(xiàn)節(jié)能減排效益 。 5、 結束語 中國移動江蘇公司 信息技術 中心通過 統(tǒng)備份 虛擬化 、云計算改造實踐, 為應用系統(tǒng)未來的發(fā)展提供了及時可靠的 備份 系統(tǒng)架構保障,為 備份 系統(tǒng)平臺實現(xiàn)異構基礎設施資源整合 , 建立開放、標準、統(tǒng)一、高效、易于管理的 礎設施,優(yōu)化 備份 資源配置,獲得 備份 整體的最優(yōu)性能和使用效率,增加礎設施的靈 活性,改善 統(tǒng)備份 服務水平提供 了 有效保障 。 近期對于地市分公司的生產(chǎn)環(huán)境計劃嘗試建設單獨的備份 絡 ,結合高速局域網(wǎng)技術和重復數(shù)據(jù)刪除技術,提供低成本的備份服務。 目前, 中國移動江蘇公司 也正在研究怎樣將這些技術通過服務的方式為廣大中小企業(yè)的用戶提供遠程在線數(shù)據(jù)備份業(yè)務。