虛擬化環(huán)境下的統(tǒng)一運維論文
1 概述
伴隨著信息技術(shù)的不斷發(fā)展,信息系統(tǒng)運維的概念已經(jīng)非常普及,根據(jù)自動化運維服務(wù)商Puppet labs發(fā)布的2013運維報告顯示,采用自動化運維后,完成部署的速度提高很多倍,減少50%失敗概率,恢復(fù)系統(tǒng)的速度提高12倍,國內(nèi)外的互聯(lián)網(wǎng)公司都在開發(fā)自己的運維軟件,國內(nèi)大型互聯(lián)網(wǎng)公司阿里巴巴、百度、網(wǎng)易等都有專門的運維體系研究部門。運維管理在高校領(lǐng)域處于逐步實驗階段,國內(nèi)一些高校已經(jīng)重視虛擬化應(yīng)用及運維服務(wù)工作,大多采用自主研發(fā)與整合工具相結(jié)合的方式實現(xiàn),在運維服務(wù)專業(yè)化、流程化、規(guī)范化方面取得了不同程度的成果。
2 運維的現(xiàn)狀
隨著學(xué)校信息化建設(shè)的發(fā)展,信息門戶、學(xué)工管理、教務(wù)管理、校園卡管理、迎新離校、支付平臺等系統(tǒng)相繼投入使用,系統(tǒng)基礎(chǔ)平臺的穩(wěn)定可用性顯得更加重要,學(xué)校信息系統(tǒng)支撐平臺主要以Vmware虛擬化平臺為主,通過虛擬化技術(shù)實現(xiàn)了硬件整合管理和可高用性、改善業(yè)務(wù)可靠性、優(yōu)化系統(tǒng)部署、降低設(shè)備能耗特點,但虛擬化管理平臺的管理只涉及主機統(tǒng)級別,應(yīng)用系統(tǒng)業(yè)務(wù)的管理需要各利用各自獨立的工具來管理,運維管理整體上基本處于“半自動”狀態(tài)。突出的有以下問題:定位實際故障點的效率低,故障修復(fù)缺乏自動化、流程化響應(yīng)機制,缺乏事件監(jiān)控、診斷、故障響應(yīng)的有效運維工具;系統(tǒng)配置變更需人工操作工作量大,缺乏集中的主機、虛擬機、應(yīng)用業(yè)務(wù)等的監(jiān)控和預(yù)警機制;信息系統(tǒng)基礎(chǔ)設(shè)備沒有統(tǒng)一配置管理信息庫,信息登記混亂常造成設(shè)備配置信息的沖突。系統(tǒng)的可用性與運維管理有著緊密聯(lián)系,當(dāng)前運維工作的重心放在應(yīng)用檢查、部署上線、服務(wù)器配置、數(shù)據(jù)備份、故障搜索處理等方面。
3 統(tǒng)一運維的設(shè)想
統(tǒng)一運維平臺規(guī)劃以信息系統(tǒng)基礎(chǔ)設(shè)施及應(yīng)用系統(tǒng)的全局統(tǒng)一管理為出發(fā)點,實現(xiàn)配置批量變更、故障自定義修復(fù)、定期自動巡檢、信息集中管理等功能,考慮到免費運維系統(tǒng)功能有限、大公司自主研發(fā)技術(shù)很難獲取,計劃采用開源軟件、Vm?ware管理平臺的功能接口和開發(fā)相結(jié)合的方式來實現(xiàn)統(tǒng)一運維。
系統(tǒng)規(guī)劃實現(xiàn)的主要功能包括以下幾項:集中化管理信息系統(tǒng)基礎(chǔ)架構(gòu)中的服務(wù)器、虛擬機、應(yīng)用系統(tǒng)、網(wǎng)絡(luò)設(shè)備、存儲、應(yīng)用等配置資源;通過預(yù)先定義主機系統(tǒng)、虛機系統(tǒng)、通用應(yīng)用的'模板及配置腳本,實現(xiàn)主機系統(tǒng)、虛機系統(tǒng)與應(yīng)用系統(tǒng)的統(tǒng)一配置管理與自動化部署,保證配置變更在規(guī)范的流程下有序。準(zhǔn)確地執(zhí)行;實現(xiàn)主機狀態(tài)、應(yīng)用狀態(tài)、應(yīng)用業(yè)務(wù)、負載性能、存儲狀態(tài)等信息的統(tǒng)一監(jiān)控與預(yù)警,通過預(yù)定義故障狀態(tài)與系統(tǒng)巡檢計劃實現(xiàn)自動化檢查及修復(fù);建立統(tǒng)一的日志中心庫,采集來自基礎(chǔ)設(shè)備及應(yīng)用的日志信息,在日志系統(tǒng)上配置基于應(yīng)用流程的相關(guān)性規(guī)則,對日志信息進行有效性預(yù)處理,將有效及緊急的日志的集中展示,實現(xiàn)基礎(chǔ)設(shè)備的日志信息的集中化管理及智能化匯總。
4 系統(tǒng)的設(shè)計與實現(xiàn)
ITIL即IT基礎(chǔ)架構(gòu)庫(Information Technology InfrastructureLibrary,信息技術(shù)基礎(chǔ)架構(gòu)庫)為設(shè)計IT服務(wù)管理架構(gòu)提供了一個客觀、嚴(yán)謹(jǐn)、可量化的標(biāo)準(zhǔn)和規(guī)范,參考ITIL2中服務(wù)支持部分,設(shè)計與實現(xiàn)統(tǒng)一運維的5項功能模塊。資源配置管理系統(tǒng)發(fā)布管理配置變更管理事件預(yù)警處理問題跟蹤管理。
4.1 資源配置管理
建立符合的統(tǒng)一運維管理架要求的配置管理數(shù)據(jù)庫,將多處的數(shù)據(jù)源合并至統(tǒng)一視圖中,配置信息庫提供IT基礎(chǔ)架構(gòu)的邏輯模型,定義、識別、控制基礎(chǔ)設(shè)施與應(yīng)用服務(wù)的部件,對資源信息按技術(shù)參數(shù),屬主,關(guān)系等屬性進行存取,記錄每個資源的唯一標(biāo)識名、主機狀態(tài)、硬件信息、位置、功能用途、網(wǎng)絡(luò)配置等技術(shù)參數(shù)信息及資源間的屬主關(guān)系,按照基礎(chǔ)設(shè)施與應(yīng)用業(yè)務(wù)的依賴性信息完成關(guān)系屬性的建立,在配置信息庫的基礎(chǔ)上開發(fā)資源配置管理程序,實現(xiàn)記錄配置信息的狀態(tài)采集、記錄、整合、檢驗、變更等功能。
4.2系統(tǒng)發(fā)布管理
發(fā)布管理是將經(jīng)過實際應(yīng)用測試的新增配置與系統(tǒng)在環(huán)境進行分發(fā),通過流程化實現(xiàn)系統(tǒng)與配置信息的發(fā)布、交付、分發(fā)。具體到實際環(huán)境中是Vmware中的虛擬機發(fā)布管理,通過調(diào)用Vmware管理平臺提供的接口及工具包,實現(xiàn)統(tǒng)一化、流程化的虛擬機申請與管理功能,將虛擬化平臺中虛擬機的創(chuàng)建、發(fā)布、交付、回收等功能集成到運維平臺。
4.3 配置變更管理
配置變更要求以受控方式在最短時間內(nèi)完成基礎(chǔ)架構(gòu)或應(yīng)用服務(wù)配置變更,在變更實施過程中使用標(biāo)準(zhǔn)化、自動化的方法,以將由變更所導(dǎo)致的業(yè)務(wù)中斷影響減小到最低。學(xué)校信息系統(tǒng)所使用的操作系統(tǒng)平臺分為Windows與Linux二類,同類環(huán)境的配置變更非常類似,經(jīng)過測試選擇Puppet(開源的基于Ruby的自動化系統(tǒng)配置管理工具)來實現(xiàn)自動化的配置變更管理,Puppet支持DNS設(shè)置、系統(tǒng)參數(shù)、系統(tǒng)更新、主機名規(guī)則變更、批量系統(tǒng)的密碼修改、防火墻策略變更等配置的自動下發(fā),管理程序讀取指令及配置管理信息庫中設(shè)備的配置,通過調(diào)管理端來實現(xiàn)配置批量自動分發(fā)變更,反饋信息來記錄或變更管理配置息。
4.4 事件預(yù)警處理
在確定事件類型、優(yōu)先級的前提下,實現(xiàn)快速的服務(wù)恢復(fù)與應(yīng)用切換,實現(xiàn)服務(wù)器級故障自動修復(fù)依賴監(jiān)控預(yù)警信息,信息系統(tǒng)平臺中需要預(yù)警處理的設(shè)備包括基礎(chǔ)設(shè)備、Vmware平臺、虛擬主機、應(yīng)用系統(tǒng)等,使用免費工具作為信息采集低層服務(wù)端工具,數(shù)據(jù)采集使用SNMP協(xié)議、SSH訪問與自定義腳本相結(jié)合的方式,預(yù)警方式使用SNMP Trap與郵件告警,通過開發(fā)程序來讀取采集到狀態(tài)數(shù)據(jù)和警告信息匯總到統(tǒng)一的數(shù)據(jù)庫,定義主機或應(yīng)用的錯誤類型代碼及相應(yīng)故障事件的觸發(fā)規(guī)則、運行流程、修復(fù)腳本或指令,當(dāng)故障事件發(fā)生時管理平臺依據(jù)來源及事件標(biāo)識讀取事件響應(yīng)配置并發(fā)出指令,事件故障主機或關(guān)聯(lián)主機根據(jù)指令主動執(zhí)行流程化修復(fù)指令,執(zhí)行修復(fù)指令的結(jié)果被反饋回管理平臺,管理平臺將結(jié)果記錄入配置信息庫或發(fā)出進一步修復(fù)指令。
4.5 問題跟蹤管理
問題跟蹤管理利用logstash,redis等日志采集工具來收集問題信息及日志,管理平臺對日志信息按照應(yīng)用類型與業(yè)務(wù)邏輯關(guān)系進行分類過濾,形成可用的、有針對性的日志事件數(shù)據(jù),管理平臺根據(jù)日志信息分析IT基礎(chǔ)架構(gòu)的薄弱環(huán)節(jié)并確定引起問題發(fā)生的故障根源,管理人員利用管理平臺制定解決事故的方案和防止事故再次發(fā)生的措施。
5 進一步的思考
規(guī)劃統(tǒng)一運維平臺管理幾百臺服務(wù)器與應(yīng)用,考慮運維管理的高效化與信息安全預(yù)防的標(biāo)準(zhǔn)化,系統(tǒng)設(shè)計在通用性與擴展性還有許多要繼續(xù)改進,在自動化部方面應(yīng)用系統(tǒng)的類型較多且自動化管理工具欠缺,如何實現(xiàn)應(yīng)用系統(tǒng)軟件的自動化配置是繼續(xù)關(guān)注,故障巡檢方面要深一步考慮如何實現(xiàn)精確、有效的故障恢復(fù)策略,缺少考慮多人使用平臺時的授權(quán)機制與安全審計模塊。
【虛擬化環(huán)境下的統(tǒng)一運維論文】相關(guān)文章:
現(xiàn)代化海事運維理念研究論文11-04
精益化IT運維關(guān)鍵技術(shù)研究論文11-06
電力運維合一論文05-28
基于虛擬現(xiàn)實技術(shù)的三維教學(xué)環(huán)境研究論文11-08
運維應(yīng)急預(yù)案09-22
運維團隊口號05-03
運維實習(xí)報告01-18
IT運維簡歷模板03-29
運維實習(xí)總結(jié)08-06