壹、運維工程師簡介
1.運營工程師負責維護和保證整個服務的高可用性,同時不斷優化系統架構以提高部署效率,優化資源利用,提高整體ROI。
2.運維工程師面臨的最大挑戰是大規模集群的管理。如何管理數十萬臺服務器上的服務,保證服務的高可用性,是運維工程師面臨的最大挑戰。
二、運維工程師的工作內容
1.事件管理:目標是在服務出現異常時盡快恢復服務,從而保證服務的可用性;同時,深入分析故障原因,對服務中存在的問題進行提升和修復,設計制定相關方案,保證服務故障時的高效止損。
2.問題發現:設計開發高效的監控平臺和報警平臺,利用機器學習、大數據分析等方法對系統中的大量監控數據進行匯總分析,在系統異常時快速發現問題,判斷故障的影響。
3.問題處理:設計開發高效的問題處理平臺和工具,能夠在系統異常時快速/自動做出決策並觸發相關止損計劃,快速恢復服務。
4.問題跟蹤:通過分析問題發生時系統的各種表現(日誌、變化、監控)來確定問題的根本原因,制定和開發預案工具。