運維工程師幹些什麽
總結兩句話
1、保障業務長期穩定運行(如網站服務器、遊戲服務器等等)。
2、保障數據安全可靠(如用戶名密碼、遊戲數據、博客文章、交易數據等等)。
由這兩句話推演運維工程師要學些什麽
壹、保障業務長期穩定運行
出壹點點差錯,用戶就要投訴了。
1、業務跑在什麽上面?
網站服務器壹般是apache,nginx,tomcat等。但是真正跑通流程還需要Mysql數據庫來存儲用戶密碼及其它。很多程序都要php的解析,所以LNMP、LAMP(即nginx、apache、mysql、php)環境部署是必須掌握的技能。
2、業務出了問題怎麽及時知道?
這就需要監控軟件來郵件或短信來通知妳,常用的有zabbix,nagios等。報警發郵件,也得壹個郵件程序呀,sendmail或postfix。
3、在家裏收到報警,但服務器是內網IP,怎麽也得解決問題吧?
在公司搭建openvpn或pptp或openswan,在家裏通過VPN撥入內網,24小時解決問題唉,半夜爬起來解決問題也沒工資。
二、保障數據安全可靠
出壹點點差錯,領導要找妳喝茶了。
1、有時需要手動改數據庫內容?
所以要會基本的Mysql數據庫增刪查改命令。
2、萬壹數據庫服務器硬件壞了怎麽辦?
需要有個備庫以備不時之需,所以需要Mysql主從復制。
3、數據庫要還原怎麽辦?
所以需要在crond中定期全備Mysql數據,以便還原使用。如果要還原到指定時間點,還要學會Mysql增量備份與恢復。
4、如果是用戶上傳的圖片或文件服務器壞了怎麽辦?
定時備份可能還不夠,需要使用rsync加inotify來實時備份。以便任壹時刻主服務器壞掉,也能保障所有圖片有備份可以用來恢復。
5、小心黑客,要增加服務器安全性?
ssh輕易不能讓外人訪問,那麽就設置只允許公司的IP或跳板機IP訪問,這些都通過iptables來控制。
三、大性能
小公司總有壹天會牛逼起來的,實在牛不起來咱也可以跳到大公司。
1、越來越多的用戶來訪問我們的網站,壹臺web服務器抗不住了怎麽辦?
那就需要多臺web服務器來負擔,但多臺服務器之間怎麽進行負載均衡呢,這就需要用到nginx反向代理或LVS+keepalived或haproxy+heartbeat了。
2、用戶註冊發表的文章與評論太多,壹臺數據庫抗不住了怎麽辦?
數據庫壓力分為讀和寫,如果寫抗不住,需要進行分表分庫到多個服務器上。如果是讀壓力不夠了,可以使用mysql-proxy讀寫分離,來分擔讀的壓力。更簡單方便的方法,把數據庫裏的內容放到內存上,這就用上memcache或redis了。
3、N多用戶上傳下載文件,磁盤抗不住了怎麽辦?
把多塊磁盤做成raid,或者使用分布式存儲文件系統如MFS,GlusterFS來提高磁盤的讀寫能力。
4、網站上好多圖片,總有用戶反應網站加載太慢,怎麽辦?
這時可以把網站上的圖片通過squid或varnish緩存到網站前端,盡可能的增加訪問速度,當然,最好是購買商業的CDN加速。
5、運營商是個大難題,他們之間的帶寬好像很小,聯通IP訪問我電信網站怎麽就這麽慢呢?
這時可以使用bind自建壹個DNS服務器,把網站的DNS記錄指向自建DNS服務器上,配置好解析規則,以後聯通IP解析到聯通網站上,電信IP解析到電信網站上,體驗就會好很多啦。
四、自動化
終極目標:跑死機器,閑死人。
1、公司新買100臺服務器,公司竟然就1個移動光驅,這裝系統得到什麽時候?
使用kickstart或cobbler來網絡遠程自動安裝系統吧。
2、每次裝完機要優化很多內容,什麽文件描述符、端口、軟件安裝啊,手動操作不累死去?
趕緊學會shell,將解放非常多的工作量。
3、系統裝完後登陸要輸入密碼,這麽多臺啊?
使用expect吧,自動讀取提示來輸入密碼,並執行命令。
4、要批量把新代碼發布到線上服務器,怎麽辦?
使用saltstack或puppet或ansible吧,絕對爽歪歪。
五、其他
1、搭整套測試環境需要5臺服務器,但公司窮的只有壹臺空閑服務器?
學會xen或kvm或docker吧,虛擬出多臺服務器,就能解決資源問題了。特別是docker,強烈推薦,以後某個研發人員讓妳部署壹套新環境,分分鐘幫他解決。
2、研發人員的代碼控制,權限控制,總要運維人員管呀?
svn或git,這個是肯定要有的。
結尾:
現在我們在回過頭來思考,運維工程師平時幹些啥呢?
1、隨時解決報警故障。
2、業務程序更新。
3、編寫壹些腳本,監控或完成其他可自動完成功能。
4、運維架構完善,部署壹些用起來更方便更可靠或性能更好的開源工具以及制定運維流程規範。
5、打雜,如調交換機,裝系統,部署新環境等。