一、服務器怎么運營,?
檢查磁盤使用率,,當磁盤使用率超過80%,,可以清除一些日志文件;
檢查內存使用情況,,當內存使用過多時,,需要檢查是哪個進程占用,是否合理,;
檢查CPU使用情況,,負載大小,;當CPU使用過多,,負載過大時,需要檢查是哪個進程占用,,是否合理,。
檢查服務器網卡接口的數(shù)據(jù)統(tǒng)計和每秒收發(fā)包的個數(shù)和流量。
還需要結合服務器的業(yè)務,,當然,,這些可用使用監(jiān)控軟件自動檢查,故障報警等,,實時掌握服務器的運行情況,。
二、服務器運營注意事項
1,、提前檢查
服務器和網站漏洞檢測,,對Web漏洞、弱口令,、潛在的惡意行為,、違法信息等進行定期掃描。
代碼的定期檢查,,安全檢查,,漏洞檢查。
服務器安全加固,,安全基線設置,,安全基線檢查。
數(shù)據(jù)庫執(zhí)行的命令,,添加字段,、加索引等,必須是經過測試檢查的命令,,才能在正式環(huán)境運行,。
2、數(shù)據(jù)備份
服務器數(shù)據(jù)備份,包括網站程序文件備份,,數(shù)據(jù)庫文件備份,、配置文件備份,如有資源最好每小時備份和異地備份,。
建立五重備份機制:常規(guī)備份,、自動同步、LVM快照,、Azure備份,、S3備份。
定期檢查備份文件是否可用,,避免出故障后,,備份數(shù)據(jù)不可用。
重要數(shù)據(jù)多重加密算法加密處理,。
程序文件版本控制,,測試,發(fā)布,,故障回滾,。
3、安全監(jiān)控
nagios監(jiān)控服務器常規(guī)狀態(tài)CPU負載,、內存,、磁盤、流量,,超過閾值告警,。
zabbix或cacti監(jiān)控服務器常規(guī)狀態(tài)CPU負載、內存,、磁盤,、流量等狀態(tài),可以顯示歷史曲線,,方便排查問題,。
監(jiān)控服務器SSH登錄記錄、iptables狀態(tài),、進程狀態(tài),,有異常記錄告警。
監(jiān)控網站WEB日志(包括nginx日志php日志等),,可以采用EKL來收集管理,有異常日志告警,。
運維人員都要接收告警郵件和短信,,至少所負責的業(yè)務告警郵件和短信必須接收,運維經理接收重要業(yè)務告警郵件和短信。(除非是專職運維開發(fā))
除服務器內部監(jiān)控外,,最好使用第三方監(jiān)控,,從外部監(jiān)控業(yè)務是否正常(監(jiān)控URL、端口等),,比如:監(jiān)控寶,。
4、故障避免預防
網站WEB增加WAF,,避免XSS跨站腳本,、SQL注入、網頁掛馬等漏洞威脅,。
程序代碼連接數(shù)據(jù)庫,、memcache、redis等,,可以使用域名(域名HOSTS指定IP),,當出問題,有備用的服務器,,就可以通過修改DNS或者HOSTS,,恢復服務。
建立應急預案機制,,定期演練事故場景,,估算修復時間。
部署蜜罐系統(tǒng),,防范企業(yè)和服務器內網APT攻擊,。
建立雙活集群,包括業(yè)務服務的高可用,,避免業(yè)務服務單點,。
服務器集群采用跳板機或堡壘機登錄,避免服務器集群每臺服務器可以遠程連接管理,。
操作重要業(yè)務升級,、遷移、擴容……之前,,列一下操作步驟,,越詳細越好,實際操作按步驟操作,,操作完做好記錄,。
5、事中操作
網站WEB增加WAF,,發(fā)現(xiàn)XSS,、SQL注入、網頁掛馬等攻擊,會自動攔截,,并記錄日志,。
檢查服務器數(shù)據(jù)備份是否可用。
在處理需求和故障時,,執(zhí)行風險命令(比如rm,、restart、reboot等)需再三確認,,執(zhí)行命令前,,檢查所在服務器,所在服務器路徑,,再執(zhí)行,!
不要疲勞駕駛,喝酒不上機,,上機不喝酒,,尤其別動數(shù)據(jù)庫,避免在不清醒的狀態(tài)下,,在服務器上執(zhí)行了錯誤命令,,導致數(shù)據(jù)丟失或業(yè)務故障。
在處理事故時,,一定要考慮處理措施是否會引發(fā)連鎖故障,,重要操作三思而行。
6,、事后檢查分析
實現(xiàn)網絡安全可視化管理,,可以看到每天有那些異常IP和異常URL請求,服務器集群開放端口列表等,。能對全網進行安全策略集中管理,。統(tǒng)一日志收集和分析。
備份及篡改恢復功能,,程序文件,、圖片、數(shù)據(jù)文件,、配置文件的備份,,故障回滾機制。
對攻擊日志進行深度分析,,展現(xiàn)攻擊路徑,、攻擊源,協(xié)助管理員溯源,。
踐行DevOps的無指責文化,,尤其是在做事故分析時,。事故分析重在定位原因,制定改進措施,。