一,、服務(wù)器怎么運(yùn)營,?
檢查磁盤使用率,當(dāng)磁盤使用率超過80%,,可以清除一些日志文件,;
檢查內(nèi)存使用情況,當(dāng)內(nèi)存使用過多時(shí),,需要檢查是哪個(gè)進(jìn)程占用,,是否合理;
檢查CPU使用情況,,負(fù)載大?。划?dāng)CPU使用過多,,負(fù)載過大時(shí),,需要檢查是哪個(gè)進(jìn)程占用,是否合理,。
檢查服務(wù)器網(wǎng)卡接口的數(shù)據(jù)統(tǒng)計(jì)和每秒收發(fā)包的個(gè)數(shù)和流量,。
還需要結(jié)合服務(wù)器的業(yè)務(wù),當(dāng)然,,這些可用使用監(jiān)控軟件自動(dòng)檢查,,故障報(bào)警等,實(shí)時(shí)掌握服務(wù)器的運(yùn)行情況,。
二,、服務(wù)器運(yùn)營注意事項(xiàng)
1、提前檢查
服務(wù)器和網(wǎng)站漏洞檢測(cè),,對(duì)Web漏洞,、弱口令、潛在的惡意行為、違法信息等進(jìn)行定期掃描,。
代碼的定期檢查,,安全檢查,漏洞檢查,。
服務(wù)器安全加固,,安全基線設(shè)置,,安全基線檢查,。
數(shù)據(jù)庫執(zhí)行的命令,添加字段,、加索引等,,必須是經(jīng)過測(cè)試檢查的命令,才能在正式環(huán)境運(yùn)行,。
2,、數(shù)據(jù)備份
服務(wù)器數(shù)據(jù)備份,包括網(wǎng)站程序文件備份,,數(shù)據(jù)庫文件備份,、配置文件備份,如有資源最好每小時(shí)備份和異地備份,。
建立五重備份機(jī)制:常規(guī)備份,、自動(dòng)同步、LVM快照,、Azure備份,、S3備份。
定期檢查備份文件是否可用,,避免出故障后,,備份數(shù)據(jù)不可用。
重要數(shù)據(jù)多重加密算法加密處理,。
程序文件版本控制,,測(cè)試,發(fā)布,,故障回滾,。
3、安全監(jiān)控
nagios監(jiān)控服務(wù)器常規(guī)狀態(tài)CPU負(fù)載,、內(nèi)存,、磁盤、流量,,超過閾值告警,。
zabbix或cacti監(jiān)控服務(wù)器常規(guī)狀態(tài)CPU負(fù)載、內(nèi)存、磁盤,、流量等狀態(tài),,可以顯示歷史曲線,方便排查問題,。
監(jiān)控服務(wù)器SSH登錄記錄,、iptables狀態(tài)、進(jìn)程狀態(tài),,有異常記錄告警,。
監(jiān)控網(wǎng)站W(wǎng)EB日志(包括nginx日志php日志等),可以采用EKL來收集管理,,有異常日志告警,。
運(yùn)維人員都要接收告警郵件和短信,至少所負(fù)責(zé)的業(yè)務(wù)告警郵件和短信必須接收,,運(yùn)維經(jīng)理接收重要業(yè)務(wù)告警郵件和短信,。(除非是專職運(yùn)維開發(fā))
除服務(wù)器內(nèi)部監(jiān)控外,最好使用第三方監(jiān)控,,從外部監(jiān)控業(yè)務(wù)是否正常(監(jiān)控URL,、端口等),比如:監(jiān)控寶,。
4,、故障避免預(yù)防
網(wǎng)站W(wǎng)EB增加WAF,避免XSS跨站腳本,、SQL注入,、網(wǎng)頁掛馬等漏洞威脅。
程序代碼連接數(shù)據(jù)庫,、memcache,、redis等,可以使用域名(域名HOSTS指定IP),,當(dāng)出問題,,有備用的服務(wù)器,就可以通過修改DNS或者HOSTS,,恢復(fù)服務(wù),。
建立應(yīng)急預(yù)案機(jī)制,定期演練事故場(chǎng)景,,估算修復(fù)時(shí)間,。
部署蜜罐系統(tǒng),防范企業(yè)和服務(wù)器內(nèi)網(wǎng)APT攻擊,。
建立雙活集群,,包括業(yè)務(wù)服務(wù)的高可用,,避免業(yè)務(wù)服務(wù)單點(diǎn)。
服務(wù)器集群采用跳板機(jī)或堡壘機(jī)登錄,,避免服務(wù)器集群每臺(tái)服務(wù)器可以遠(yuǎn)程連接管理,。
操作重要業(yè)務(wù)升級(jí)、遷移,、擴(kuò)容……之前,,列一下操作步驟,越詳細(xì)越好,,實(shí)際操作按步驟操作,,操作完做好記錄。
5,、事中操作
網(wǎng)站W(wǎng)EB增加WAF,,發(fā)現(xiàn)XSS、SQL注入,、網(wǎng)頁掛馬等攻擊,會(huì)自動(dòng)攔截,,并記錄日志,。
檢查服務(wù)器數(shù)據(jù)備份是否可用。
在處理需求和故障時(shí),,執(zhí)行風(fēng)險(xiǎn)命令(比如rm,、restart、reboot等)需再三確認(rèn),,執(zhí)行命令前,,檢查所在服務(wù)器,所在服務(wù)器路徑,,再執(zhí)行,!
不要疲勞駕駛,喝酒不上機(jī),,上機(jī)不喝酒,,尤其別動(dòng)數(shù)據(jù)庫,避免在不清醒的狀態(tài)下,,在服務(wù)器上執(zhí)行了錯(cuò)誤命令,,導(dǎo)致數(shù)據(jù)丟失或業(yè)務(wù)故障。
在處理事故時(shí),,一定要考慮處理措施是否會(huì)引發(fā)連鎖故障,,重要操作三思而行。
6,、事后檢查分析
實(shí)現(xiàn)網(wǎng)絡(luò)安全可視化管理,,可以看到每天有那些異常IP和異常URL請(qǐng)求,,服務(wù)器集群開放端口列表等。能對(duì)全網(wǎng)進(jìn)行安全策略集中管理,。統(tǒng)一日志收集和分析,。
備份及篡改恢復(fù)功能,程序文件,、圖片,、數(shù)據(jù)文件、配置文件的備份,,故障回滾機(jī)制,。
對(duì)攻擊日志進(jìn)行深度分析,展現(xiàn)攻擊路徑,、攻擊源,,協(xié)助管理員溯源。
踐行DevOps的無指責(zé)文化,,尤其是在做事故分析時(shí),。事故分析重在定位原因,制定改進(jìn)措施,。