出任何線上事故,先不說其他地方有問題,監(jiān)控部分是有問題的。聽著很甩鍋的一句話,仔細(xì)思考好像有道理。
這里,我對常用的監(jiān)控對象以及監(jiān)控指標(biāo)分類整理,供大家參考:
①硬件監(jiān)控
包括:電源狀態(tài)、CPU 狀態(tài)、機器溫度、風(fēng)扇狀態(tài)、物理磁盤、raid 狀態(tài)、內(nèi)存狀態(tài)、網(wǎng)卡狀態(tài)。
②服務(wù)器基礎(chǔ)監(jiān)控
包括:
CPU:單個 CPU 以及整體的使用情況。
內(nèi)存:已用內(nèi)存、可用內(nèi)存。
磁盤:磁盤使用率、磁盤讀寫的吞吐量。
網(wǎng)絡(luò):出口流量、入口流量、TCP 連接狀態(tài)。
④中間件監(jiān)控
包括:
Nginx:活躍連接數(shù)、等待連接數(shù)、丟棄連接數(shù)、請求量、耗時、5XX 錯誤率。
Tomcat:線程數(shù)、當(dāng)前線程數(shù)、請求量、耗時、錯誤量、堆內(nèi)存使用情況、GC 次數(shù)和耗時。
緩存:成功連接數(shù)、阻塞連接數(shù)、已使用內(nèi)存、內(nèi)存碎片率、請求量、耗時、緩存命中率。
消息隊列:連接數(shù)、隊列數(shù)、生產(chǎn)速率、消費速率、消息堆積量。
⑤應(yīng)用監(jiān)控系統(tǒng)
包括:
HTTP 接口:URL 存活、請求量、耗時、異常量。
RPC 接口:請求量、耗時、超時量、拒絕量。
JVM:GC 次數(shù)、GC 耗時、各個內(nèi)存區(qū)域的大小、當(dāng)前線程數(shù)、死鎖線程數(shù)。
線程池:活躍線程數(shù)、任務(wù)隊列大小、任務(wù)執(zhí)行耗時、拒絕任務(wù)數(shù)。
連接池:總連接數(shù)、活躍連接數(shù)。
日志監(jiān)控:訪問日志、錯誤日志。
業(yè)務(wù)指標(biāo):視業(yè)務(wù)來定,比如 PV、訂單量等。
小編此次分享就此結(jié)束,咱們下期再見。
聯(lián)系人:王經(jīng)理
手機電話:13609365179
聯(lián)系電話:0931-5135562
聯(lián)系電話:0931-8266869
郵箱:1181093560@qq.com
網(wǎng)址:czyuehua.com
地址:甘肅省蘭州市城關(guān)區(qū)碧桂園金城云鼎8號樓1807室