K8S節(jié)點(diǎn)異常怎么辦,k8s 哪個節(jié)點(diǎn)是master節(jié)點(diǎn),k8s查看節(jié)點(diǎn)剩余資源-ESG跨境

K8S節(jié)點(diǎn)異常怎么辦,k8s 哪個節(jié)點(diǎn)是master節(jié)點(diǎn),k8s查看節(jié)點(diǎn)剩余資源

來源網(wǎng)絡(luò)
來源網(wǎng)絡(luò)
2022-04-30
點(diǎn)贊icon 0
查看icon 974

K8S節(jié)點(diǎn)異常怎么辦,k8s 哪個節(jié)點(diǎn)是master節(jié)點(diǎn),k8s查看節(jié)點(diǎn)剩余資源K8S節(jié)點(diǎn)異常怎么辦節(jié)點(diǎn)健康檢測的意思是在K8S集群運(yùn)行過程中,由于運(yùn)行時組件問題、內(nèi)核死鎖、資源不足等各種原因,節(jié)點(diǎn)經(jīng)常不可用。默認(rèn)情況下,Kubelet會監(jiān)控PIDPressure、MemoryPressure、DiskPressure......

K8S節(jié)點(diǎn)異常怎么辦,k8s 哪個節(jié)點(diǎn)是master節(jié)點(diǎn),k8s查看節(jié)點(diǎn)剩余資源




K8S節(jié)點(diǎn)異常怎么辦

節(jié)點(diǎn)健康檢測

的意思是

在K8S集群運(yùn)行過程中,由于運(yùn)行時組件問題、內(nèi)核死鎖、資源不足等各種原因,節(jié)點(diǎn)經(jīng)常不可用。默認(rèn)情況下,Kubelet會監(jiān)控PIDPressure、MemoryPressure、DiskPressure等節(jié)點(diǎn)的資源狀態(tài),但當(dāng)Kubelet報告這些狀態(tài)時,節(jié)點(diǎn)可能已經(jīng)很長時間不可用,Kubelet可能已經(jīng)啟動了驅(qū)逐Pod的操作。所以原生K8S對node 健康的檢測機(jī)制在某些場景下是不完善的。我們需要能夠提前發(fā)現(xiàn)節(jié)點(diǎn)的問題,需要更詳細(xì)的指標(biāo)來描述節(jié)點(diǎn)的健康狀態(tài),并采取相應(yīng)的恢復(fù)策略,實(shí)現(xiàn)智能運(yùn)維,減輕開發(fā)者和運(yùn)營商的負(fù)擔(dān)。

節(jié)點(diǎn)問題檢測器

NPD(NodeProblemDetector)是一個開源的Kubernetes社區(qū)集群節(jié)點(diǎn)檢測組件。NPD提供了通過定期匹配系統(tǒng)日志或文件來發(fā)現(xiàn)節(jié)點(diǎn)異常的功能。用戶可以通過自己的運(yùn)維經(jīng)驗(yàn),配置可能產(chǎn)生異常問題日志的正則表達(dá)式,選擇不同的上報方式。NPD將解析用戶的配置文件。當(dāng)有日志可以匹配用戶配置的正則表達(dá)式時,它可以通過NodeCondition、Event或Promethues度量報告檢測到的異常狀態(tài)。除了日志匹配功能,NPD還接受用戶自己編寫的自定義檢測插件。用戶可以開發(fā)自己的腳本或可執(zhí)行文件,并將其集成到NPD的插件中,這樣NPD就可以定期執(zhí)行檢測程序。

TKE 節(jié)點(diǎn)健康檢測

在TKE,NPD以擴(kuò)展組件的形式集成,NPD的能力增強(qiáng),稱為nodeployment detector Pulse(NPD Plus)擴(kuò)展組件。用戶可以一鍵將NPDPlus擴(kuò)展組件部署到現(xiàn)有集群,也可以選擇在創(chuàng)建集群時同時部署NPDPlus。在騰訊云容器團(tuán)隊(duì)K8S集群的長期運(yùn)維經(jīng)驗(yàn)中,提取了一些能夠發(fā)現(xiàn)特定形式節(jié)點(diǎn)異常的指標(biāo),并將其部分集成到NPDPlus中。比如檢測NPDPlus容器中Kubelet和Docker的systemd狀態(tài),檢測主機(jī)的文件描述符和線程數(shù)壓力。具體指標(biāo)如下:

TKE使用NPDPlus的目的是提前發(fā)現(xiàn)節(jié)點(diǎn)可能的不可用狀態(tài),而不是在節(jié)點(diǎn)不再可用之后報告狀態(tài)健康。當(dāng)用戶在TKE集群中部署NPDPlus時,使用命令kubectl describe node會發(fā)現(xiàn)更多的節(jié)點(diǎn)情況。例如,F(xiàn)DPressure指示該節(jié)點(diǎn)上已經(jīng)使用的文件描述符的數(shù)量是否達(dá)到了機(jī)器所允許的最大值的80%;ThreadPressure表示一個節(jié)點(diǎn)上的線程數(shù)量是否達(dá)到了機(jī)器允許數(shù)量的90%,依此類推。用戶可以監(jiān)控這些情況,并在出現(xiàn)異常情況時提前采取規(guī)避措施。

同時,K8S目前認(rèn)為node NotReady的機(jī)制取決于kubecontrollermanager的參數(shù)設(shè)置。當(dāng)節(jié)點(diǎn)的網(wǎng)絡(luò)被完全阻斷時,K8S很難發(fā)現(xiàn)第二級節(jié)點(diǎn)的異常,這在某些場景下(比如直播、在線會議等)是不可接受的。).針對這種場景,NPDPlus繼承了分布式node 健康檢測功能,可以在幾秒內(nèi)快速檢測出一個節(jié)點(diǎn)的網(wǎng)絡(luò)狀態(tài)以及是否可以與其他節(jié)點(diǎn)通信,同時不依賴于與K8S主組件的通信。

節(jié)點(diǎn)自我修復(fù)

收集節(jié)點(diǎn)的健康狀態(tài)是為了在service Pod不可用之前提前發(fā)現(xiàn)節(jié)點(diǎn)的異常,以便運(yùn)維或開發(fā)人員對Docker、Kubelet或節(jié)點(diǎn)進(jìn)行修復(fù)。在NPDPlus中,為了減輕運(yùn)維人員的負(fù)擔(dān),提供了根據(jù)收集到的節(jié)點(diǎn)狀態(tài)進(jìn)行不同自愈動作的能力。集群管理員可以根據(jù)節(jié)點(diǎn)的不同狀態(tài)配置相應(yīng)的自愈能力,比如重啟Docker、重啟Kubelet或者重啟CVM節(jié)點(diǎn)。同時,為了防止集群中的節(jié)點(diǎn)雪崩,在進(jìn)行自愈動作之前進(jìn)行嚴(yán)格的限流,防止節(jié)點(diǎn)大規(guī)模重啟。同時,為了防止集群中的節(jié)點(diǎn)發(fā)生雪崩,在進(jìn)行自愈動作之前進(jìn)行了嚴(yán)格的電流限制。具體戰(zhàn)略是:

集群中同時只允許有一個節(jié)點(diǎn)自愈,兩次自愈行為間隔至少1分鐘。

當(dāng)一個新節(jié)點(diǎn)添加到集群中時,它將給予該節(jié)點(diǎn)2分鐘的容錯時間,以防止由于剛添加到集群中的節(jié)點(diǎn)的不穩(wěn)定性而導(dǎo)致的錯誤自愈。

當(dāng)節(jié)點(diǎn)在觸發(fā)CVM自愈操作重啟后仍處于異常狀態(tài)時,節(jié)點(diǎn)將在3小時內(nèi)不再執(zhí)行任何自愈操作。

NPDPlus將記錄節(jié)點(diǎn)事件中執(zhí)行的所有自愈操作,以便集群管理員可以方便地了解節(jié)點(diǎn)上的事件。

用戶指南

1.登錄騰訊云容器服務(wù)控制臺,點(diǎn)擊要創(chuàng)建NPDPlus的集群。

2.點(diǎn)擊集群詳細(xì)信息頁面左側(cè)的組件管理,在組件管理中選擇NodeProblemDetectorPlus。

3.配置NodeProblemDetectorPlus參數(shù),可以根據(jù)具體節(jié)點(diǎn)的狀態(tài)選擇執(zhí)行不同的自愈動作。

4.選擇“確定”,然后單擊“完成”,一鍵創(chuàng)建它。

在集群形成管理中,可以看到NPDPlus正在成功運(yùn)行:


文章推薦
海關(guān)報關(guān)流程講解
Lazada聯(lián)盟營銷推廣技巧新手指南,lazada聯(lián)盟推廣技巧,lazada聯(lián)盟推廣技巧
惠州哪家國際物流公司物流旺季時效有保證,惠州高品質(zhì)物流服務(wù)聯(lián)系方式
寄國際快遞中可能會面臨哪些風(fēng)險,可以往中風(fēng)險地區(qū)寄快遞嗎


特別聲明:以上文章內(nèi)容僅代表作者本人觀點(diǎn),不代表ESG跨境電商觀點(diǎn)或立場。如有關(guān)于作品內(nèi)容、版權(quán)或其它問題請于作品發(fā)表后的30日內(nèi)與ESG跨境電商聯(lián)系。

搜索 放大鏡
韓國平臺交流群
加入
韓國平臺交流群
掃碼進(jìn)群
歐洲多平臺交流群
加入
歐洲多平臺交流群
掃碼進(jìn)群
美國賣家交流群
加入
美國賣家交流群
掃碼進(jìn)群
ESG跨境專屬福利分享群
加入
ESG跨境專屬福利分享群
掃碼進(jìn)群
拉美電商交流群
加入
拉美電商交流群
掃碼進(jìn)群
亞馬遜跨境增長交流群
加入
亞馬遜跨境增長交流群
掃碼進(jìn)群
亞馬遜跨境增長交流群
加入
亞馬遜跨境增長交流群
掃碼進(jìn)群
拉美電商交流群
加入
拉美電商交流群
掃碼進(jìn)群
ESG獨(dú)家招商-PHH GROUP賣家交流群
加入
ESG獨(dú)家招商-PHH GROUP賣家交流群
掃碼進(jìn)群
2025跨境電商營銷日歷
《2024年全球消費(fèi)趨勢白皮書——美國篇》
《2024TikTok出海達(dá)人營銷白皮書》
《Coupang自注冊指南》
《eMAG知識百科》
《TikTok官方運(yùn)營干貨合集》
《韓國節(jié)日營銷指南》
《開店大全-全球合集》
《TikTok綜合運(yùn)營手冊》
《TikTok短視頻運(yùn)營手冊》
通過ESG入駐平臺,您將解鎖
綠色通道,更高的入駐成功率
專業(yè)1v1客戶經(jīng)理服務(wù)
運(yùn)營實(shí)操指導(dǎo)
運(yùn)營提效資源福利
平臺官方專屬優(yōu)惠

立即登記,定期獲得更多資訊

訂閱
聯(lián)系顧問

平臺顧問

平臺顧問 平臺顧問

微信掃一掃
馬上聯(lián)系在線顧問

icon icon

小程序

微信小程序

ESG跨境小程序
手機(jī)入駐更便捷

icon icon

返回頂部

【免費(fèi)領(lǐng)取】全球跨境電商運(yùn)營干貨 關(guān)閉
進(jìn)行中
進(jìn)行中
2025跨境電商營銷日歷
包括傳統(tǒng)中、外重要節(jié)日及重點(diǎn)電商營銷節(jié)點(diǎn)還對營銷關(guān)鍵市場、選品輔以說明,讓你的365天安排的明明白白!
免費(fèi)領(lǐng)取
進(jìn)行中
進(jìn)行中
【平臺干貨】eMAG知識百科
涵蓋從開店到大賣6個板塊:開店、運(yùn)營、廣告、選品、上架、物流
免費(fèi)領(lǐng)取
進(jìn)行中
進(jìn)行中
TikTok運(yùn)營必備干貨包
包含8個TikTok最新運(yùn)營指南(市場趨勢、運(yùn)營手冊、節(jié)日攻略等),官方出品,專業(yè)全面!
免費(fèi)領(lǐng)取
進(jìn)行中
進(jìn)行中
韓國coupang平臺自注冊指南
韓國Coupang電商平臺從注冊準(zhǔn)備、提交申請到完成注冊,開店全流程詳細(xì)指引。
免費(fèi)領(lǐng)取
進(jìn)行中
進(jìn)行中
全球平臺詳解——全球合集
涵括全球100+個電商平臺的核心信息,包括平臺精煉簡介、競爭優(yōu)勢、熱銷品類、入駐要求以及入駐須知等關(guān)鍵內(nèi)容。
立即領(lǐng)取
進(jìn)行中
進(jìn)行中
韓國電商節(jié)日營銷指南
10+韓國電商重要營銷節(jié)點(diǎn)詳細(xì)解讀;2024各節(jié)日熱度選品助力引爆訂單增長;8大節(jié)日營銷技巧輕松撬動大促流量密碼。
免費(fèi)領(lǐng)取
進(jìn)行中
進(jìn)行中
全球平臺詳解——?dú)W洲篇
涵蓋20+歐洲電商平臺,詳細(xì)解讀優(yōu)勢、入駐條件、熱銷品等
立即領(lǐng)取