因?yàn)?68 – 71 軟SBC服務(wù)器都是 7系統(tǒng),所以我們可以通過以下 來排查內(nèi)存是否出現(xiàn)損壞。
grep "[0-9]" /sys/devices/system/edac/mc/mc/csrow/ch*_ce_count

1> count不為0表示有錯誤
2> mc代表第幾個cpu,
3> csrow內(nèi)存通道,
4> ch第幾個內(nèi)存
EDAC即error detection and correction(錯誤檢測與糾正),是 內(nèi)部的機(jī)制。在上面的日志中,可以清楚地看出是內(nèi)存讀錯誤。MC即memory controller(內(nèi)存控制器)。CE則代表correctable error,是ECC內(nèi)存中可以糾正的錯誤,相對地還有UE(uncorrectable error)。為了摸清是哪些內(nèi)存出了問題,找出所有內(nèi)存的CE計(jì)數(shù),由上圖可知,第四塊內(nèi)存出現(xiàn)了故障。
通過 dmidecode -t memory ,可以查看每個DIMM

2.CPU排查 cat /sys/devices/system/cpu/cpu*/online