• 服務支持

    系統更新

    當前位置  >  首頁  >  服務支持  >  系統更新

    更新ID(KYBA-202201-1018

    更新簡述:
    在部分機器偶現磁盤IO被阻塞,阻塞后 dmesg 中顯示blocked for more than 120 seconds。
    影響操作系統版本:
    銀河麒麟高級服務器操作系統(飛騰版)V10(SP1)0711 銀河麒麟高級服務器操作系統(鯤鵬版)V10(SP1)0711 銀河麒麟高級服務器操作系統(兆芯版)V10(SP1)0711 銀河麒麟高級服務器操作系統(海光版)V10(SP1)0711 銀河麒麟高級服務器操作系統(飛騰版)V10(SP1)0518 銀河麒麟高級服務器操作系統(鯤鵬版)V10(SP1)0518 銀河麒麟高級服務器操作系統(兆芯版)V10(SP1)0518 銀河麒麟高級服務器操作系統(海光版)V10(SP1)0518 銀河麒麟高級服務器操作系統(飛騰版)V10(SP2)0524 銀河麒麟高級服務器操作系統(鯤鵬版)V10(SP2)0524 銀河麒麟高級服務器操作系統(兆芯版)V10(SP2)0524 銀河麒麟高級服務器操作系統(海光版)V10(SP2)0524
    更新類型:
    問題修復
    發布時間:
    2021-12-27

    詳細介紹

    1.詳細描述

    在4.19.90 - 17內核的機器上偶現(部分機器大概2周一次)IO夯死的現象(dmesg 中顯示某進程 blocked for more than 120 seconds, 后面接著Call trace),并伴隨有ssh登錄不上的問題出現.


    2.復現步驟 

    復現步驟:

    很難復現,我們在研發過程中通過修改過內核代碼(加劇問題暴露)的內核才能復現。

    1. 大部分測試機用上我們 添加代碼加劇現象的的內核 從外部scp一個4G左右的 iso 文件到虛擬機內部就在拷貝過程就會慢慢發現拷貝速度降到 幾百K,這時候肯定是IO被阻塞了, 大概120秒后就可以在dmesg中看到 (blocked for more than 120 seconds )報錯信息.

    2. 我們也遇到過這樣沒有出現阻塞的機器,這時候我們繼續加大IO,在scp的過程中,也給相同塊設備的掛載點dd if=/dev/urandom of=/xxx/dest/path/xxxfile bs=1M count=4000, 這樣我們基本都能看到以上問題的現象。

    3. 這些的前提是得換上我們加劇現象的調試內核才能復現。

     

    3.原因簡述

    原因:內核的WBT模塊, 有個判斷自己是不是第一個IO waiter的地方在多線程情況下會有判斷非原子性的邏輯問題。會導致某些被阻塞的IO一直無法被喚醒,導致塊設備無法寫入。

    影響:會影響之前發布的4.19內核的版本


    4.解決方案/修復/更新方法

    規避方案:通過 echo 0 > /sys/block/設備/queue/wbt_lat_usec 關閉這個模塊,就不會有卡在wbt的D狀態進程了。

    修復方案:升級內核(Version 4.19.90-23.18.v2101)

     

    【注意事項】

      需要重啟生效;

    上一篇: KYBA-202201-1017 下一篇: KYBA-202201-1019

    試用

    服務

    動態

    聯系

    公啊灬啊灬啊灬快灬深用力视频