“新質生產力”是什么?綠色發展是高質量發展的底色,新質生產力本身就是綠色生產力。
作為數字經濟的“底座”,數據中心是新型基礎設施節能降耗的關鍵環節,如何建設下一代綠色高效數據中心一直是產業界的焦點。銀河麒麟云底座操作系統結合云場景,從提升數據中心資源利用率、優化系統級能耗、提高系統整體性能三個方向入手進行技術突破,促進降碳增效,推動數據中心綠色發展。
在云場景中,在線業務需要實時處理數據和響應請求,通常需要較多的系統資源;而離線業務雖然需要處理大規模數據,但由于不需要較高要求的處理性能和響應,因此通常對系統資源的要求相對較少。
在離線混部技術利用在線業務和離線業務對資源需求互補的特性,將兩種業務部署在同一臺服務器上,使得系統資源的利用率提高。相關調研顯示,CPU分組動態調頻技術可以通過調節CPU core的頻率來間接調節服務器的整機功耗。麒麟軟件嘗試將該技術與在離線混部技術相結合,積極探索綠色節能解決方案。
rubik是一個在離線混部引擎,它基于原生的kubernetes接口進行能力擴展,支持CPU、內存搶占,彈性限流,io權重控制等特性,但尚未涉足節約整機功耗方面。麒麟軟件嘗試將CPU分組動態調頻融入rubik中,探索在離線混部技術與功耗節約的結合。
麒麟軟件在rubik中添加power manage子系統,用于對新創建的pod進行頻率限制。該組件利用CPU分組接口,定義高頻組和低頻組。當新建pod時,將高優先級pod綁定的CPU 核分配到高頻組中,使其獲得更高的的頻率資源。該子系統與rubik的關系圖1所示:
圖1 rubik與power manage功能關系示例
以下實驗簡單驗證了在power manage啟用時的效果:
使用112個CPU的服務器,設置一個高頻組和一個低頻組。power manage啟用時,高頻組頻率區間為[3400,3400],低頻組頻率區間為[0,2600]。設置112個100%CPU使用率的負載,各個負載獨立綁核,負載為sysbench素數計算,CPU按不同比例分配給高低頻率區間,實驗結果如圖2所示:
圖2 高頻組CPU數量與整機功耗關系
經實驗簡單驗證,啟用power manage功能可以有效降低服務器整機功耗,而負載的性能折損僅與CPU降低的頻率成正相關。
目前多個研究表明,當前全球數據中心用戶集群的平均 CPU 利用率低于 20%,存在巨大的資源浪費。結合上述實驗結果,若啟用power manage,將其余80%未充分利用的CPU納入低頻組管理,可以節約20%以上的整機功耗。如圖3所示:
圖3 80%CPU納入低頻組管理效果示意圖
在rubik中引入CPU分組動態調頻是麒麟軟件將在離線混部技術與節約服務器整機功耗結合的一次嘗試。通過為pod根據優先級分配不同頻率的CPU,可以有效降低服務器在運行時的整機功耗。未來,麒麟軟件將帶來更多基于國產CPU動態功耗管理技術,為數據中心綠色節能增添技術助力。
通訊員 | 魏玉成
來 源 | 服務器研發部
審 核 | 市場與政府事務部