【導讀】人工智能(AI)正在迅速改變各行各業,從醫療保健、金融到自動駕駛汽車和自然語言處理,推動著全方位的創新。這場革命由AI服務器驅動,它們提供了前所未有的計算性能。然而,AI工作負載(包括大語言模型的廣泛采用)的指數級增長導致了功耗的急劇上升,給全球數據中心帶來了新的挑戰。隨著AI模型變得更加復雜以及AI服務器數量的增長,對強大、高效和可擴展的電力供應的需求比以往任何時候都更迫切。

現代數據中心正在不斷發展以應對這些日益增長的需求。其重點正轉向更高的能源效率、先進的電源管理以及集成碳化硅(SiC)等寬帶隙半導體(在某些情況下包括氮化鎵),以減少能量損耗。

安全性仍然是重中之重,尤其是當AI應用處理海量敏感數據時。這種環境要求采取強有力的措施,例如基于硬件的加密、安全啟動機制以及警惕的實時威脅檢測。為了應對AI推理和訓練(特別是由大語言模型驅動的工作負載)帶來的計算強度,數據中心正在采用新的供電和電壓調節方法,并實施先進的熱管理。可擴展性和靈活性的需求變得越來越重要,促使數據中心采用模塊化基礎設施并探索創新的冷卻策略。隨著這些趨勢的持續發展,AI驅動的數據中心有望在支持未來進步所需的敏捷性的同時,實現更高的效率和安全性。
為AI服務器供電的挑戰

不斷增長的電力和密度需求
AI服務器是現代數據中心的支柱,驅動著深度學習、機器學習、大語言模型和實時分析等高級任務。這些服務器比傳統的企業服務器需要更多的電力。隨著數據中心擴展其AI能力,它們面臨著在保持效率以管理成本和減少環境影響的同時,提供足夠電力的挑戰。數據中心的能耗激增,AI工作負載的能耗可能是傳統任務的兩倍。全球數據中心的能源需求正以每年10-15%的速度增長,目前AI已占其總能耗的10-20%。承擔繁重計算負載的AI加速器服務器是此基礎設施內的主要能源消耗者。

從傳統的以CPU為中心的架構向GPU和專用加速器的轉變,正推動著電力需求的持續激增。現代AI服務器的功耗現在是傳統企業服務器的兩到三倍,高性能AI機柜的功耗超過50千瓦/柜,而傳統數據中心僅為5-15千瓦/柜。僅GPU每卡功耗就可達300-700瓦。隨著AI工作負載的擴展,下一代數據中心必須實施先進的配電架構、高效的電壓調節器和創新的冷卻解決方案,以維持運行效率和可靠性。

Microchip通過其全面的高效MOSFET、SiC FET和智能柵極驅動器產品組合來應對這些不斷增長的電力需求。這些先進的功率器件旨在提供卓越的開關性能、降低導通和開關損耗并增強熱管理能力,這對于支持AI服務器所需的高功率密度至關重要。Microchip的SiC MOSFET支持更高的開關頻率,從而減小磁性元件的尺寸和重量,實現更緊湊、更高效的電源設計。智能柵極驅動器提供精確控制、集成保護功能和強大的診斷能力,確保即使在最苛刻的計算負載下也能可靠運行。這使得數據中心能夠部署更強大的AI服務器,而不會超出功率或熱極限。
效率與熱管理
隨著功率密度的增加,在相同或更小的物理空間內提供更多電力成為首要任務。傳統的電源單元和空氣冷卻方法正達到其運行極限,因為更高的功率密度會產生更多的熱量,并增加因效率低下而導致能量損失的風險。低效的電能轉換不僅會增加運營成本,還會導致更大的碳足跡,日益受到監管機構和客戶的關注。有效的熱管理對于防止過熱、維持系統可靠性以及延長關鍵部件的使用壽命至關重要。數據中心必須找到最大限度地提高效率和管理散熱的方法,同時最大限度地減少環境影響并實現可持續發展目標。
Microchip的dsPIC?數字信號控制器是其數字電源解決方案的核心,它結合了單片機的實時控制能力和數字信號處理器的高速數學處理能力。這些控制器能夠實現對功率級的精確控制、快速的瞬態響應以及復雜數字控制算法的實施。例如,dsPIC33A系列提供高時鐘速度、高級脈寬調制輸出和高分辨率模數轉換器,從而實現對功率級的精確控制、快速的瞬態響應以及復雜數字控制算法的實施。

智能熱管理和電源監控可包括溫度傳感器、風扇控制器和電源監控集成電路,實現對熱和電氣參數的實時跟蹤。這些器件可以與DSC無縫集成,以實施閉環冷卻策略、優化風扇速度并在異常情況下觸發警報或關閉,確保高密度AI服務器的安全高效運行。
安全與數據完整性
由于AI服務器處理大量敏感數據,強大的安全協議至關重要。網絡威脅和數據泄露風險的增加要求實施先進的基于硬件的安全措施和安全啟動機制。組織還需遵守嚴格的行業標準,如NIST 800-193、通用標準以及FIPS 140-3。開放計算項目也設定了較高的安全標準,重點關注硬件信任根、固件完整性和安全啟動過程。這些安全措施有助于確保AI數據服務器在運行前能夠驗證和認證硬件和軟件,降低網絡威脅的風險。
Microchip將其強大的安全功能直接集成到其控制器和電源管理集成電路中。這些功能包括硬件信任根、安全啟動、加密加速器以及對行業標準的支持。硬件信任根確保只有經過驗證的固件和軟件才能在系統上運行,而安全啟動機制可防止在啟動期間執行未經授權的代碼。加密加速器支持基于硬件的快速加密和解密,保護靜態和傳輸中的敏感數據。這些功能幫助數據中心滿足現代安全要求,防范不斷演變的網絡威脅,并維護AI工作負載的完整性和機密性。
可擴展性與靈活性
AI工作負載日益復雜,正推動著對AI數據服務器更高的可擴展性和靈活性的需求。大語言模型、實時分析和AI驅動應用的興起,要求基礎設施能夠動態擴展以處理激增的計算需求。AI訓練集群正在迅速擴展,一些超大規模數據中心現已部署的GPU架構功耗超過100千瓦/柜。向模塊化服務器架構的轉變允許數據中心在無需對整個系統進行徹底改造的情況下升級和重新配置硬件,從而降低成本并提高適應性。可組合基礎設施解決方案支持根據工作負載需求動態分配計算、存儲和網絡等資源,確保隨著新模型和應用的涌現,AI數據服務器能夠無縫擴展。
Microchip的模塊化電源管理解決方案(包括數字控制器、電源模塊和參考設計)旨在支持現代AI工作負載所需的可擴展性和靈活性。這些解決方案可以輕松集成到模塊化服務器架構中,允許數據中心根據計算需求擴展供電基礎設施。Microchip的數字控制器支持可組合基礎設施,能夠在工作負載演變時動態分配計算、存儲和網絡資源。這種方法降低了成本,提高了適應性,并確保隨著新模型和應用的涌現,AI數據服務器能夠無縫擴展。
完善的開發生態系統
AI的快速發展要求數據中心運營商和服務器制造商加快開發周期以保持競爭力。為AI服務器設計、驗證和部署先進的電源系統非常復雜,如果沒有合適的資源,可能會導致延誤和成本增加。為了最大限度地縮短產品上市時間并降低設計風險,獲得經過驗證的參考設計、強大的開發工具和專家技術支持至關重要。
結論
AI服務器電力需求的指數級增長給數據中心運營商和技術提供商帶來了重大挑戰。通過采用先進的功率器件、創新的冷卻解決方案、強大的安全協議和智能數字電源管理,行業可以有效應對這些挑戰。Microchip的高效MOSFET、精密的柵極驅動器以及具備先進DSP功能的dsPIC數字信號控制器,在實現卓越性能和能源效率的電源供應方面處于前沿地位。
通過利用先進的功率器件、數字控制器、集成的安全功能和全面的開發工具,數據中心運營商和服務器制造商能夠設計出滿足AI工作負載(包括由大語言模型驅動的工作負載)嚴苛要求的電源系統。這些技術實現了更高的效率和功率密度、增強的可靠性和熱管理、強大的安全性、可擴展性、靈活性以及更快的開發周期。整個行業的持續創新正在幫助下一代數據中心在性能、效率和安全性方面達到新的基準,支持AI基礎設施的持續演進。



