隨著AI大模型快速發展,數據中心服務器所需要的功率密度大幅提升,如何探路采用液冷散熱技術成為當務之急。
近日,香港地區落地首個可以開展實際業務的液冷散熱方案。有服務器行業人士表示,在全球不少區域市場,對液冷散熱的接受度還較低,如何平衡原始投入和業務發展成為當下需要面對的命題。
此前英偉達發布的GPU產品雖然有風冷和液冷兩種技術路線,但受歡迎的多是風冷方案。隨著新一代英偉達GPU發布,液冷散熱的比重預估也將逐漸提升。
如火如荼的AI大模型加速液冷商用
近日,數據中心服務商Global Switch與其合作伙伴Supermicro、xFusion(超聚變)和Liquidstack合作,在其香港數據中心展示了首個液冷技術機房實景模塊。
Global Switch香港董事總經理Eric Liu介紹,這是香港地區首個可以實際開展業務的液冷方案落地。過去兩年,Global Switch也在歐洲等市場推動液冷技術數據中心基礎設施。“近段時間,香港地區已經有客戶向我們咨詢液冷技術模塊落地,此外發展液冷技術也是為了讓數據中心的發展更有可持續性。”
(Global Switch在香港的數據中心,圖源:Global Switch)
“Global Switch香港公司目前既為多家頭部公有云廠商提供定制化服務,也為眾多中小型客戶傳統托管服務。我們的基礎設施和運營服務可以更靈活支持客戶多元化的部署需求。”
隨著AI大模型如火如荼發展,來自客戶端的需求也日益多元起來。“原本一臺傳統數據中心服務器最大功率也就在1000W,配置10臺這種規格的服務器就能滿足日常計算需求;但在AI時代,我們的客戶提出至少翻番到20KW功率密度,現在已經抬升到40KW甚至更高。轉換成液冷散熱技術正迫在眉睫。”他分析道,業內經計算后認為,傳統的風冷散熱技術,只能至多支持到25KW-30KW功率密度的數據中心服務器,超過這一功率將無法滿足運轉需求。
由此,單機柜的功率密度越大,就意味著所需的機柜整體數量越少,那么數據中心建設規模也可以更加集約化。引進液冷技術就可以實現這一結果。
一名服務器行業人士分析,一方面,采用也液冷散熱技術可以在提高算力密度的同時,更好實現低碳化政策。另一方面,從業界看重的PUE(電源使用效率,評價數據中心能源效率的指標)數據角度看,傳統的風冷散熱服務器除了服務器本身耗電外,還需要通過額外提供冷氣對服務器進行降溫,會大幅提高用電需求,液冷散熱則可以很大程度緩解這一難題。
Global Switch首席商務官Matthew Dent分析道,隨著數據中心功率密度越來越高,就需要服務商提供足夠完備的物理環境、電力、溫濕度等,靈活滿足從低到高的功率要求。“我們主要提供管路、監控、運維等能力,幫助客戶靈活部署不同類型的數據中心機柜。”
第三方機構TrendForce集邦咨詢認為,隨著NVIDIA(英偉達)Blackwell新平臺預計于2024年第四季出貨,將推動液冷散熱方案的滲透率明顯增長,從2024年的10%左右至2025年將突破20%。隨著全球ESG(環境、社會和公司治理)意識提升,加上CSP(云端服務業者)加速建設AI服務器,預期有助于帶動散熱方案從氣冷轉向液冷形式。
不過當前液冷散熱技術主要包括三類:冷板式液冷、浸沒式液冷、噴淋式液冷,對此不同服務器廠商的選擇也有不同。
前述業內人士分析,“我們認為,采用浸沒式液冷方案面臨的挑戰是,目前主流GPU芯片供應商并沒有為該方案提供質保,也即當產品浸入水里如果遇到意外,并不承諾可以正常使用,因此維護成本偏高。”
Matthew Dent則講道,“這三種技術方案各有優劣,目前來看,冷板液冷方案的優勢在于可以通過調節水溫等方式,達到數據中心運行期間降低PUE、實現節能的效果。”
液冷方案的成本走向可控
一名數據中心服務商人士表示,盡管此前英偉達H100發布時,提供了液冷和風冷兩種解決方案,但市場上大部分用戶更傾向于使用風冷方案。
究其原因,主要是考慮到液冷服務器及配套設施開發周期相對更長、成本也更高,客戶希望通過更快速、更低成本的方式實現業務快速落地,搶占大模型在行業中的領先優勢。
這也是新技術在投入市場初期必然要面對的命題:成本回收如何保障。
“據我觀察,海外市場對液冷服務器的接受程度偏向保守,寧愿穩健一點。因為這還涉及IT部門開支審批等問題。”前述行業人士對記者分析,作為一種新技術路線,液冷技術在開始投入時,由于要進行水、電路等改造,其初始開支的確會比風冷高,“不過我們計算大約在三年左右,我們提供的產品其運行成本加維護成本就開始下降。考慮到服務器一般壽命在3~5年,長則5年以上,因此長期來說,液冷方案會比風冷方案在大約三年投入后可以開始省錢。”
此外,海外市場更接受風冷方案的另一重原因在于土地價格差異。“比如中國香港、新加坡這些市場的地價較高,會相比歐美主要市場對液冷技術的接受度更高一些,歐美市場可能會先考慮多買地推風冷方案的路線。”前述人士續稱。
(采用新型直達晶片式(direct-to-chip)液冷解決方案的服務器機架,圖源 :Global Switch)
對于產業界擔心的投資成本問題,Eric Liu指出,市面上目前有一個誤解,認為將數據中心改造為液冷技術,就意味著基礎設施一切從頭開始。“但實際并非如此,我們借助已有的基礎設施與技術,通過與合作伙伴聯合的方式,可以在原有設施基礎上,追加實施液冷方案,實現靈活部署。”
他續稱,“所有創新科技一開始的投資都會比較大,但液冷技術符合客戶的下一代業務需求,同時隨著業務持續開展,客戶的投資效益會快速提升,也有利于長期運營成本降低。”
據記者了解,Global Switch在香港的數據中心位于將軍澳地區,這里有三條海纜登陸站,也有助于對本土企業出海進行業務賦能。
第三方機構世邦魏理仕分析,香港的數據中心市場規模預計將從2023年的30億美元,增長至2028年的約57億美元。這也很大程度得益于政策支持。今年8月香港特區政府曾公開表態,強調發展AI基礎設施計算能力的重要性。根據官方預估,到2030年前香港的運算能力需求將達15,000PFlops。
不僅如此,對于數據中心服務商來說,從傳統IDC轉向AIDC升級也成為當前命題。
“我們并沒有定義現在正從CPU為中心轉向GPU為中心,只是相比之下,GPU的需求成長很快。面對這種趨勢,我們作為數據中心服務商,應對方式是提供靈活的解決方案。我們并不提供芯片或AI設備,但能夠根據客戶對功率的需求,提供傳統風冷和新興液冷等不同散熱方案。”Matthew Dent對記者指出,Global Switch已經準備好承接從傳統4KW功率機柜,到單機柜120KW功率的需求升級。客戶可以根據需求自由選擇氣體或液體冷卻技術,并通過不同冷卻路線進行規劃。
據悉在亞洲區域,中國香港、新加坡都是Global Switch重視的市場,“對于新地區的開拓,我們也在進行評估。其中在中國香港地區,就有很多新需求來自中國內地,有跨境需求、也有本地需求。”Matthew Dent介紹道,目前全球主要市場都對數據中心功率密度提升有較高訴求,我們分布在倫敦、巴黎、法蘭克福、悉尼等其他市場也是如此。