什么是數據中心,我們如何使用它?更具體地說,數據中心有哪些不同類型,它們為使用它們的企業提供哪些不同的用途?
這些問題看似簡單,但要得出令人滿意的答案卻出人意料地困難。就在過去一年左右的時間里,我們看到越來越強大的大型語言模型(LLM)正在支持新的生成式人工智能用例,這些用例在不久前看起來還像是科幻小說。從那時起,許多企業紛紛制定人工智能戰略,以確保他們充分利用這項強大的新技術的潛力。然而,由于過于關注他們可以利用人工智能做什么,許多企業卻遲遲沒有思考如何利用人工智能他們應該這樣做,具體來說,這將如何改變數據中心的需求。
借助人工智能,傳統的數據中心分割不再適用
多年來,我們一直在區分數據中心行業的兩大細分市場。一方面,通用托管數據中心承載著企業不再希望在其本地位置保留的工作負載。另一方面,高價值、高度互聯的站點通常位于人口稠密的地區。這些網絡密集的互連站點構成了生態系統的核心,例如金融交易、游戲或高度依賴低延遲連接的任何其他生態系統。當我們嘗試決定將人工智能工作負載放在哪里時,這種細分仍然對我們有用嗎?
當企業考慮托管數據中心時,因為他們正在從本地數據中心“提升和轉移”現有的應用工作負載,決策通常以成本和效率為中心。由于他們的主要關注點是實現每個計算周期的最低成本,因此他們可能準備在網絡密度與提供最低房地產和電力成本的位置之間進行權衡。
我們一直認為,這種一心一意地關注成本對于數字業務來說會適得其反。能夠在某些地點執行某些工作負載是有價值的;在許多情況下,這意味著在主要人口中心的網絡密集地點附近部署基礎設施。為合作伙伴和終端用戶提供密集互連的數據中心可能會花費更多的前期成本,但它們可以提供的商業價值足以彌補這一點。
如今,將數據中心視為一種簡單的商品可能特別有害,這在很大程度上是由于人工智能的重要性日益增加。一個不爭的事實是,如果想做好人工智能,基礎設施的定位很重要。人工智能模型生命周期依賴于具有不同基礎設施要求的不同工作負載。這意味著人工智能基礎設施應該是分布式的,這一事實可能迫使我們重新評估我們看待數據中心市場不同領域的方式。
了解人工智能時代的數據中心細分
讓我們考慮如何應用人工智能要求來實現更復雜的分割策略,而不是僅基于網絡密度的傳統兩段方法。人工智能對于數據中心的不同之處在于新一代GPU芯片組帶來的令人難以置信的功率密度要求。人工智能與數據中心的不同之處在于,新一代GPU芯片組對功率密度的要求令人難以置信。如果我們將功率密度作為第二個分割維度,我們最終得到一個簡單的2×2矩陣,垂直軸從低密度到高密度,而水平軸從高延遲到低延遲。
無差異化的數據中心
世界上很大一部分數據中心可以最好地歸類為無差異化的。這些數據中心往往是過去基礎設施投資策略的產物。與在網絡密集的位置構建數據中心不同,企業通常選擇在其大部分員工居住的位置(例如校園)構建數據中心。同樣,服務提供商將辦公樓或倉庫轉換為數據中心,將從未用于此目的的房地產轉換為IT房地產。
雖然這些數據中心可以為一組給定的工作負載提供適合用途的功能,但如果新工作負載的功率密度要求急劇增加,會發生什么情況?升級站點以獲得更多冷卻和電力或采用液體冷卻等新冷卻技術有多容易?在人工智能戰略中依賴這些無差異化數據中心的企業可能會難以有效執行這些戰略。
超大規模數據中心
當需要非常高的密度,但不太關心低延遲互連時,那么超大規模數據中心是您的正確選擇。這些傳統上是主要云和即服務提供商的領域。企業無需自行構建或部署新的高密度設備來支持其人工智能戰略,而是可以按即用即付的方式獲取這些超大規模數據中心之一的容量。
從人工智能的角度來看,超大規模數據中心傳統上與LLM培訓工作負載相關,這些工作負載通常非常密集和計算密集型,但對延遲不太敏感。然而,如果說所有模型訓練工作負載都應該專門進入超大規模數據中心,那就是錯誤的。正如我們稍后將看到的,在為人工智能工作負載選擇正確的位置時,始終應該考慮到細微差別。
邊緣數據中心
顧名思義,邊緣數據中心部署在數字邊緣:靠近終端用戶高度集中的位置、應用和設備。這種接近性很重要,因為有許多應用和工作負載需要始終保持低延遲。
實際上,邊緣數據中心的功率密度需求并沒有像其他領域那樣快速增長。部署在邊緣數據中心的工作負載通常是網絡繁重的工作負載,其密度密集程度低于計算工作負載。
在人工智能方面,邊緣數據中心可以發揮作用。某些人工智能推理工作負載也可能具有非常低的延遲要求??紤]某些游戲用例或部署數字孿生來支持虛擬維護助手。在這些情況下,企業可能會選擇將人工智能推理部署到其邊緣數據中心。在其他情況下,如果延遲容忍度足夠,企業可能會選擇將其人工智能推理需求聚合到其核心互連中心,這使他們能夠大規模管理這些模型。
隨著企業開始推出人工智能戰略,他們意識到保持數據源和處理位置之間距離較短的重要性。如果這兩個位置之間不接近,延遲將不可避免地導致延遲。這意味著隱藏在數據集中的洞察力將變得過時,這反過來又意味著人工智能模型的準確性將受到影響。
核心數據中心
核心數據中心代表了現代數字基礎設施的基礎。它們通常位于網絡密度和距離為技術消費者和技術提供商提供互連和最大化雙方業務價值的最佳機會的位置。從互連的核心數據中心開始,企業可以構建其全球分布式數字基礎設施,以實現完整的邊緣到云方法。因此,他們可以簡化連接,最大限度地提高靈活性,并為利用人工智能等新興技術做好準備。
就人工智能而言,核心數據中心可能不是最有可能放置大規模語言模型進行訓練的位置。這種情況更有可能發生在超大規模站點中,其中每個計算周期以一定的成本提供高功率密度。在人工智能推理方面,核心數據中心因其靠近其他數據源以及為用戶、設備和應用提供的低延遲訪問而成為關鍵位置。
并非所有訓練工作負載都大到足以最終進入超大規模設施。許多推理工作負載可能對延遲不夠敏感,無法最終出現在邊緣位置。我們預計成熟的買家會在超大規模和核心地點之間根據他們的培訓要求進行權衡。同樣,他們將根據推理工作負載在邊緣和核心位置之間進行權衡。
除了簡單的訓練/推理二進制之外,核心數據中心應該成為任何人工智能基礎設施戰略的重要組成部分還有多種原因。隨著許多企業希望在分布式位置之間快速移動人工智能數據集,擁有正確的網絡基礎設施變得前所未有的重要。核心數據中心可以輕松訪問網絡服務提供商的密集生態系統,這意味著它們可以為追求網絡現代化計劃的企業提供理想的基礎。
核心數據中心還可以幫助企業建立云鄰近數據架構以支持其人工智能工作負載。其中許多企業都希望使用公共云服務來幫助其人工智能工作負載提供可擴展性、靈活性和可靠性。然而,如果他們不小心,使用公共云進行人工智能可能會導致成本高昂、安全漏洞和數據失控等問題。
與云相鄰的數據架構允許在低延遲的云上移動數據,從而能夠按需利用公共云服務,而不會承擔全部使用公共云的風險和缺點。