國產高性能存儲,悄悄爆發:高性能磁鐵

          AI存力卡位戰高性能磁鐵 ,國產存儲如何破局?

          文|趙艷秋 周享玥

          編|石兆

          今年開年后,當DeepSeek等攪動的大模型應用熱潮在各行業迅速蔓延時,一場更底層的競賽,已在AI基礎設施領域悄然爆發高性能磁鐵 。國產存儲企業,正在高性能存儲市場上發起攻勢。

          “DeepSeek等在應用側產生的效果,徹底點燃了企業應用AI的信心高性能磁鐵 。”京東云相關負責人告訴數智前線,大中型企業今年普遍在AI基礎設施上投入更多資源和預算。但第三方調研顯示,超過76%的企業AI項目,因存儲性能利用率不足,直接造成15%-30%的算力損耗。

          存儲,這個此前被經常“忽視”的賽道,在今天正變得舉足輕重高性能磁鐵 。高性能存儲已成為智算中心標配,占AI Infra的15%左右,而今年新增市場將是之前的數倍。

          僅第一季度,京東云就已基本完成兩個超大智算中心項目實施高性能磁鐵 。客戶對存儲的要求驚人地一致,就是高性能,以滿足他們大模型訓練和應用的需求。京東云提供存儲系統,適配了業界最高的400G IB網絡,并成功將存儲帶寬利用率推升至84%。

          此前,高性能存儲幾乎是國際廠商的天下高性能磁鐵 。而在新一輪AI變局中,市場爭奪和重塑的背后,是國內企業在技術商業以及人才團隊上,長達10多年的積累。

          01

          新一輪AI趨勢下高性能磁鐵 ,存力變化幾何?

          新一輪人工智能,對高性能存儲的技術商業影響極大高性能磁鐵

          DeepSeek推出后,推理市場正在爆發高性能磁鐵 。IDC預測,2025年推理工作負載的占比,將達到近7成。人們可能認為,推理對AI基礎設施的性能要求要低于訓練,但事實并非如此。

          “從DeepSeek發布的產品特征來看,對于存儲性能的需求,還會再上一個臺階高性能磁鐵 。理論上,推理對存儲的讀取性能要求,會遠超訓練。”京東云資深人士說,以DeepSeek的671B模型為例,要求存儲讀取速度突破每秒TB級,才能支撐GPU推理集群的秒級擴展。而只有這樣的彈性擴展能力,才能達到人們縮短首次token輸出時間的期望。

          隨著AI應用落地,很多企業也開始重視推理成本高性能磁鐵 。DeepSeek已采用如PD分離技術,將推理的預填充(Prefill)和解碼(Decode)階段分開部署,分配不同硬件資源,來提升推理性價比。在一些真實場景中,PD分離讓長文本生成速度提升5倍以上。京東云人士則告訴數智前線,PD分離結合存儲、kv緩存,可進一步大幅提升推理性價比,該團隊已在這一方向上展開技術攻關。

          除了推理市場給高性能存儲帶來的挑戰,后訓練的增加,對存力市場的影響也不小高性能磁鐵 。業界的共識是,全球只有少數幾家企業將繼續做預訓練,在大模型技術上持續摸高。而大多數大中型企業,做后訓練的頻率將增加。

          相比于預訓練,后訓練對語料數量要求更少,訓練周期也會縮短,但與預訓練一樣,對存儲在時延、吞吐和帶寬等性能以及可靠性上,同樣提出極致高要求高性能磁鐵 。這就像“數據輸油管”,如果輸送得不夠快、不夠穩定,耗資巨大的GPU集群就無法工作。

          在行業市場,汽車智駕、AI醫療等賽道,成為存儲性能的角斗場高性能磁鐵

          某醫療AI企業影像診斷系統,因小文件處理延遲,導致急診響應超時率升高至12%高性能磁鐵 。2024年,國家醫保局在放射檢查類相關指南中,首次將人工智能輔助診斷列入立項指南,在一些三甲醫院,AI輔助閱片已落地應用。AI輔助閱片要求在10多分鐘內,就要完成1T數據的讀取、加載和訓練,醫療市場的原有存儲系統正受到挑戰。

          在汽車行業,多家車企在智駕系統上展開了“軍備競賽”高性能磁鐵 。頻繁的模型訓練,對有強大并行處理能力的文件存儲系統,提出強烈需求。一臺L3級別的自動駕駛測試車,平均每天產生60TB的數據,完整測試產生的數百PB數據,需要存儲30年以上。車企也對低成本海量存儲提出明確需求。

          此前,高性能存儲市場,基本被海外產品覆蓋高性能磁鐵 。最近兩年,國產存儲企業嶄露頭角,競賽已在日夜吞吐數據的存儲系統中,悄然打響。

          02

          國產高性能存儲在激烈爭奪市場

          早期,國內企業如新能源車企,在構建AI Infra時,從算力、網絡到存儲,幾乎都要花天價,采購海外廠商的全套技術棧高性能磁鐵 。當時,國內沒有相應的自研高性能存儲技術,主要以海外企業DDN、IBM GPFS為主。

          不過,市場已發生快速轉變高性能磁鐵 。國產高性能存儲在近幾年介入市場,并展現出強勁勢頭。2024年,京東云高性能存儲平臺“云海”,營收增長就高達10倍。云海是京東云在2022推出的國產全自研并行文件存儲系統。他們期望抓住當下新一輪AI發展中,頭部用戶構建、升級AI Infra的時機,重塑市場格局。

          某頭部銀行訓練金融大模型時,原有存儲系統性能無法滿足需求,在訓練過程中出現了數據流動低效、帶寬不夠大、吞吐性能不足、算力閑置等痛點,大模型訓練跑不起來高性能磁鐵 。在替換成云海高性能存儲后,通過存算分離技術架構,實現了超50GiB/S吞吐帶寬,文件響應延遲低至100微秒,大幅減少GPU等待時間,讓模型訓練周期縮短40%。

          在一些新能源車企,在數千卡規模模型訓練集群中,結合云海,比使用海外技術,成本降低了大約一半以上高性能磁鐵

          但國產高性能存儲,并不是橫空出世,需要企業突破性能、可靠性、成本以及自主可控四大難關高性能磁鐵

          在這個過程中,云海經歷了三大發展階段:存算分離階段、AI及大模型訓練階段、推理潮階段,并聚焦研發了高性能并行文件存儲系統、統一引擎等相關核心技術,以自研、高性能、低成本的系統角逐市場高性能磁鐵

          以高性能的并行文件系統為例,它更適合人工智能場景下,頻繁小文件隨機讀寫和低延遲場景高性能磁鐵 。比如,在AI輔助診斷系統,可將數十萬個CT切片,多個節點同時對數據進行讀寫操作、并行分析。

          為了提升大模型訓練速度,需要對大規模數據集進行快速加載,且一般采用數百甚至上萬張GPU構成計算集群進行高效的并行計算,需要高并發輸入/輸出(I/O)處理,而訓練數據集呈現海量小文件的特點,文件量在幾億到幾十億量級,對應的帶寬需求可能每秒要達到上TB,這就要求存儲系統具備強大的數據管理能力高性能磁鐵

          目前,業界有一些開源技術,而自研高性能并行文件的企業僅寥寥幾家高性能磁鐵 。京東云是其中之一,將系統性能“壓榨”到極致。一家客戶在選型時,將云海與海外產品PK,最終得出的結論是,云海性能與海外產品相當,但網絡帶寬利用率,高出近3個百分點。以單節點95GB/s的讀帶寬、60GB/s的寫帶寬,進一步拉低了國產存儲與國際老牌廠商的差距。

          在另一個創新點——統一存儲引擎上,傳統上有不同存儲類型,導致企業內部的存儲系統五花八門高性能磁鐵 。之前有客戶買了五套存儲系統,導致數據很難統籌,成了大模型訓練應用的掣肘。得益于京東云團隊在存儲技術上多年的積累、在多業務場景下的實戰,云海在設計時,得以實現高度的抽象化,從而讓一個引擎,滿足企業內部多元場景的需求。

          存儲系統的可靠性,幾乎是企業構建底座的底線高性能磁鐵 。存儲一旦出問題,數據丟失,將帶來災難性問題。而可靠性的追求永無止境,關鍵要找到它與性能、成本之間的最佳平衡點。京東云的創新涉及算法、架構,并獲得了國家相關專利。“京東云云海未出現任何導致客戶服務中斷的故障。”上述資深人士說。

          根據信通院測試,云海代碼自研率達到98.9%+,并全面支持國產硬件環境,這需要與國產多元芯片、操作系統,做大量對接、優化和相互認證高性能磁鐵 。而在支持國產化的情況下,云海能做到在一些主流算力平臺上,在CPU主頻相同的情況下,性能與X86平臺近乎等同,而性價比更高。這讓客戶能落地大模型,并獲得正向收益。

          03

          商業化兩年高性能磁鐵 ,從懷疑到認可

          在替代國外存儲產品時,國產存儲經歷了客戶態度從懷疑到認可的轉變過程高性能磁鐵

          “起初,客戶難免會有所顧慮,國產全自研的云海高性能存儲,是否能穩定可靠地支持AI Infra的要求?”京東云相關負責人對數智前線說高性能磁鐵 。但隨著與客戶的持續溝通、PoC測試,以及越來越多頭部客戶案例的出現,“大家逐漸認識到云海不僅能夠替代,甚至在成本和性能上可能優于國外存儲產品”。

          這個過程中,京東云云海也逐漸形成一套自己的落地方法論和典型案例集高性能磁鐵

          例如,客戶在做存儲產品選擇時,一般會重點關注兩大因素:第一,是否有品牌背書,以避免產品廠商突然消失或停止運維的風險高性能磁鐵 。第二,技術和服務能力如何。

          云海在這兩方面都進行了強化,借助于京東云品牌,以技術能力打動客戶高性能磁鐵

          京東云資深人士告訴數智前線,在品牌背書方面,云海不僅歷經了京東集團10多年大規模高流量場景驗證,也是國內互聯網廠商中,唯一一家支持存儲系統與云平臺解耦,以獨立產品組件實現輕量化向線下輸出的高性能磁鐵

          而在技術能力方面,云海80%以上的項目都通過了用戶的PoC測試高性能磁鐵 。在PoC過程中,客戶能夠清晰了解存儲產品的性能、穩定性、故障處理等能力。

          另外,是否有在頭部企業的成熟應用案例,并能快速復制到其他企業,也是打動客戶的關鍵高性能磁鐵 。上述人士透露,商業化兩年間,云海已在智能駕駛、銀行、券商、泛互聯網等行業的頭部企業中,實現了成功落地。

          在解決傳統基礎設施存算分離問題的階段,云海曾協助中信證券、中信建投等頭部券商和銀行完成了存算分離的工作高性能磁鐵 。在泛互聯網行業,云海幫助荔枝FM和墨跡天氣實現了綜合存儲成本直降30%……

          這些云海的第一階段的客戶,在最新這波大模型浪潮中,基于之前建立的信任基礎,實現了延續高性能磁鐵 。“只要之前用我們存算分離存儲系統的,現在在AI Infra層面,有并行文件高性能存儲需求的,幾乎100%都選擇了云海。 ”上述人士告訴數智前線。

          某頭部券商的傳統存儲架構,隨著其金融業務擴大,逐漸暴露出資源利用率低、存儲架構不夠靈活、存儲性能不足、故障難恢復等問題,為支撐業務發展,該券商基于云海構建了統一云原生存儲架構體系,實現數據高效存儲與流動,滿足了“小微化、高頻化”的業務新模式,支撐證券業務系統頻繁變更高性能磁鐵 。同時,存儲平臺兼容多存儲接口類型,與用戶業務系統無縫鏈接。

          國內某汽車廠商在做大模型訓練時,面臨GPU集群閑置的問題,希望存儲廠商能幫忙提升集群使用效率高性能磁鐵 。“我們之前給它做了估算,GPU集群閑置5%左右的時間,成本就已經與重建一套分布式存儲集群相當。”京東云資深人士告訴數智前線,為了將GPU的等待時間降下來,云海做了一套高性能并行文件系統解決方案,來支撐它約100T的數據集訓練,實現秒級讀寫。

          隨著大模型應用的爆發式增長,AI基礎設施領域正經歷一場前所未有的變革高性能磁鐵 。從金融到汽車,從互聯網到醫療,各行業對高性能AI基礎設施都提出迫切需求。而在激烈角逐中,高性能存儲作為關鍵環節,正見證國產力量的強勢崛起。

          本站內容來自用戶投稿,如果侵犯了您的權利,請與我們聯系刪除。聯系郵箱:835971066@qq.com

          本文鏈接:http://m.v711.cn/post/139.html