透過DeepSeek,聊聊存儲是如何給AI加速的
發布時間:2025-02-28 來源:投稿 責任編輯:admin
從AI服務器到AI PC,如何快速的用上DeepSeek成為熱門問題。無論DeepSeek Janus-Pro把多模態提升到了一個新層次,還是媲美主流的DeepSeek-V3,或者應用於本地的DeepSeek-V3,對存儲都提出了新的需求。以完整未蒸餾的DeepSeek R1模型為例,這是一個擁有6710億參數的混合專家(MoE)模型,未量化版本的文件體積高達720GB,而動態量化版本也達到150GB到400GB之間。
DeepSeek讓GPU算(suan)力(li)一(yi)下(xia)子(zi)得(de)到(dao)了(le)空(kong)前(qian)的(de)釋(shi)放(fang),允(yun)許(xu)廠(chang)商(shang)將(jiang)更(geng)多(duo)的(de)資(zi)源(yuan)集(ji)中(zhong)到(dao)其(qi)它(ta)關(guan)鍵(jian)硬(ying)件(jian)中(zhong),比(bi)如(ru)更(geng)強(qiang)大(da)的(de)並(bing)行(xing)能(neng)力(li),以(yi)及(ji)更(geng)優(you)秀(xiu)的(de)存(cun)儲(chu)方(fang)案(an)。很(hen)顯(xian)然(ran),常(chang)規(gui)的(de)存(cun)儲(chu)方(fang)案(an)已(yi)經(jing)不(bu)能(neng)很(hen)好(hao)的(de)解(jie)決(jue)效(xiao)率(lv)和(he)存(cun)儲(chu)的(de)問(wen)題(ti),在(zai)企(qi)業(ye)級(ji)和(he)數(shu)據(ju)中(zhong)心(xin)級(ji)SSD為AI提供存儲支持時,以QLC和CXL為例的新技術也正在協助AI以更低成本和更高的效率運行。

QLC與CXL:為AI鋪路
由於DeepSeek不僅降低了計算成本,多模態處理能力、說(shuo)是(shi)知(zhi)識(shi)圖(tu)譜(pu)和(he)推(tui)理(li)能(neng)力(li)的(de)優(you)秀(xiu)表(biao)現(xian),使(shi)得(de)廠(chang)商(shang)擁(yong)有(you)足(zu)夠(gou)的(de)資(zi)源(yuan)調(tiao)用(yong)更(geng)多(duo)的(de)數(shu)據(ju)。這(zhe)使(shi)得(de)原(yuan)本(ben)大(da)量(liang)的(de)冷(leng)數(shu)據(ju)變(bian)成(cheng)了(le)溫(wen)數(shu)據(ju)。溫(wen)數(shu)據(ju)對(dui)存(cun)儲(chu)有(you)著(zhe)更(geng)高(gao)的(de)要(yao)求(qiu),需(xu)要(yao)相(xiang)對(dui)HDD更快的傳輸速率,並且存儲數據可能每年以EB級增長。這導致SSD的需求往大容量和低成本的方向發展。
其中QLC能夠更好的在單位空間內提升存儲容量,第八代BiCS FLASH™ 2Tb QLC的位密度比鎧俠目前所采用的第五代BiCS FLASH™的QLC產品提高了約2.3倍,寫入能效比提高了約70%。不僅如此,全新的QLC產品架構可在單個存儲器封裝中堆疊16個芯片,為業界提供領先的4TB容量,並采用更為緊湊的封裝設計,尺寸僅為11.5 x 13.5 mm,高度為1.5 mm。
這意味著,未來采用第八代BiCS FLASH QLC的存儲產品在存儲空間擁有質的飛躍,可以輕鬆將企業級SSD和數據中心級SSD容量提升至120TB以上。

密集的DeepSeek計算也意味著對內存有著海量的要求,但動輒數百GB的訓練模型全部存儲在內存中也意味著高昂的成本,如何利用BiCS FLASH™降低成本也是未來的思考方向。例如利用相變存儲原理,基於BiCS FLASH™結構打造的XL-FLASH存儲級內存(Storage Class Memory, SCM)與CXL相結合,開發相較內存功耗更低、位密度更高,相較閃存讀取速度更快的存儲器。這不僅會提高存儲器利用效率,還有助於節能。

CXL技術本身通常也意味著更先進的PCIe版本支持,鎧俠則是積極響應PCIe升級的存儲製造商之一。例如,鎧俠率先推出支持PCIe® 5.0的企業級固態硬盤CM7係列。PCIe® 5.0 SSD與傳統存儲設備(如PCIe® 4.0 SSD)的對比測試,結果顯示, CM7係列SSD在多個GPU並行訪問時,能夠提供91%的I/O吞吐量提升,此外,它的讀取延遲比傳統SSD低57%。同時,PCIe® 5.0 SSD能機器學習訓練時間能夠得到顯著減少。以16個GPU並行處理為例,使用PCIe® 5.0 SSD可以減少32到44天的訓練時間。
特別是在PCIe® 5.0與NVMe™規範下實現可靠的RAID兼容性和互操作性能。特別是生成式AI與檢索增強生成 (RAG) 係統的重要性更勝以往,關係數據庫PostgreSQL和向量數據庫需求變得格外重要。例如通過Xinnor的RAID 解決方案的兼容性和互操作性測試,與采用相同硬件配置的軟件 RAID 解決方案相比,在數據降級模式下執行PostgreSQL,效能更提升達25倍。

搶先布局
任何前沿技術不可能一蹴而就,AI技術的積累更是如此。流暢體驗的AI服務對數據傳輸速度有著很高的要求。在多年前,鎧俠已經開始對AI展開布局,並致力於為人工智能的發展提供高性能的存儲解決方案。
為了推動檢索增強生成(RAG)擴展獲得更好的性能支持,並進一步降低成本。鎧俠在近期宣布開源AiSAQ™技術,這是一項專為SSD優化的新型“近似最近鄰”搜索(ANNS)算法,跳過將索引數據載入內存(DRAM)的步驟,直接在SSD上執行檢索操作,幫助企業/應用針對特定數據優化,從而實現幫助大語言模型(LLM)訓練節省成本。

利用高性能存儲特性,鎧俠在AI前沿進行了諸多嚐試。包括通過Memory-Centric AI技術解決企業級SSD中圖像分類任務中災難性丟失問題,在神經網絡不通過調整的前提下,在深度學習中快速獲得圖像特征辨別和標簽添加。並在數年前與NVIDIA展開深度合作,從加速StyleGAN、NeRF等算法,到協助NVIDIA搭建Omniverse平台,包括搭建最新的物理AI開發平台NVIDIA Cosmos,為LLM訓練整理自定義數據集的NVIDIA NeMo Curator。

針對前瞻性存儲,鎧俠在近期還正式發布了全新XD8係列PCIe® 5.0 EDSFF(企業和數據中心標準型)E1.S固態硬盤。它是鎧俠第三代E1.S固態硬盤,符合PCIe® 5.0(32 GT/s x 4)和NVMe™ 2.0規範,並支持開放計算項目(OCP)數據中心NVMe SSD v2.5規範。
鎧俠XD8係列專為雲和超大規模環境設計,滿足數據中心對高性能、高(gao)效(xiao)率(lv)和(he)高(gao)可(ke)擴(kuo)展(zhan)性(xing)的(de)日(ri)益(yi)增(zeng)長(chang)的(de)需(xu)求(qiu)。通(tong)過(guo)這(zhe)款(kuan)新(xin)的(de)固(gu)態(tai)硬(ying)盤(pan),雲(yun)服(fu)務(wu)提(ti)供(gong)商(shang)和(he)超(chao)大(da)規(gui)模(mo)企(qi)業(ye)能(neng)夠(gou)優(you)化(hua)基(ji)礎(chu)設(she)施(shi),在(zai)保(bao)持(chi)運(yun)營(ying)效(xiao)率(lv)的(de)同(tong)時(shi)提(ti)供(gong)卓(zhuo)越(yue)的(de)性(xing)能(neng)。

讓AI移動起來
DeepSeek另一個實現領域則是在移動平台。即便是春節假期,多個版本針對AI PC本地化AI部署的DeepSeek R1已經成型,例如蒸餾版本的7B和14B參數模型在筆記本和消費級台式機電腦上,可利用NPU和GPU實現離線運作,進一步確保了私有信息的安全。
對於AI PC而言,除了提供獨立GPU或者NPU進行AI加速,大容量NVMe SSD也同等重要,另外還要考慮到有限的AI PC內部空間,固態硬盤需要同時兼顧性能與散熱。以鎧俠BG6係列為例,鎧俠 BG6 係列在AI PC上能夠展現卓越的性能和靈活性。采用 PCIe® 4.0 和 NVMe 1.4c 規範,搭載高達2,048GB存儲空間。順序讀取速度最高可達 6,000 MB/s,隨機讀取速度更是高達 900,000 IOPS。這使得BG6係列成為緊湊型固態硬盤中的佼佼者,為用戶提供了更快速、更高效的數據處理體驗。

另外BG6 係列提供了多種容量選擇,包括 256GB、512GB、1,024GB 和 2,048GB,適用於不同用戶需求。其采用 M.2 Type 2230 和 Type 2280 模組封裝,可靈活應用於各類薄型設備,如超薄筆記本電腦、嵌入式設備。也給不同形態的AI PC部署本地AI提供了豐富的解決方案。
從數據中心、服務器,到個人計算機,鎧俠為AI計算提供了豐富、高效的存儲方案,並與合作夥伴展開深度合作,從軟件和硬件層麵入手,利用高性能固態硬盤的特性,為AI計算提供可靠的存儲後盾,共同探索更多AI的可能性,充分利用AI與數據,創造更多價值。
- 噪聲中提取真值!瑞盟科技推出MSA2240電流檢測芯片賦能多元高端測量場景
- 10MHz高頻運行!氮矽科技發布集成驅動GaN芯片,助力電源能效再攀新高
- 失真度僅0.002%!力芯微推出超低內阻、超低失真4PST模擬開關
- 一“芯”雙電!聖邦微電子發布雙輸出電源芯片,簡化AFE與音頻設計
- 一機適配萬端:金升陽推出1200W可編程電源,賦能高端裝備製造
- 築基AI4S:摩爾線程全功能GPU加速中國生命科學自主生態
- 一秒檢測,成本降至萬分之一,光引科技把幾十萬的台式光譜儀“搬”到了手腕上
- AI服務器電源機櫃Power Rack HVDC MW級測試方案
- 突破工藝邊界,奎芯科技LPDDR5X IP矽驗證通過,速率達9600Mbps
- 通過直接、準確、自動測量超低範圍的氯殘留來推動反滲透膜保護
- 車規與基於V2X的車輛協同主動避撞技術展望
- 數字隔離助力新能源汽車安全隔離的新挑戰
- 汽車模塊拋負載的解決方案
- 車用連接器的安全創新應用
- Melexis Actuators Business Unit
- Position / Current Sensors - Triaxis Hall



