導讀:近年來,在半導體工藝持續(xù)突破與AI算力需求爆發(fā)的雙重推動下,存算一體技術迎來了新的發(fā)展機遇。
近年來,隨著信息時代的數(shù)據(jù)大爆炸以及人工智能浪潮的到來,尤其是大模型技術的廣泛應用,其訓練和推理所需處理的數(shù)據(jù)量呈指數(shù)級增長。而基于“存儲-計算分離”原理的馮·諾依曼架構雖獨具優(yōu)勢,但在AI浪潮中已顯疲態(tài),存在著不容忽視的局限。
在傳統(tǒng)馮?諾依曼架構中,數(shù)據(jù)需要在存儲單元與計算單元間頻繁搬運,導致大量的資源被浪費在數(shù)據(jù)搬運這一環(huán)節(jié)上。根據(jù)英特爾的研究表明,當半導體工藝達到7nm時,數(shù)據(jù)搬運功耗高達35pJ/bit,占總功耗的63.7%。數(shù)據(jù)傳輸造成的功耗損失越來越嚴重,限制了芯片發(fā)展的速度和效率,形成了“功耗墻”問題。
此外,在馮·諾依曼架構中,存儲器與處理器是兩個完全分離的單元,處理器根據(jù)指令從存儲器中讀取數(shù)據(jù)、完成運算,并存回存儲器。但隨著人工智能、大數(shù)據(jù)等新興技術的迅猛發(fā)展,計算任務對數(shù)據(jù)處理的速度和規(guī)模提出了前所未有的高要求。而當下的存儲器的數(shù)據(jù)訪問速度跟不上計算單元的數(shù)據(jù)處理速度,二者之間形成了巨大的性能差距,“內存墻”問題日益凸顯。
面對大模型推理對算力需求的持續(xù)拉動,如何攻克“功耗墻”“內存墻”等難題已然成為了工業(yè)界和學術界的焦點問題,一場旨在突破現(xiàn)有算力瓶頸的革命正蓄勢待發(fā)。
在此背景下,“存算一體”正試圖用一場顛覆式創(chuàng)新打破這一僵局。近年來,在半導體工藝持續(xù)突破與AI算力需求爆發(fā)的雙重推動下,存算一體技術迎來了新的發(fā)展機遇。
從原理上來看,存算一體的核心是將存儲功能與計算功能融合在同一個芯片上,直接利用存儲單元進行數(shù)據(jù)處理——通過修改“讀”電路的存內計算架構,可以在“讀”電路中獲取運算結果,并將結果直接“寫”回存儲器的目的地址,不再需要在計算單元和存儲單元之間進行頻繁的數(shù)據(jù)轉移,消除了數(shù)據(jù)搬移帶來的消耗,極大降低了功耗,大幅提升計算效率。
正是基于這樣的特性,存算一體有力地突破馮·諾依曼架構所面臨的瓶頸限制。
存算一體屬于非馮諾伊曼架構,在特定領域可以提供更大算力(1000TOPS以上)和更高能效(超過10-100TOPS/W),明顯超越現(xiàn)有ASIC算力芯片。除了用于AI計算外,存算技術也可用于感存算一體芯片和類腦芯片,代表了未來主流的大數(shù)據(jù)計算芯片架構。
近年來,大模型的蓬勃發(fā)展與廣泛應用,其對強大算力和高存儲帶寬提出了迫切需求。而存算一體技術憑借其解決數(shù)據(jù)搬運難題、顯著提升計算效率的優(yōu)勢,與大模型的發(fā)展需求完美契合。與此同時,大模型計算的應用場景正從云端逐步向端邊側拓展延伸,這一趨勢為存算一體技術帶來了更為廣闊的發(fā)展空間。
根據(jù)量子位智庫數(shù)據(jù),預計2025年存算一體市場規(guī)模將達125億元,隨著技術成熟度提高以及大規(guī)模商用落地,至2030年這一市場規(guī)模將達1136億元。
面對極具潛力且規(guī)模不斷擴張的市場前景,存算一體芯片成為了科技領域備受矚目的焦點。越來越多的企業(yè)正競相投身存算一體芯片領域,并不斷加快布局進程。國內諸如恒爍股份、億鑄科技等企業(yè),均依托自身優(yōu)勢在不同技術路線上積極開展探索,力求在存算一體芯片市場中占據(jù)一席之地。
而在這股熱潮下,后摩智能作為國內存算一體AI芯片的先行者和落地者,具有顯著的代表性,其探索歷程與實踐成果生動展現(xiàn)出了我國存算一體芯片技術的多元化發(fā)展圖景。
在大模型技術迅猛發(fā)展、應用場景持續(xù)拓展的大背景下,市場對于適配大模型的高性能芯片需求日益迫切?;谶@一趨勢洞察,后摩智能憑借在存算一體技術領域的前瞻性布局與深厚技術積累,于2023年年底果斷調整研發(fā)方向,將重點轉向基于大模型的應用需求,全力投入存算一體AI芯片的研發(fā)工作。
經(jīng)過不懈努力與技術攻關,后摩智能迎來了重要時刻。在WAIC 2025期間,后摩智能的后摩漫界?M50芯片正式對外亮相,并同步推出力擎?系列M.2卡、力謀?系列加速卡及計算盒子等硬件組合,形成覆蓋移動終端與邊緣場景的完整產(chǎn)品矩陣。
據(jù)了解,后摩漫界M50定位到了端邊大模型應用場景。M50芯片采用存算一體計算架構,實現(xiàn)了160TOPS@INT8、100TFLOPS@bFP16的物理算力,搭配最大48GB內存與153.6GB/s的超高帶寬,而典型功耗僅10W,相當于手機快充的功率。這一性能指標意味著,PC、智能語音設備、機器人等智能移動終端無需依賴云端,即可高效運行1.5B到70B參數(shù)的本地大模型,真正實現(xiàn)了“高算力、低功耗、即插即用”的愿景。
后摩智能的M50芯片及其產(chǎn)品矩陣的發(fā)布,標志著端邊智能新時代的正式開啟。通過存算一體技術的深度融合,后摩智能成功解決了端邊設備在算力、功耗與帶寬方面的痛點,為消費終端、智能辦公與智能工業(yè)等領域提供了高效、安全、低成本的AI解決方案。
值得一提的是,8月27日,在深圳國際會展中心(寶安)舉辦的“IOTE 2025深圳?邊緣計算產(chǎn)業(yè)生態(tài)大會”上,后摩智能產(chǎn)品市場負責人張偉超將發(fā)表“大模型時代的算力革命-‘存算一體’重塑端邊智能體驗”主題演講,為我們帶來更多后摩智能關于存算一體技術在端邊算力提升路徑、應用場景拓展以及與邊緣計算生態(tài)深度融合等方面的結合與思考。