
摘要:國產自主意識爆發,3.14,億鑄率先提出存算一體超異構,引領新一代技術潮流。
AI 3.0時代,國產自主意識爆發
ChatGPT自出世以來,在國內AI界卷起千層浪:
先是百度、科大訊飛等AI大廠紛紛表示自己有著類ChatGPT能力;再是國家發布東數西算一體化算力服務平臺,支撐中國人工智能運算平臺急需的大算力服務。
而大算力的實現,都需仰仗“大腦”AI芯片。
縱觀AI芯片在國內的發展史,我們大致可以將AI芯片國產化分為幾個時代。
在AI芯片國產化1.0時代,繼Google推出ASIC芯片后,國內寒武紀、靈汐、華為等國內廠商陸續跟上腳步,針對云端AI應用推出ASIC架構芯片。
接著AI芯片國產化進入2.0時代。在看到以英偉達為代表的GPGPU架構在AI算力芯片上有著不錯的性能表現后,國內多個廠商例如天數智芯、珠海芯動力、壁仞等紛紛布局GPGPU芯片,主打CUDA兼容,試探著AI算力芯片的極限。
在前兩個時代中,國產AI芯片廠商都在竭力順應時代潮流,前赴后繼地跟隨國際大廠的步伐,通過研發最新芯片解決AI算力芯片的挑戰。
現如今,隨著ChatGPT等大模型掀起熱潮,我們站在AI芯片國產化3.0時代的門口,面對越發嚴峻的地緣政治處境,國產芯片廠商自主意識更為強烈,希望能夠自發提出芯片解決方案。
例如,國內AI大算力芯片企業億鑄科技,已為中國的AI大算力芯片一次又一次提出先進的解決方案:
先是在2020年,億鑄科技一成立就嘗試通過架構創新突破馮·諾伊曼瓶頸,成為首個研發基于ReRAM(RRAM)全數字存算一體AI大算力芯片的企業,為解決國內AI算力尤其是大算力的困局提供了新的方向。
再是今年3.14日,在《電子創新網》“從ChatGPT的角度聊聊存算一體AI大算力芯片”直播中,億鑄科技創始人熊大鵬博士首次提出“用存算一體超異構做AI大算力芯片”的技術思路。
億鑄科技多次提出新解法是因為,種種跡象表明,AI算力難題愈發嚴重,國產化AI芯片的處境越來越難。
先是算力本身就因摩爾定律失效在加速狂飆,每5-10個月就要翻倍:

(不同機器學習時代的算力增長趨勢 圖源:浙商證券研究所)
到2021年,全球計算設備算力總規模達到615EFlops,增速44%。浙商證券預測,2030年,算力有望增至56ZFlops,CAGR達到65%。而這還是ChatGPT還未降臨之時,正常的算力需求預測值。

(全球算力規模及增速 圖源:浙商證券研究所)
2022年底,ChatGPT來臨之后,無疑又將拔高算力的增長曲線:
根據通信世界數據,ChatGPT的總算力消耗約為 3640PF-days (即假如每秒計算一千萬億次,需要計算3640天) ,需要 7-8個投資規模30億、算力500P的數據中心才能支撐運行。
而這才是參數規模1750億的GPT-3,除此之外還有參數5620億的PaLM-E……彼時,算力以及其背后的功耗還能顧得過來嗎?
AI算力需求如脫韁的野馬,但FPGA、ASIC、GPGPU等芯片本身,已苦于先進制程久矣。據芯粒說表示,目前芯片先進制程升級面臨著性能極限、技術極限、成本極限。成本極限具體來說就是,到了5nm以下,建造一座先進制程的晶圓廠動輒需要上百億美元的投入。
錢是花了,工藝是卷到頭了,但能效比提升有限:
傳統架構下,由于數據需要頻繁地在存儲、計算單元間來回跑,隨著數據越增越多,“存儲墻”、 “能耗墻”、“編譯墻”等問題也愈發嚴重。
現如今,這“三堵墻”已導致大量算力無謂浪費:據統計,在大算力的AI應用中,數據搬運操作消耗90%的時間和功耗,數據搬運的功耗是運算的650倍。
ChatGPT們正提出“極為離譜、不切實際”的算力需求,而芯片們又陷入先進制程升級瀕臨極限、能效比提升受阻等困境,時代正呼吁著新鮮的血液注入AI大算力芯片。
突破天花板的底氣
億鑄科技自發提出的存算一體架構、存算一體超異構計算皆能為AI大算力困局“排憂解難”:
存算一體架構,將存儲和計算的融合,能夠打破傳統架構下的三堵墻,徹底消除訪存延遲,并極大降低功耗。同時,由于計算完全耦合于存儲,因此可以開發更細粒度的并行性,獲得更高的性能和能效。
超異構計算,能夠把更多的異構計算整合重構,從而各類型處理器間充分地、靈活地進行數據交互而形成的計算。
簡單來說,就是結合DSA、GPU、CPU、CIM等多個類型引擎的優勢,實現性能的飛躍:
? DSA負責相對確定的大計算量的工作;
? GPU負責應用層有一些性能敏感的并且有一定彈性的工作;
? CPU啥都能干,負責兜底;
? CIM就是存內計算,超異構和普通異構的主要區別就是加入了CIM,由此可以實現同等算力,更低能耗;同等能耗,更高算力。另外,CIM由于器件的優勢,能負擔比DSA更大的算力。
億鑄科技創始人、存算一體 AI 大算力芯片的開拓者熊大鵬博士表示,其好處在兩個方面:一是在系統層,能夠把整體的效率做到最優;二是在軟件層,能夠實現跨平臺架構統一。
億鑄選擇將兩大技術結合,即“存算一體超異構”的想法,與蘇媽的“系統級創新”不謀而合:在ISSCC 2023,蘇媽提出系統級創新概念,即從整體設計的上下游多個環節協同設計來完成芯片性能的提升,并給出使用該概念實現數量級的效率提升案例。
也就是說,若是將存算一體、Chiplet(芯粒)、3D封裝等技術同步使用,很有可能帶來數量級的效率提升,從而突破性能瓶頸。
億鑄提出這一極具創新度的構想,也是因為其底氣十足。億鑄科技擁有實力雄厚的研發、工程及顧問團隊:
其核心研發團隊成員均為來自國內芯片大廠的資深專家,畢業于斯坦福大學、哈佛大學、上海交通大學、復旦大學和中國科學技術大學等。研發能力覆蓋工藝器件、架構設計、電路設計和軟件生態等全鏈條;
其工程團隊核心成員平均擁有25年以上的高端集成電路設計和量產經驗,有著豐富的應用和產品化實戰經歷。
基于此,作為首發存算一體超異構概念的億鑄科技,提出了自己的技術暢想:
若能把新型憶阻器技術(RRAM)、存算一體架構、芯粒技術(Chiplet)、3D封裝等技術結合,將會實現更大的有效算力、放置更多的參數、實現更高的能效比、更好的軟件兼容性、從而抬高AI大算力芯片的發展天花板。

(關于存算一體+超異構 做AI大算力芯片的技術暢想 圖源:億鑄科技)
一方面,ChatGPT等大模型的發展對算力提出了史無前例的要求,吞噬著算力與能源;
另一方面,ChatGPT也為存算一體架構、超異構等技術帶來核級推動力。無論是大廠和初創公司,都在為突破算力瓶頸“奮力一搏”?;趦|鑄科技有最適合大算力的器件(RRAM),再加上3D封裝和Chiplet等技術,熊大鵬博士表示,億鑄科技能夠為解決存儲墻、能耗墻問題帶來殺手級的硬件解決方案。
在摩爾定律幾近終結、ASIC、FPGA以及GPGPU架構能效比難以提升的當下,億鑄科技率先提出“存算一體超異構架構” 這一全新的技術發展路徑,為我國AI大算力芯片進一步發展,增添了新的動能。