今日这篇文章,咱们来聊一个最近几年很火的概念——存算一体。
为什么会提出“存算一体”?
存算一体,英文叫Compute In Memory,简称CIM。望文生义,便是将存储和核算放在一同。
咱们都知道,存储和核算,是咱们处理数据的两种根本方法。自从核算机诞生以来,咱们选用的干流核算架构,是闻名的冯·诺伊曼架构。在这个架构中,存储和核算是两个相对独立的模块。存储担任数据的存取,而核算则担任运算。
冯·诺依曼架构
咱们可以把存储理解为配菜,核算理解为炒菜。两者合作到位,才干完结菜品的制作(完结核算使命)。
理论上来说,想要出菜的速度更快,一方面,要加快炒菜的速度(经过进步芯片的算力,例如选用更先进的工艺制程),另一方面,也要加快配菜的速度。
这个速度,简略来说,便是存储设备与核算芯片(CPU、GPU等)之间的数据传输才能。假如配菜太慢,炒菜师傅就要等候,然后影响全体功率。
从前小枣君给咱们介绍存储的时分从前说过,核算机的存储,是典型的分级战略——越接近处理器(核算单元)的存储设备,速度越快,容量越小。有缓存(1级/2级/3级)、内存、磁盘(固态/机械)、外部存储器(本地磁阵、云存储)这样的不同类型存储设备(单元)。
这是由存储设备的本钱决议的。速度越快的存储设备,本钱越高。悉数都用最快的存储,是不现实的,价格太昂扬,所以才有了逐级存储机制。
冯·诺依曼架构,咱们用了几十年,因为数据存储和核算是显着分隔的,所以也叫做存算别离。
进入互联网年代后,因为数据量呈现爆破式添加,对数据核算功率的要求越来越高。这种传统的架构开端暴露出才能上的缺点。
尤其是最近这些年,AI的兴起,让数据核算强度又跃升了好几个层级。核算芯片在张狂提速,而存储传输速率的进步跟不上,由此产生了闻名的两堵墙——“存储墙”和“功耗墙”。
所谓“存储墙”,是指存储设备和处理器之间的数据传输速度,远远跟不上处理器的核算速度。就像炒菜师傅手工再好,配菜师傅跟不上节奏,也只能干着急。
业界曾提出,AI运算需求的存算通道速率是1PB/s。SRAM的10-100TB/s、DRAM的40GB-1TB/s,都远达不到要求。
而“功耗墙”则是指,在数据传输过程中,能耗巨大,导致全体体系的能效比不抱负。这就像是为了快速配菜,不得不请许多辅佐,成果人工本钱大大添加。
例如,在7nm工艺下,数据转移的功耗占比乃至到达了惊人的63.7%,远远大于数据核算的功耗。
咱们应该都听说过HBM技能。
HBM(High Bandwidth Memory,高带宽内存),便是一种测验处理“存储墙”和“功耗墙”问题的新式存储技能。像英伟达这样的芯片厂商,选用3D封装等先进工艺,将存储单元和核算单元封装在一同,经过缩短两者之间的间隔,进步数据传输速度,一起下降能耗。
HBM在必定程度上缓解了问题,但并没有从根本上改动存算别离的现状。所以,业界提出了一个新的处理思路,那便是——存算一体。
已然存储和核算别离会导致带宽瓶颈,那么,把存储和核算直接结合在一同,让数据在存储的过程中就能进行核算,或许在核算的过程中就能直接拜访存储,然后削减数据的转移次数,不就行了吗?
这样一来,既可以进步全体核算功率,也可以下降功耗,彻底处理“两堵墙”的问题。
实践上,咱们的大脑,便是典型的存算一体结构。神经元既担任存储信息(回忆),也担任处理信息(考虑)。这种结构,使得大脑可以以极高的功率处理杂乱的使命,并且能耗极低。
存算一体的开展进程
存算一体的研讨,其实很早就现已开端了。
早在1969年,斯坦福研讨所的Kautz等人,首要提出了存算一体核算机的概念。可是,受限于其时的技能和工艺,概念只是停留在理论研讨阶段,并未得到实践运用。
后来,为了完结存算一体,科学家们进行了许多的研讨和测验,但仍然开展缓慢。
进入21世纪后,芯片与半导体技能日趋老练,存算一体化完结的曙光亦逐渐闪现。科学家们发现,某些特别的资料或器材,可以在存储数据的一起,在存储单元ੜ色情亲子游戏在线观看4;ࠬ色情免费视频天天3;怎样做色情服务内部履行简略的逻辑运算。这将大大削减数据的转移次数和功耗。
2010年,惠普实验室的Williams教授团队提出并验证运用忆阻器完结简略布尔逻辑功用(联合、相交、相减等)。
2016年,美国加州大学圣塔芭芭拉分校(UCSB)的谢源教授团队,提出运用阻变存储器(RRAM)构建存算一体架构的深度学习神经网络(PRIME)。相较于传统冯·诺伊曼架构计划,PRIME可以完结功耗下降约20倍、速度进步约50倍。
2017年,在微处理器尖端年会(Micro 2017)上,包括英伟达、英特尔、微软、三星、苏黎世联邦理工学院与加州大学圣塔芭芭拉分校等都推出了他们的存算一体体系原型,掀起了学术界和工业界的一股“存算一体”热潮。
最近这几年,跟着AI浪潮的到来,海量的大模型练习和推理核算需求迸发,引发了算力工业的新一轮添加。存算一体,更是进入了一个高速开展的快车道。
除了传统芯片巨子在赶紧研讨之外,也有许多创业企业“扎堆”进场。国内有苹芯科技、后摩智能、知存科技、亿铸科技、智芯科、千芯科技、九霄睿芯等。国外有Mythic、Syntiant等公司。
2023年9月,清华大学团队宣告研宣布全球首颗全体系集成的、支撑高效片上学习的忆阻器存算一体芯片,再次将“存算一体”推上热搜。
现在,存算一体现已成为业界最抢手的研讨方向,正在加快从理论研讨走向工业落地。
存算一体的技能道路
接下来,咱们看看存算一体的详细技能分类。
现在,业界依据存储和核算的间隔远近,将存算一体分为三类,分别是近存核算、存内处理和存内核算。
●近存核算(Processing Near Memory,PNM)
近存核算,经过芯片封装和板卡拼装等方法,将存储单元和核算单元集成,添加访存带宽、削减数据搬移,进步全体核算功率。
前面说到的HBM共封装,便是近存核算。
近存核算又分为存储上移和核算下移。HBM那个,归于存储上移。核算下移是选用板卡集成技能,将数据处理才能卸载到存储器,典型计划是CSD可核算存储。
近存核算严格来说仍然是归于存算别离架构。这个道路比较简单完结,现在现已广泛运用于AI、大数据、边际核算、物联网等场景。
● 存内处理(Processing In Memory,PlM)
存内处理,是在芯片制作的过程中,将“存”与“算”集成在同一个晶粒(Die)中,使存储器自身具有了必定的算力。
存内处理本质上仍是存算别离。比较于近存核算,“存”与“算”间隔更近。
现在,业界的存内处理计划大多在内存(DRAM)芯片中加“算力”,比较典型的产品形状为HBM-PIM(三星)和PIM-DIMM。这类计划合适运用于语音辨认、数据库索引查找、基因匹配等场景。
● 存内核算(Computing in Memory,ClM)
存内核算,这是真实的存算一体了(也归于业界所说的狭义的存算一体)。
在芯片规划的过程中,不再差异存储单元和核算单元,直接消除“存”“算”边界,真实完结存算彻底交融。
这个计划的首要服务场景便是AI核算。
AI深度学习算法中包括了许多的矩阵乘法运算,其本质是乘累加(Multiply Accumulate, MAC)运算。
存算一体技能可以将这些运算直接映射到存储结构中,在存储单元的中心电路上做修正,然后在读取的一起进行数据输入和核算处理,在存储阵列中完结卷积运算。这带来了极高的能效比和极低的推迟。
存算一体芯片的大致架构
存算一体的存储介质
从前小枣君给咱们介绍半导体存储的时分说过,存储器分为易失性存储器和非易失性存储器。
存内核算的电路,也可以依据这两种存储器。
易失性,便是内存那种,掉电了数据就没了,例如SRAM、DRAM。
非易失性,掉电时数据不会丢掉,如传统的闪存NOR Flash和NAND Flash,以及一些新式存储器:阻变存储器RRAM(ReRAM)、磁性存储器MRAM、铁变存储器FRAM(FeRAM)、相变存储器PCRAM(PCM)等。
SRAM、DRAM、Flash等都是老练的技能,依据电荷的移动完结数据存储。
DRAM本钱低,容量大,可是可用的eDRAM IP核工艺节点不先进,读取推迟(Latency)也大,且需求定时改写数据。Flash则归于非易失性存储器材,具有低本钱优势,一般合适小算力场景。SRAM在速度方面具有极大优势,有简直最高的能效比,容量密度略小,在精度增强后可以确保较高精度,一般适用于云核算等大算力场景。
现在,针对新式存储器的研讨十分抢手。例如RRAM、MRAM等,依据电阻巨细的改变完结数据存储功用。
新式存储器中,忆阻器(果色情亲子游戏在线观看923色情免费视频天天;怎样做色情服务RRAM)的研讨热度最高。
RRAM运用电阻调制来完结数据存储,读出电流信号而非传统的电荷信号,可以获得较好的线性电阻特性。但现在RRAM工艺良率爬坡还在进行中,并且仍然需求面对非易失存储器固有的牢靠性问题。
需求阐明的是,存内核算首要包括模仿和数字两种完结方法。
模仿存内核算能效高,但差错较大,完结低功耗低位宽的整数乘加核算,适用于低精度、低功耗核算场景,例如端侧可穿戴设备等。模仿存内核算一般运用FLASH、RRAM、PRAM等非易失性介质作为存储器材,存储密度大,并行度高,可是对环境噪声和温度十分灵敏。
数字存内核算差错低,但单位面积功耗较大,适用于高精度、功耗不灵敏的核算场景,例如云端AI场景。数字存算一体首要以SRAM和RRAM作为存储器材,具有高性能、高精度的优势,且具有很好的抗噪声才能和牢靠性,
存算一体的运用场景
前面现已说过,存算一体天然合适AI相关的核算场景。
自然语言处理、信息检索、图神经网络、智能决议计划、具身智能等人工智能运用,对算力功率以及体系能耗有极高的要求。传统的“存算别离”难以应对,存算一体则十分合适。
除了AI之外,便是AIoT智能物联网产品。碎片化的AIoT商场对先进工艺芯片的需求并不激烈,反而更重视芯片的本钱、功耗、开发难度。
存算一体芯片在这些方面都有优势,十分合适选用。
在一些大算力场景,例如云端AI核算,也是存算一体的用武之地。
现在的AI核算,根本上都是GPU为主。GPU在算力和能效上都无法一起与专用加快芯片(ASIC)竞赛。在云核算算力商场,GPU的单一架构也现已不能适应不同AI核算场景的算法离散化特色。例如在图画、引荐、NLP范畴,都有各自的干流算法架构。
新式的存算一体芯片,具有能效优势,也合适固定场景的核算使命,运用潜力巨大。
此外,存算一体芯片还有一些其他延伸运用,比方感存算一体、类脑核算等。这些也是十分具有潜力的商场范畴。
存算一体面对的应战
存算一体的技能远景十分宽广,可是咱们也有必要认识到,这项技能的完结和遍及还面对着许多应战。
首要,是来自技能上的应战。
存算一体选用新式存储技能,对半导体工艺有更高的要求。在芯片架构、电路规划和资料挑选等方面,都仍有待进一步研讨和立异。
其次,是来自生态上的应战。
存算一体技能作为一个新式范畴,其生态体系没有彻底树立。
例如,在芯片规划阶段,因为存算一体芯片差异于惯例的芯片规划计划,所以现在市面上没有老练的专用EDA东西辅助规划和仿真验证。芯片流片之后,也没有老练的东西帮忙测验。在芯片落地运用阶段,没有专用的软件与之匹配。
为此,需求工业界协作,进一步进步规划东西链的老练度,完结自动化EDA东西与跨渠道编译器的支撑,加强代工厂规范IP库的建造与优化多场景下的制作本钱,以便进步工业链的全体协同才能。
最终,是来自商场上的应战。
尽管存算一体技能具有宽广的商场远景,但现在商场上仍存在许多不确定要素。存算一体芯片的架构场景通用性及规划扩展才能较差。传统存算别离架构仍占有主导地位,存算一体技能需求与传统架构进行竞赛。
存内核算仅合适原本就对存储需求较大的场景,而关于自身存储需求并不高的场景,为了引进内存核算而加上一块大内存反倒会添加本钱拔苗助长。
用户对性价比十分重视,需求考虑用户的需求和场景是否可以承受存算一体。存算一体,也要在AI的开展过程中寻觅自己的落地场景。
总归,应战仍是许多的。可是,跟着技能的不断进步以及业界的不懈努力,信任这些问题都会得到逐渐处理。
最终的话
依据QYResearch调研团队陈述《全球存算一体技能商场陈述2023-2029》显现,估计2029年全球存算一体技能商场规划将到达306.3亿美元,未来几年年复合添加率CAGR为154.7%。
这是一个十分具有潜力的商场。未来几年,存算一体范畴还会有更多的技能立异呈现,涌现出更多优异的企业。让咱们拭目而待!
参考文献:
1、《存算一体:内核架构立异,打破算力能效极限》,势乘本钱和光锥智能;
2、《存算一体白皮书(2022年)》,中国移动研讨院;
3、《ChatGPT:存算一体,算力的下一极》,华西证券;
4、《消除冯·诺依曼核算架构瓶颈,存算一体未来几许?》,松禾本钱。
本文来自微信大众号 “鲜枣讲堂”(ID:xzclasscom),作者:小枣君,36氪经授权发布。