2023年,投资机构与股民们,正向AI芯片领域的上市公司,发起夺命三连问:
【资料图】
你做存算一体芯片了吗?
(投资者向澜起科技提问 图源:同花顺财经)
存算一体芯片进度如何?
(投资者向东芯股份提问 图源:同花顺财经)
存算一体芯片前景如何?
(投资者向恒烁股份提问 图源:同花顺财经)
以上的一系列发问,意味着存算一体不再“停留”于学界与产界,俨然火到了二级市场:股民、券商机构正加班加点狂补存算一体的课,于是传统芯片大厂从2023年初至今,一直被“拷问”存算一体的布局情况。
一个自然而然的疑问是,存算一体为何突然变得如此火爆?
7.14发布新存储产品OceanStor A310的华为,给出了自己的答案。华为数据存储产品线总裁周跃峰表示,在通用大模型与行业大模型的训练推理中面临着诸多数据难题:海量数据跨域归集慢、预处理与训练中数据交互效率低、数据安全流动难。
AI大模型对存储带来了新的挑战,比如稳定性相较于传统AI更差,同时有大量的数据预处理和准备工作,需要用近存计算(存算一体的一种)来系统性处理这个问题。
那么,这里“大量的数据”究竟有多少?据偲睿洞察测算,现阶段 ChatGPT 日活一亿,若每日有5%的人每秒同时提问,将会吞噬三峡大坝近一年的发电量。
换言之,大模型正疯狂索取算力,而以存算一体为代表的新兴解决方案能够解决大模型带来的诸多挑战。而事实上,大模型除了对算力提出严苛要求外,也给了AI芯片厂商“不少糖吃”。
本文试图探究,大模型背景下,给了AI芯片厂商怎样的好处?被ChatGPT“带火”的存算一体厂商,未来格局如何?
“福祸相依”的AI芯片厂商
大模型的风还在呼啸,有关大模型的讨论仍在如火如荼地进行。
8月初,在中国计算机学会(CCF)人工智能会议分论坛——“见疆见昆仑·AI大模型算力前沿”上,专家学者们一致表示,大模型时代,智能算力成为“稀缺资产”,如何善用算力资源,发挥其最大效益,已经成为每个参与者必须面对的挑战。
而光是GPT-3对算力索取量,保守情况下,需三峡大坝彻夜“打工”才能满足:
假设有1亿人同时在线,每日有5%的人每秒同时提问,每个prompt占30个token,便需要1530万颗H100芯片来提供其推理算力;而每颗H100的功耗在750W左右,若每天运行10个小时,这些H100芯片所在的数据中心一年的耗电量将达到840亿kW*h,而三峡大坝一年的发电量是882亿kW*h。
让AI芯片厂商更为焦虑的是,这还只是ChatGPT一个大模型在推理阶段的耗电量,百家大模型全阶段、全部运作的耗电量,难以估量。
于是,一系列新兴的解决方案纷纷被厂商挖掘出来:存算一体、chiplet、HBM等等。在这之中,由于存算一体推翻了传统冯诺依曼架构下的存储墙,实实在在做到了降本增效,成为今年的“紫微星”。
(图源:偲睿洞察《AI大算力芯片行业报告-百舸争流,创新者先》)
除了新兴方案涌现让AI芯片厂商喘了一口气之外,大模型也为芯片厂商尤其是初创芯片厂商,带来一个利好消息:软件生态重要性正在下降。
早先技术不够成熟之时,研究者们只能从解决某个特定问题起步,参数量低于百万的小模型由此诞生。例如谷歌旗下的AI公司DeepMind,让AlphaGO对上百万种人类专业选手的下棋步骤进行专项“学习”。
而小模型多了之后,硬件例如芯片的适配问题迫在眉睫。故,当英伟达推出统一生态CUDA之后,GPU+CUDA迅速博得计算机科学界认可,成为人工智能开发的标准配置。
现如今纷纷涌现的大模型具备多模态能力,能够处理文本、图片、编程等问题,也能够覆盖办公、教育、医疗等多个垂直领域。这也就意味着,适应主流生态并非唯一的选择:在大模型对芯片需求量暴涨之时,芯片厂商或许可以只适配1-2个大模型,便能完成以往多个小模型的订单。
也就是说,ChatGPT的出现,为初创芯片厂商们提供了弯道超车的机会。这就意味着,AI芯片市场格局将发生巨变:不再是个别厂商的独角戏,而是多个创新者的群戏。
当算力成为稀缺货,同时适应主流生态不再成为必选项时,存算一体难掩光芒。此时,要不要投入,要投入多少,成为摆在AI芯片厂商面前的第二道难题。
对此,“过来人”芯片巨头NVIDIA摸爬滚打多年给出的答案是,勇于创新,重金投入:
每一个新兴技术的研发厂商,在前期无疑要面临技术探索碰壁,下游厂商不认同等各个层面的问题。而在早期,谁先预判到未来的发展趋势,并勇于迈出探索的脚步,铺下合理的资源去尝试,就会抢到先机。
当数据中心浪潮还未铺天盖地袭来、人工智能训练还是小众领域之时,英伟达已经投入重金,研发通用计算GPU和统一编程软件CUDA,为英伟达谋一个好差事——计算平台。
而在当时,让GPU可编程,是“无用且亏本”的:不知道其性能是否能够翻倍,但产品研发会翻倍。为此,没有客户愿意为此买单。但预判到单一功能图形处理器不是长远之计的英伟达毅然决定,在所有产品线上都应用CUDA。
在芯东西与英伟达中国区工程和解决方案高级总监赖俊杰博士的采访中,赖俊杰表示:“为了计算平台这一愿景,早期黄仁勋快速调动了英伟达上上下下非常多的资源。”
远见+重金投入,在2012年,英伟达拿到了创新者的奖励:2012年,深度学习算法的计算表现轰动学术圈,作为高算力且更为通用、易用的生产力工具,GPU+CUDA迅速风靡计算机科学界,成为人工智能开发的“标配”。
在AI大算力芯片的征途上,存算一体芯片迎来了自己的“黄金期”,超前投入,是为正解。
非技术、资金雄厚者,勿进
窥见到存算一体的种种好处,现阶段,存算一体芯片玩家阵营日益庞大。
(图源:偲睿洞察《AI大算力芯片行业报告-百舸争流,创新者先》)
据偲睿洞察不完全统计,自2019年起,新增的AI芯片厂商,多数在布局存算一体:在2019-2021年新增的AI芯片厂商有20家,在这之中,有10家选择存算一体路线。
这无一不说明着,存算一体将成为继GPGPU、ASIC等架构后的,一颗冉冉升起的新星。而这颗新星,并不是谁都可以摘。
在学界、产界、资本一致看好存算一体的境况下,强劲的技术实力、扎实的人才储备以及对迁移成本接受度的精准把控,是初创公司在业内保持竞争力的关键,也是挡在新玩家面前的三大门槛。
强劲的技术实力,永远是芯片领域的最高山。
首先是存算一体“涉猎广泛”,涉及到芯片制造的全环节:从最底层的器件,到电路设计,架构设计,工具链,再到软件层的研发;其次是其“牵一发而动全身”:在每一层做相应改变的同时,还要考虑各层级之间的适配度。
我们一层一层来看,一颗存算一体芯片被造出来,有怎样的技术难题。
首先,在器件选择上,厂商就“如履薄冰”:存储器设计决定芯片的良率,一旦方向错误将可能导致芯片无法量产。
其次是电路设计层面。电路层面有了器件之后,需要用其做存储阵列的电路设计。而目前在电路设计上,存内计算没有EDA工具指导,需要靠手动完成,无疑又大大增加了操作难度。
紧接着,架构层面有电路之后,需要做架构层的设计。每一个电路是一个基本的计算模块,整个架构由不同模块组成,存算一体模块的设计决定了芯片的能效比。模拟电路会受到噪声干扰,芯片受到噪声影响后运转起来会遇到很多问题。
这种情况下,需要芯片架构师足够了解模拟存内计算的工艺特点,同时针对这些特点去设计架构,在此基础上,还要考虑到架构与软件开发的适配度。软件层面架构设计完成后,还需要开发相应的工具链。
(图源:偲睿洞察《AI大算力芯片行业报告-百舸争流,创新者先》)
而由于存算一体的原始模型与传统架构下的模型不同,编译器要适配完全不同的存算一体架构,确保所有计算单元能够映射到硬件上,并且顺利运行。
一条完整的技术链条下来,考验着器件、电路设计、架构设计、工具链、软件层开发各个环节的能力,与协调各个环节的适配能力,是耗时耗力耗钱的持久战。
同时,根据以上环节操作流程可以看到,存算一体芯片亟需经验丰富的电路设计师、芯片架构师。
鉴于存算一体的特殊性,能够做成存算一体的公司在人员储备上需要有以下两点特征:
1、带头人需有足够魄力。在器件选择(RRAM、SRAM等)、计算模式(传统冯诺依曼、存算一体等)的选择上要有清晰的思路。这是因为,存算一体作为一项颠覆、创新技术,无人引领,试错成本极高。能够实现商业化的企业,创始人往往具备丰富的产业界、大厂经验和学术背景,能够带领团队快速完成产品迭代。
2、在核心团队中,需要在技术的各个层级中配备经验丰富的人才。例如架构师,其是团队的核心。架构师需要对底层硬件,软件工具有深厚的理解和认知,能够把构想中的存算架构通过技术实现出来,最终达成产品落地;
3、此外,据量子位报告显示,国内缺乏电路设计的高端人才,尤其在混合电路领域。存内计算涉及大量的模拟电路设计,与强调团队协作的数字电路设计相比,模拟电路设计需要对于工艺、设计、版图、模型pdk以及封装都极度熟悉的个人设计师。
而这一系列的人才与技术,都要以落地效果为终极目标——落地才是第一生产力。在交付时,客户考量的并不仅仅是存算一体技术,而是相较于以往产品而言,存算一体整体SoC的能效比、面效比和易用性等性能指标是否有足够的提升,更重要的是,迁移成本是否在承受范围内。
如果选择新的芯片提升算法表现力需要重新学习一套编程体系,在模型迁移上所花的人工成本高出购买一个新GPU的成本,那么客户大概率不会选择使用新的芯片。
因此,存算一体在落地过程中是否能将迁移成本降到最低,是客户在选择产品时的关键因素。
在大模型背景下,存算一体芯片凭借着低功耗但高能效比的特性,正成为芯片赛道,冉冉升起的一颗新星。现如今,存算一体市场风云未定,仍处于“小荷才露尖尖角”阶段。
但我们不可否认的是,存算一体玩家已然构筑了三大高墙,非技术实力雄厚,人才储备扎实者,勿进。
关键词: