靠GPU赚得盆满钵满的英伟达,正在遭受反扑。
从谷歌的TPU、苹果的M1和M2、微软Maia 100和Cobalt 100、Meta的MTIA、亚马逊的Trainium和Inferentia、特斯拉的Dojo,到英特尔的FPGA系列、AMD的MI300系列……巨子们一次次冲击着英伟达的帝国围墙。
近期,苹果在一篇技能论文中表明,支撑其人工智能体系AppleIntelligence的两个人工智能模型,是在谷歌规划的云端芯片上进行预练习的。
谷歌规划的芯片是TPU(Tensor Processing Unit,张量处理单元),这是谷歌专门为加快机器学习运用中的矩阵运算而规划的一种定制化DSA(Domain Specific Architecture,范畴特定架构)芯片。自2015年推出以来,谷歌的TPU现已开展到第六代,成为了对标英伟达AI芯片的强力代替计划之一。
在我国,在AI竞速的大年代里,芯片自研的火急感更重。国产GPU、AI芯片从业者和科技厂商们无不在找寻打破口。
中昊芯英(杭州)科技有限公司(下称“中昊芯英”)是其间一员。开创人杨龚轶凡曾在谷歌TPU中心研制团队参加过TPU v2/3/4的规划与研制作业。
2017年,杨龚轶凡见证团队研制的TPU芯片练习出了Transformer结构。TPU和Transformer为自然语言处理(NLP)范畴带来了革命性的改变,也敞开了现代大规划预练习模型的年代。
杨龚轶凡从中看到AI的未来,也看到了作为AI根底设施AI芯片的价值:“从前的核算是一块芯片上跑一个运用或多个运用,现在是一个运用跑在一千块乃至上万块芯片上,这是人类核算历史上的大改造。该改造给了一切技能迭代的空间及机会。”
2018年,杨龚轶凡归国组建中昊芯英的中心开创团队,并于2020年落地杭州,产品线首要环绕人工智能芯片,特别是TPU芯片打开。历经了近五年的研制,2023年下半年,根据全自研GPTPU架构的高功能TPU人工智能芯片片刻®完结量产。2024年被杭州市创业出资协会认定为杭州市准独角兽企业。
中昊芯英也是草创芯片公司中,少量已完结盈余的。2023年,中昊芯英的全体销售额达4.85亿元,归母净利润为8132.64万元。据了解,中昊芯英现在的客户以政府、运营商、企业为主,多为协作共建智算中心。近来,中昊芯英又宣告与上市公司艾布鲁旗下子公司星罗智算科技(杭州)有限公司达成了战略协作。现在,中昊芯英现已完结了Pre-B、Pre-B+轮融资。
可是,在GPU处于肯定独占位置的当下,GPU的通用性和生成式AI上的强壮功能现已过广泛验证。比照之下,TPU首要针对机器学习和深度学习使命,关于如图形烘托、物理模仿等核算使命并不拿手。
TPU能否成为GPU的代替计划?怎么构建和优化环绕TPU的软件生态体系?TPU有或许成为国产AI芯片的新机会吗?带着疑问,年代周报记者走进中昊芯英,与开创人及CEO杨龚轶凡进行了面对面访谈。
TPU,AI芯片新解法?
年代周报:GPU和TPU各具优势,中昊芯英为何会挑选专心在TPU赛道上跑?
杨龚轶凡:GPU 具有许多结构较为简略的并行处理单元,合适处理高度并行的使命,如图形烘托和科学核算,因而被广泛运用于核算机图形学、游戏开发、视频编码/解码、深度学习练习和推理。
TPU特别合适于处理矩阵乘法等常见于神经网络的操作,首要用于机器学习和深度学习模型的练习和推理,特别是运用 TensorFlow 结构的使命。
新近,非深度学习模型如GBM(Gradient Boosting Machine)和Random Forest等,在GPU上展现出的功能更好,这是由于TPU的通用核算才能有限,它的规划更针对深度学习使命,所以早年的体现不是很杰出。可是,近年来,无论是AI小模型仍是AI大模型,简直无一例外地转向了深度学习,尤其是那些以Attention机制和矩阵乘法(MatMul)作为中心运算的模型,这恰恰是TPU所拿手的范畴。
跟着技能的开展,TPU在相同制作工艺、能耗和芯片尺寸下,比较GPU能供给3到5倍的功能进步。这意味着,在相同的条件下,TPU架构能够以更高的功率完结模型练习,然后明显进步性价比。在AI范畴,尤其是深度学习模型的练习和布置,性价比是决议模型能否广泛落地的关键因素。
因而,从长远来看,TPU比GPU在AI赛道上更具竞争力。尽管未来的AI模型或许不彻底遵从现有的Transformer解码器架构,乃至或许呈现新的根底运算会代替MatMul,但深度学习无疑仍是AI范畴的主导力量。深度学习的某个分支将承载着未来100%的AI运用,这一点是毋庸置疑的。
生态难题能解?
年代周报:现在,干流的AI结构都供给了GPU加快的支撑,可是TPU之前是谷歌专门为TensorFlow和本身的云渠道规划的,其硬件和软件的可用性或许不如广泛支撑各种深度学习结构和渠道的GPU,中昊芯英计划怎么处理这一问题?
杨龚轶凡:TPU的概念在国外正在取得重视与遍及,并未局限于谷歌的围墙内。许多草创企业虽未直接冠以TPU之名,但其规划理念与TPU较为相似。例如,专心于开发高功能AI芯片的草创公司Groq所开发的LPU(Language Processing Uni),从其技能白皮书中能够看出,其芯片架构与TPU殊途同归。全球规划内,TPU及其相似技能的公司如漫山遍野般出现,不断推进着技能的鸿沟。
别的,软件栈也不是原封不动的。从前,CUDA与盛行的开源机器学习库PyTorch严密相连,为GPU供给高功能核算才能。可是,跟着TPU等非GPU架构的鼓起,软件栈开端习惯多渠道需求,PyTorch 2.0及后续版别已将TPU作为规范分类归入支撑规划,这意味着开发者在运用PyTorch时,能够无缝切换至TPU。
跟着软件栈的不断更新与优化,以及硬件范畴的继续改造,我以为整个职业对TPU的接收程度将日益进步。
年代周报:英伟达构建了一套全栈式处理计划,结合硬件、软件和服务,构成闭环的生态体系,掩盖从边际设备到数据中心的各种运用场景。未来中昊芯英是否将构建自己的全栈式的TPU产品和技能?
杨龚轶凡:在AI赛道,芯片企业一定是向着全栈处理计划跨进的,并且是软硬件一体协同。
其时,业界遍及支撑PyTorch结构,因其低搬迁本钱招引了许多用户。可是,跟着用户基数的扩展和职业处理计划的深化,软硬件一体化公司的优势开端凸显,能够供给从根底模型服务、开源模型、到模型预练习的全面支撑。
未来,软硬件一旦到达高度协同,芯片的性价比将有望完结2到3倍的腾跃。
年代周报:此前业界以为,除掉产品本身,生态才是英伟达最大的护城河。英伟达又运用CUDA渠道建立了巨大的开发者生态体系,这是难以“包围”英伟达的原因。您以为该怎么破局?
杨龚轶凡:我从别的一个视点去答复这个问题。何为软件生态?现在软件栈AI的结构最盛行的是PyTorch,CUDA是在PyTorch下面一层。假如运用GPU, PyTorch就有必要链接到CUDA接口上,挑选GPU,有必要支撑CUDA。
跟着时刻的搬迁,在PyTorch2.0今后,TPU现已是个规范的分类了,在 PyTorch里边也现已有了很好的支撑了,并且TPU相对简略,不用像GPU那样承当深重的CUDA兼容性担负,反而能够采纳更为简练和高效的软件栈。
据预算,TPU的软件生态构建作业量仅为CUDA的三十分之一,这不只降低了人工本钱,还使得其处理计划在支撑度和通用性上更具优势。
现在咱们都支撑PyTorch,由于PyTorch渠道用户的搬迁本钱较低。但当用户获取量越来越多,开端深化职业处理计划的时分,这就会变成是咱们的强项了,中心在于咱们是真实的做软硬件一体化的公司,咱们能够供给职业大模型的根底模型服务、根底模型的开源、根底模型预练习,当咱们把模型的整个软件栈结构搭好后,那么职业客户就能够根据本身职业数据,在咱们的这个结构上调用接口,就能够完结模型的二次练习。这样就能够把模型运用在详细场景里边去代替生产力了。
商业途径几许?
年代周报:咱们了解到中昊芯英在金融、医疗、教育等范畴布局了预练习大模型,作为一家芯片公司,为何入局大模型?
杨龚轶凡:咱们期望完结软硬件的一体化协同,经过练习根底模型,并将其开源,一起配套完善相应的软件结构,如此一来,咱们为客户供给了完好的处理计划。这一进程被比喻为“钥匙工程”:客户预备和整合本身数据,经过咱们交给的接口即可发动模型练习。
这些开源模型不只仅是技能上的打破,更是芯片公司的中心财物。相似于CUDA这样的软件生态体系,是芯片公司技能护城河的重要组成部分。CUDA为英伟达的GPU构建了一个强壮的软件开发渠道,使得开发者能够轻松运用GPU的核算才能进行AI运用开发。但现在,CUDA在AI软件生态中的控制位置正在遭到应战,PyTorch结构与微软的协作,正致力于在其内部开发代替CUDA的底层架构,这意味着CUDA在AI范畴的影响力正在逐步削弱。
因而,芯片公司经过培养开源模型,构建自己的软件生态体系,能够招引开发者环绕这些模型进行运用开发和优化,进一步稳固和扩展自己的商场位置。
年代周报:当下许多芯片公司还处于亏本,为什么中昊芯英能够在相对短时刻完结盈余,形式是怎样的?
杨龚轶凡:首要是由于咱们开创团队关于做AI芯片有一种崇奉,这也是咱们创业的中心的原动力。
其时咱们创业能够挑选在硅谷,也能够挑选在我国。咱们那时在硅谷模糊感遭到了中美未来科技博弈的不可避免,在国内研制国产化自主可控的AI芯片,不只能带动经济效益,还能带动社会效益。
彼时,AI企业只能运转较小规划的模型。摆在芯片厂商面前的挑选,一是做用于推理场景的“小芯片”,假如做“大芯片”,则大都厂商会挑选做GPU,由于GPU的通用性很强,更受推行。
而由于咱们一向会集在AI芯片TPU的赛道,现在AI赛道的迸发,对TPU而言便是中心商场的迸发。咱们会将一切的优势资源、研制才能和精力会集在这一块,推进整个大模型的落地和职业开展。
2023年下半年咱们的产品落地,当年全体销售额达4.85亿元,归母净利润达8132.64万元。
现在,咱们已与青海·海东“丝绸云谷”低碳算力产业园、我国联合网络通信有限公司深圳市分公司、新华三集团等各地政府、运营商、企业协作。其间,2023年,中昊芯英与青海亿众数字动力科技有限公司联合签约,在青海·海东“丝绸云谷”产业园中推进建立“唐古拉”AI算力实验室,为项目建立AI核算底座,该项目总出资约230亿元,分两期建造,是国内首个彻底定坐落“大算力+大模型”形状的大型人工智能核算中心。
本文源自:年代周报