LPU的全称是Language Processing Unit,翻译过来即是谈话处理单位,是一种新式AI加快器。在它的复旧下美女 自慰,大模子的推理速率快得惊东谈主,蓦的能输出长篇幅谜底;而使用了英伟达芯片的GPT-4,只可一个字一个字往外蹦。 前者的反映速率最高可达到500T/S,此后者唯有40T/S[1]。 这是什么认识?相当于一秒钟生成300个单词,7分钟生成一部《哈姆雷特》长度级的著述。 Groq背后的团队也可谓群星妍丽,公司CEO Jonathan Ross是Google初代TPU的...
LPU的全称是Language Processing Unit,翻译过来即是谈话处理单位,是一种新式AI加快器。在它的复旧下美女 自慰,大模子的推理速率快得惊东谈主,蓦的能输出长篇幅谜底;而使用了英伟达芯片的GPT-4,只可一个字一个字往外蹦。
前者的反映速率最高可达到500T/S,此后者唯有40T/S[1]。
这是什么认识?相当于一秒钟生成300个单词,7分钟生成一部《哈姆雷特》长度级的著述。
Groq背后的团队也可谓群星妍丽,公司CEO Jonathan Ross是Google初代TPU的联想者之一。早期GoogleTPU团队的10位成员中,8位都跳槽到了Groq。
自2016年开采,Groq就饱受市集存眷。2020年,Groq的芯片被好意思国阿贡本质室遴选。2021年,Groq获老虎环球基金等机构投资,估值特出10亿好意思元。
但是,Groq公司的各式“寻衅”,英伟达虚耗没放在眼里。比较之下,此前“奥特曼7万亿好意思元造芯”的新闻出来之后,黄仁勋至少还出来说了两句。
毕竟,脚下Groq的各样套路,老黄可再熟习不外了。
笔墨游戏
当下,制约AI芯片发展的主要逆境,是内存墙:内存的传输速率远远慢于处理器算力,导致性能迟迟上不去。
要是把芯片想象成一个餐厅,那么内存即是仓库,处理器即是后厨。
仓库送菜比后厨烹调还慢,严重适度了餐厅的出菜速率。因此,包括英伟达在内的芯片厂商,都在围绕“仓库(内存)”作念著述。而Groq碾压英伟达的诀要,也藏在内存结构里。
传统诡计机所使用的内存,其实有两种:
DRAM容量较大,但传输速率较慢,起主存作用;而SRAM容量较小,但传输速率极快,行为缓存发扬援手作用。一直以来,二者都是蛊卦相干,统筹兼顾。
但Groq为了追求极致的速率,放弃了DRAM,让SRAM扛起了LPU主存大旗。
相当于砍掉距离厨房较远的大仓库,径直将通盘食材都堆在厨房边的菜篮子里。 这样的联想想路下,LPU不但在速率上造成降维打击,还松驰绕过了两个成本最高的本事: HBM和先进封装。
这也组成了Groq另一个大吹特吹的宣传中枢:低廉。
凭证Semi Analysis的拆解,LPU由于具备架构上风,物料成本仅为1050好意思元。比较之下,旧年全球放荡的H100芯片,物料成本则达到3700好意思元[2]。
在售价层面,一块LPU的价钱是20000好意思元,远低于H100的35000好意思元。
但历史无数次告诉咱们,大部分弯谈超车的结局都是有田下山,LPU也不例外。
大模子对内存大小也有着很高的条件。参数目越大的模子,运行时所需要存储的数据也会更多。
SRAM虽然快,但过失是容量小,频繁唯有4-16MB。Groq研发团队多年苦心钻研,最终也只是将LPU的容量普及至230MB。而一块H100的内存容量是80GB,两者间差了约356倍。菜篮子再怎样升级换代,终究无法和仓库口舌不分。
想装下通盘的食材,唯独的办法即是把菜篮子数目堆上去。因此,在运行相似参数的模子时,需要用到的LPU数目就远远高于GPU。
前阿里本事副总裁贾扬清就算了一笔账:
以运行LLaMA 70b模子为例,需要572张LPU,售价1144万好意思元;但要是换成H100,其实只需要8张,总价钱在30万好意思元傍边——所谓的“低廉”根底不开采。
芯片一多,举座的功耗成本也直线高潮。LPU每年至少消耗25.4万好意思元电费,而H100裁夺破耗2.4万好意思元。
事实证据,Groq的遥遥率先,只是隐去了中枢信息的笔墨游戏。它所宣传的“高速”,是以近乎夸张的使用成本换来的:运行三年LLaMA 70b模子,LPU的使用成本将比英伟达的GPU跳跃32倍。
天然美女 自慰,Groq的研发团队,显著对此心知肚明。遴荐此时重兴旗饱读,更像是一种拉投资的举动。
事实上,这照旧不是Groq第一次公开“蹭热度”了。
之前GPT Store刚发布时,Groq给OpenAI的奥特曼发了一封信,讪笑使用GPTs跟在“夜深读《干戈与和平》一样从容”。马斯克的聊天机器东谈主Grok发布时,它也跑去贴脸嘲讽,质疑Grok抄袭了我方的名字。
往常几年,打着“替代英伟达”旗子的初创公司舛误累累,Groq只不外是其中之一。现在,在超车英伟达的这条弯谈,照旧出现了严重塞车。
前车之鉴
Groq最直不雅的参考样本,来自英国公司Graphcore。
Graphcore出身之初,曾经拿着“本事路子别出机杼、演示视频酷炫惊艳、性能数据秒杀同业”的脚本,拳头家具IPU与Groq的LPU联想想路殊途同归,亦然用高速的SRAM取代DRAM行为芯片内存,以终了极致的传输性能。
同期,Graphcore调理了芯片架构,专注于处理高性能诡计。
它曾颇有亲信知彼地默示“不与英伟达径直竞争”,只将揣摸打算客户定位在,非常需要大批高性能诡计的化学材料和医疗等特别限度。
Graphcore的两位创举东谈主
2019年,微软成为Graphcore首款IPU的大客户。 2020年5月,微软科学家将IPU内置于微软Azure操作系统中,用于识别胸部X光片。 这位科学家说谈:
“Graphcore芯片可以在30分钟内完成,GPU需要5个小时才调完成的责任。”
在最表象的2016至2020年间,Graphcore共拿到了7.1亿好意思元融资,估值高达27.7亿好意思元,一度被视为全英国乃至欧洲全村的但愿。Graphcore的投资者不仅有微软、三星、戴尔等科技巨头,也囊括了红杉成本、柏基投资等顶级风投。
比较今天的Groq,当年的Graphcore只可说有过之无不足。但Graphcore的后续发展却远远不足那时的预期。
2022年,Graphcore全年营收唯有270万好意思元,为英伟达同期收入的万分之一,且相较前一年下落46%,赔本达到了2亿好意思元。 2023年,东谈主工智能波澜爆发,英伟达功绩再度暴涨。 H100一卡难求之时,Graphcore觉得我方至少能捡到英伟达的漏,恶果却连汤都没喝着。
旧年,Graphcore的创举东谈主Nigel Toon向英国首相写了篇“公开信”,讨要补贴。
他写谈,“Graphcore照旧为英国预留了多达3000个IPU芯片,可觉得通盘这个词国度提供干事”,险些照旧是昭示要钱[4]。
不久前,一面功绩赔本,一面融资无果的Graphcore走向了终末一条路: 寻求收购。 凭证The Telegraph爆料,其售价可能在5亿多好意思元——不到2020年最高估值时候的五分之一[5]。
当年,以Graphcore为首的挑战者们,各怀绝学,来势汹汹,颇有一种八大门派围攻光明顶的既视感。但是,如今多已散作鸟兽状。
旧年3月,芯片公司Mythic一度因资金耗尽而濒临倒闭,将近淹死之际,才好辞谢易比及了救命缰绳,拿到了1300万好意思元融资。
另一家芯片公司Blaize也出现了近似的逆境,终末靠着中东土豪的投资,才活了下来。
剩下的公司中,Habana可能是唯独活得可以的——它被英特尔以20亿收购,保留了孤苦运营的权柄。
从Graphcore到Mythic,这些芯片公司的本事路子各不交流;但是,它们失败的原因,却稀疏一致。事实上,今天大火的Groq,相似也极有可能倒在统一个处所:
芯片卖不出去。
委果的护城河
英伟达的GPU天然历害,但它卖芯片的套路,才是委果的护城河。
每年,英伟达都会过问相当一部分的研发经费,围绕GPU搭建系统性才略。天然,这是高情商的说法,低情商的说法是开采一皆“系缚销售”的家具——这才是英伟达最坚实的城墙。现在,英伟达的城墙共有3层:
大伊香蕉人在线观看第一层城墙,是CUDA的编程生态。
各人皆知,GPU最初的使用场景是游戏与视频图像渲染。早期,一些华尔街精英偶尔愚弄GPU的并行诡计才略来跑往返,但由于需要再行编写大批代码,因此并未闲居传播开来。
黄仁勋折服GPU能用于更多限度,因此在2006年推出了裁减编程门槛的软件架构CUDA,和自家GPU系缚推出。
其后,苹果和AMD都推出了近似平台,但此时CUDA生态早已构建,在“用得东谈主越多,CUDA越好用,新开采者越倾向于遴荐CUDA”的良性轮回中安稳前进。
如今,CUDA可以让英伟达GPU的使用成本大幅裁减。
一位专有云CEO曾在接受采访时说过,表面上AMD卡也不是不成用,但要把这些卡调试到正常运转,需要多徒然两个月[6]——找谁下单,谜底了然于目。
2017年,英伟达以致向AI有计划员施济了V100芯片
第二层城墙,是NV-Link的高速传输。
一个数据中心,不可能只使用一块AI芯片。但是,要是将2块AI芯片连在一皆,那么实质算力势必会小于2,因为数据传输的速率慢于芯片算力,且经由中还存在损耗。
显著,在GPU数目赶快推广的数据中心内,惩处数据传输问题其要道。
2016年,英伟达为IBM干事器提供GPU时,初次用上了自研的NVLink本事,带宽高达80G/s,通讯速率提高了5倍,性能普及了14%,好评不断。此后几年,英伟达一边迭代NVLink本事,一边端正该本事必须绑定自家芯片使用。
套路虽然绵薄直白,但即是灵验。
而第三层城墙,则是英伟达的“铁杆好昆玉定约”。
往常一年,英伟达是全球最主要的东谈主工智能投资东谈主之一,活跃进程以致特出了a16z和红杉等顶级投资机构。
据外媒统计,英伟达旧年至少有35笔东谈主工智能投资,包括:由前DeepMind聚开创举东谈主创办的Inflection AI,欧洲东谈主工智能独角兽Mistral,天下最大的开源模子社区Hugging Face等等[7]。
Inflection AI创举东谈主苏莱曼
积极投资的办法,其实很绵薄:当黄仁勋提着好意思金和H100芯片,敲开这些公司的大门,莫得东谈主会再拒却英伟达。
这通盘的一切,足以让市面上绝大多数公司,都绑死在英伟达的船上。
濒临性能宏大的英伟达GPU,各路初创公司们大略有办法,打造出性能相匹敌的家具。但是。英伟达卖芯片的套路,却让这些公司持久难以违反。因此,Graphcore等挑战者的失败,真实不是不起劲。
当脚下的炒作迟缓记挂沉静,Groq也得想考交流的问题:到底谁会翻过三座大山,来买LPU?
尾声
2月23日,英伟达市值冲突2万亿好意思元。距离上一个1万亿,只是过了9个月。
Groq的爆火,让市集又一次运转商议统一个问题:到底有莫得东谈主能叫板英伟达?
缺憾的是,英伟达远比东谈主们想象的要宏大。东谈主工智能波澜给芯片行业提供了一块大蛋糕,英伟达并莫得分的料想,而是通盘这个词端走塞进了口袋。
芯片初创公司Mythic的CEO曾愤然默示,东谈主工智能火了,他们却更难融资了,即是英伟达“搞坏了大环境”。
凭证PitchBook数据,阻挡2023年8月底,好意思国芯片初创企业融资8.814亿好意思元,约为2022年同期的一半。往返数目的变化则愈加驰魂夺魄:从23宗减少到了4宗[8]。
Graphcore、Mythic的前车之鉴寥若辰星在目美女 自慰,是以也不怪Groq跟大众玩儿笔墨游戏。濒临这样一个“汤都不给喝”的短小精悍,Groq又能怎样办呢?