功耗只有284mW的LPU,能跑大模型的吗?

日期:2026-04-02 13:59:51 / 人气:9


朋友们,今天聊个狠货。

一家韩国公司搞出了一颗AI推理芯片。

功耗284毫瓦。

对,你没看错,不是284瓦,是284毫瓦。

就这么点功耗,居然能在LLM推理上干翻NVIDIA H100。

吹牛能效比H100还高33%。

这事儿要是真的,那可就太刺激了。

咱们今天好好扒一扒这颗叫做LPU的芯片,到底是真神还是吹牛。

1.一颗只有指甲盖千分之一的芯片,凭什么这么猛?

先说参数,让你开开眼。

先说LPU这个名字,

这个就不太一样。

韩国人称这个是Latency Processing Unit的缩写,而不是LLMProcessing Unit(大语言模型专用处理器。

但是,这个的确是用来出来LLM大语言模型推理的。

只能说脑回路不太一样。

这玩意的架构是这样的。

作者说,通过三星4nm工艺,芯片面积0.824平方毫米。

什么概念?

你指甲盖大约100平方毫米,这颗芯片只有你指甲盖的不到1%。

功耗284.31毫瓦。

也就是你手机充电器的零头。

但就是这么一颗""袖珍""芯片,跑起活儿来一点不含糊。

处理13亿(1.3B)参数的大模型,速度1.25毫秒一个token。

两颗LPU跑660亿参数的大模型,速度20.9毫秒一个token。

比GPU快1.37到2.09倍。

重点来了:能效比H100高1.33倍,比L4高1.32倍。

朋友们,这事儿要是搁三年前,你跟人这么说,人家得说你疯了。

284毫瓦打1100瓦?

这就好比一只蚂蚁说自己能举起大象。

但HyperAccel还真就对比了

2.LPU的独门秘籍:快、准、狠

要说这颗芯片为啥这么猛,得从它的架构说起。

第一招:Streamlined Memory Access(SMA)

这是个啥?

简单说,就是专门优化了内存访问。

大模型推理最怕什么?

不是算力不够,是内存带宽成了瓶颈。

GPU为啥效率低?

因为它设计的时候是为了并行计算,一大堆核心同时干活。

但LLM推理的特点是,每次只处理一个向量,搞完再搞下一个。

GPU那么多核心,大部分时候都在干瞪眼。

LPU不一样,它专门为大模型推理设计了""流线型""内存访问。

数据从HBM进来,直接送到计算单元,中间不绕弯子。

带宽利用率能到90%。

H100呢?小模型才28.5%,大模型也就70%左右。

这就是差距。

第二招:Operand Issue Unit(OIU)

这玩意儿负责调度数据。

像个智能管家,提前把要用的数据准备好,计算单元一需要,立马送上。

不让你等着。

第三招:Streamlined Execution Engine(SXE)

这是LPU的计算核心。

里面塞了一堆定制的MAC树(乘加运算单元)。

专门干向量乘矩阵的活。

这是大模型推理里最耗时的操作。

LPU把这些MAC树排得整整齐齐,数据流进来,一路算到底,中间不停顿。

就像一条高效的生产线。

第四招:ESL(Expandable Synchronization Link)

这是LPU的大招。

跑大模型,一颗芯片内存不够,得用多颗。

多颗芯片之间怎么通信?

GPU用NVLink,900GB/s,看着挺快。

但问题是,通信的时候计算得停下来等着。

这一等,效率就下来了。

双GPU加速比平均只有1.38倍,四GPU更低。

LPU的ESL不一样,它能把通信延迟藏起来。

通信和计算能重叠进行。

结果是,双LPU加速比能到1.75倍,接近理论极限的2倍。

这scalability,GPU看了都得跪。

3.软件生态:HyperDex,让用起来不那么痛苦

硬件再牛,软件不好用也是白搭。

HyperAccel搞了个叫HyperDex的软件框架。

功能挺全:

自动编译,根据模型参数生成内存映射和指令。

支持HuggingFace API,现在主流的LLM模型都能跑。

这对开发者来说是好事,不用从头学一套新东西。

不过话说回来,一个新架构的生态建设是个长期工程。

NVIDIA护城河那么深,CUDA生态都建了十几年了。

LPU想撼动这个地位,光有性能优势还不够。

得看后续能不能吸引更多开发者和厂商上车。

4.LPU能干翻NVIDIA吗?先别急着下结论

说到这里,你可能会问:

老哥,LPU这么猛?

我得说,这是原型芯片。

第一,这是原型的专用芯片,不是通用芯片。

LPU只能跑大模型推理,别的活儿干不了。

GPU能训练、能推理、能打游戏、能挖矿,啥都能干。

应用场景完全不一样。

第二,论文和量产是两回事。

论文里的数据是在理想条件下测的。

真实场景里,模型千奇百怪,请求五花八门,能不能保持这个效率还不好说。

第三,生态差距太大。

NVIDIA有CUDA,有TensorRT,有一大堆优化好的库。

这个LPU现在还只是个newcomers。

但话说回来,专用芯片在特定领域干翻通用芯片,这事儿以前也发生过。

比特币挖矿不就是吗?

一开始都用GPU挖,后来专用ASIC一出,GPU直接出局。

大模型推理会不会走这条路?

还真有可能。

毕竟推理这活儿相对固定,不像训练那么复杂。

如果专用芯片能把成本和功耗打下来,云厂商没理由不用。

5.这事儿对我们意味着什么?

作为普通用户,你可能觉得这事跟自己没啥关系。

但还真不一定。

端侧推理AI芯片可能会爆发。

284毫瓦的功耗,放手机上也不是不能用。

以后你的手机说不定能本地跑大模型,不用联网。

隐私、延迟、费用,全都解决了。

但是,目前看,存储是瓶颈。

这个284毫瓦的芯片,用了FPGA原型上的HBM来存储数据。

这就好像一个摩托(AI推理芯片)拉着一个大油罐(HBM)。

不过,从这也能看出来,

目前大模型推理芯片的瓶颈更多在存,而不是算。

6.最后说几句

LPU这颗芯片,让我看到了专用AI芯片的潜力。

在特定场景下,专用架构确实能比通用架构高效得多。

但要说它能颠覆NVIDIA,现在还为时尚早。

毕竟生态不是一天能建起来的。

不过有一点是确定的:

AI推理芯片这场仗,早晚百花齐放。

前有Gorq,SambaNova,Tenstorrent,Taalas等等。

未来也会有更多的架构参与其中。

你觉得专用A推理芯片能撼动NVIDIA的地位吗?"

作者:杏彩娱乐




现在致电 xylmwohu OR 查看更多联系方式 →

COPYRIGHT 杏彩娱乐注册登录平台 版权所有