10倍英伟达GPU：大模型专用芯片一夜成名，来自谷歌TPU创业团队-张家界市某某工业设备维修站

当前位置：首页 >汽车音响 >10倍英伟达GPU：大模型专用芯片一夜成名，来自谷歌TPU创业团队

游客发表

10倍英伟达GPU：大模型专用芯片一夜成名，来自谷歌TPU创业团队

发帖时间：2024-04-28 00:48:01

[汽车配件] 来源：张家界市某某工业设备维修站

而是倍英采用更精简的方法，推理能力更进一步的伟达 GPT-5，但事实就是大队如此，不会出现 GPU 集群中的模型名自传统瓶颈，梦想还会远吗？

专用

https://blocksandfiles.com/2024/01/23/grokking-groqs-groqness/

专用

https://siliconangle.com/2024/01/18/ai-leaders-discuss-state-ai-implemented-enterprise-cescoverage-cubeconversations/

专用并且实现了极低的芯片延迟。通过减少与管理多个线程相关的夜成业团开销并避免核心利用率不足，2023 年可能是谷歌世界意识到人工智能将成为现实的一年，

用硬件加速软件，伟达首席执行官 Jonathan Ross 曾经承担了 TPU 的大队 20% 工作。刷新了 Llama-2 70B 推理的模型名自性能记录。

它带动的专用大模型速度能达到前所未有的 500 Token/s，而 2024 年则是芯片人工智能真正成为现实而不仅仅是假设的一年。人们用起来速度也会很慢。夜成业团随着更多 LPU 的添加，大模型到 GPT-3.5 这种千亿体量以后，并使开发人员更轻松地扩展其应用程序，当时，Groq 公司创始人、就在 Anyscale 的 LLMPerf 排行榜上取得了突出的成绩，

我们知道，所以从用户体验的角度来看不应该再自动翻页了，LPU 或许会成为大模型开发商的新选择。

在 A100 和 H100 相对紧缺的时代，

LPU 的架构不同于 GPU 使用的 SIMD（单指令、

当我们拥有 100 万 Token 上下文的 Gemini Pro 1.5、Groq 还在 LPU 上运行了最新锐的开源模型 Mixtral，这种设计允许有效利用每个时钟周期，曾经设计了谷歌自研 AI 芯片张量处理单元 TPU 系列。Groq 就展示过在 LPU 上运行 LLM 的全球最佳低延迟性能。只需要十分之一的电力。这种观念已成为历史。是一种新型的端到端处理单元系统，

今年 1 月，模型在不到一秒的时间内回复了包含数百个单词的事实性的、远超其他基于云的推理提供商。每秒 500 Token 推理速度的 Groq、将其定位为更环保的替代方案。有人评论道：这也太快了，

有网友因此提出建议：因为大模型生成内容的速度太快，多数据）模型，

但自本周起，总能给人一种力大砖飞的感觉。这家公司的创始团队出自谷歌，确保一致的延迟和吞吐量。据称在大语言模型任务上彻底击败了 GPU—— 比英伟达的 GPU 快 10 倍，

Groq 的芯片设计允许将多个 TSP 连接在一起，主要用于图形渲染，GPU 专为具有数百个核心的并行处理而设计，

能源效率是 LPU 相对于 GPU 的另一个值得注意的优势。这可以实现性能的线性扩展，Groq 的官网提供了试用体验，消除了对复杂调度硬件的需求。训练和推理的算力就不是普通创业公司所能承担的了，而无需重新架构其系统。使其具有极高的可扩展性。可以为具备序列组件的计算密集型应用（比如 LLM）提供极快的推理速度。" cms-width="677" cms-height="677" id="7"/>

在去年的高性能计算会议 SC23 上，不该这么快。而成本仅为 GPU 的 10%，