Nvidia lança Groq 3 LPU, chip de inferência para workloads multiagente

A Nvidia revelou o Groq 3 Language Processing Unit (LPU), chip dedicado de inferência para cargas de trabalho multiagente em escala. Construído na arquitetura tensor streaming processor proprietária da Groq, promete até 10x mais velocidade de inferência para LLMs e sistemas agentic. Recursos: TSP v3 com 1.5 petaflops por chip e latência determinística abaixo de 100 microssegundos; engine para até 1.000 agentes simultâneos; 75% menos consumo de energia; escalável via NVLink. Fabricado em 3nm da TSMC, disponível a partir do Q3 2026 por $25.000 por unidade. Parcerias com xAI, Anthropic e Scale AI.