•openai.com•
0 visualizações
OpenAI e Broadcom lançam chip Jalapeño para inferência de LLMs
O chip, chamado Jalapeño, foi projetado do zero para inferência de modelos de linguagem e promete eficiência energética superior. Primeira geração de uma plataforma multi-geração será implantada em escala de gigawatt a partir de 2026.
A OpenAI e a Broadcom revelaram nesta quarta-feira o Jalapeño, o primeiro chip projetado pela OpenAI especificamente para inferência de grandes modelos de linguagem (LLMs). O acelerador foi desenvolvido em apenas nove meses, da concepção à produção, e está sendo testado em laboratório com cargas de trabalho de ML, incluindo o modelo GPT-5.3-Codex-Spark. De acordo com a OpenAI, os primeiros testes indicam que o Jalapeño oferecerá desempenho por watt substancialmente superior ao estado da arte atual.
O chip é o primeiro passo de uma plataforma multi-geração que a OpenAI e a Broadcom estão construindo em parceria com a Celestica. O objetivo é reduzir o custo e a latência da inferência de LLMs, tornando a IA mais acessível. O Jalapeño não é um acelerador de propósito geral adaptado de cargas de trabalho de IA anteriores, mas sim um design pensado exclusivamente para as necessidades dos LLMs modernos, incluindo os modelos que a OpenAI opera diariamente no ChatGPT, Codex e na API.
A estratégia da OpenAI é integrar o desenvolvimento de chips ao seu ecossistema completo, desde modelos até produtos. "Ao projetar mais da nossa própria infraestrutura, podemos servir mais inteligência com maior eficiência", afirmou Greg Brockman, presidente e cofundador da OpenAI. O chip será implantado em data centers de escala de gigawatt em parceria com a Microsoft e outros parceiros a partir de 2026, e a empresa promete um relatório técnico detalhado de desempenho nos próximos meses.
A iniciativa representa um movimento significativo para democratizar o acesso à IA avançada, reduzindo custos e melhorando a confiabilidade. Com o Jalapeño, a OpenAI espera que melhorias na infraestrutura se traduzam em respostas mais rápidas no ChatGPT, tarefas mais complexas no Codex e produtos de API mais baratos. O ciclo de inovação, segundo a empresa, se retroalimenta: melhor infraestrutura gera mais eficiência computacional, que permite melhores modelos, que geram melhores produtos e mais receita para reinvestir na próxima geração de infraestrutura.