Voltar para notícias
openai.com
0 visualizações

OpenAI descobre bug de 18 anos e falha de hardware em análise

Engenheiros da OpenAI identificaram duas causas distintas para crashes no Rockset: hardware defeituoso e um bug de 18 anos no GNU libunwind. A descoberta só foi possível após análise populacional de core dumps.

A OpenAI revelou que uma investigação sobre crashes frequentes em um serviço crítico do ChatGPT resultou na descoberta de dois problemas separados e inesperados: uma falha silenciosa de hardware em um servidor Azure e um bug de 18 anos na biblioteca GNU libunwind, amplamente usada. A análise, descrita pela empresa como 'epidemiológica', usou core dumps de todo o último ano para correlacionar padrões que uma investigação caso a caso não revelaria. O serviço afetado é o Rockset, um sistema de dados personalizado adquirido pela OpenAI em 2024, usado para indexar conversas e permitir buscas em tempo real no ChatGPT. Funcionários relataram crashes onde funções C++ retornavam a endereços inválidos de memória, algo tecnicamente improvável sem bugs em código assembly ou chamadas de sistema específicas. A equipe passou semanas analisando hipóteses como bugs no kernel Linux ou no compilador, sem sucesso. A virada veio quando os engenheiros construíram um pipeline automatizado, com ajuda do ChatGPT, para analisar centenas de core dumps em paralelo. Os dados mostraram dois grupos distintos: um de crashes 'return-to-null', espalhados por várias regiões, e outro de crashes 'misaligned-stack', concentrados em uma única região e com data de início clara. O primeiro grupo foi rastreado a um host específico do Azure com corrupção silenciosa de hardware. O segundo, a uma condição de corrida no GNU libunwind, introduzida há 18 anos e nunca detectada antes. Para a OpenAI, a descoberta destaca que bugs raros só podem ser resolvidos com métodos de análise populacional – e não com técnicas tradicionais de depuração foco em um único caso. A falha no libunwind, em particular, afeta potencialmente qualquer software que use a biblioteca em sistemas Linux x86_64, embora o bug seja difícil de reproduzir. A empresa não informou se compartilhará o patch da correção com a comunidade open source, mas afirmou que as correções já foram aplicadas internamente.