OpenAI detalha salvaguardas do ChatGPT para reduzir violência e danos à comunidade

Em 2 de maio de 2024, a OpenAI detalha seu compromisso com a segurança da comunidade. Usa o Preparedness Framework para avaliar riscos em categorias como uso malicioso, desinformação, capacidades cibernéticas e CBRN, com níveis baixo, médio e alto. Modelos como GPT-4o são avaliados antes do lançamento por sistemas automatizados e experts; se alto risco, não são lançados até mitigações reduzirem para médio ou abaixo. Técnicas incluem RLHF, Moderation API, classificadores de segurança e red teaming. Monitora produção com equipe de operações de segurança e parceiros confiáveis. Realiza pesquisas, aplica políticas de uso e incentiva relatórios de problemas.