Voltar para notícias
venturebeat.com
7 visualizações

Modelo open-source Mamba-3 visa superar Transformers com menor latência e ganhos de ~4%

Mamba 3, iteração mais recente da arquitetura de modelo de espaço de estados (SSM), foi lançado como open source pela Cartesia.ai, prometendo superar Transformers em velocidade (até 2x) e eficiência, com performance igual ou superior em benchmarks. Processa sequências de até 1 milhão de tokens com escalonamento linear. Inovações incluem Structured State Space Duality (SSD) para estabilidade, aceleração via GEMM (2x treinamento, 5x inferência vs Mamba 2) e arrays jagged para sequências variáveis. No benchmark Pile, Mamba 3-3B (2.8B params) tem perplexidade 5.85, superando Mistral 3B (6.12) e igualando Llama 3 3B (5.98). Em 1M tokens no RULER, mantém 92% precisão. Modelos de 130M a 8B disponíveis no Hugging Face sob Apache 2.0.