Para a última semana, a comunidade de IA ficou obcecada com um mistério. Um modelo furtivo chamado "Pony Alpha" apareceu no OpenRouter em 6 de fevereiro de 2026 — sem marca, sem nome de empresa, apenas desempenho bruto que deixou desenvolvedores enlouquecidos no Reddit.
Agora o segredo foi revelado: Pony Alpha é o GLM-5, o modelo flagship de próxima geração da Zhipu AI (Z.ai), e é um dos modelos de IA open-source mais impressionantes já lançados.
O Grande Mistério da IA: O Que Era o Pony Alpha?#
Quando o Pony Alpha apareceu pela primeira vez no OpenRouter, ninguém sabia de onde vinha. Mas as pistas estavam lá:
- O momento do lançamento coincidiu com o anúncio da Zhipu AI de que o GLM-5 seria lançado por volta do Ano Novo Chinês
- O estilo de saída correspondia à série GLM
- Quando questionado sobre suas origens, o modelo se identificou como um modelo GLM desenvolvido pela Zhipu
- "Pony" faz referência ao Ano do Cavalo no zodíaco chinês — uma brincadeira da equipe
Threads no Reddit explodiram com especulações. Seria o DeepSeek V4? Um experimento secreto da OpenAI? A revelação fez as ações da Zhipu AI dispararem 60% em dois dias, elevando seu valor de mercado para mais de HKD 150 bilhões (~US$ 19 bilhões).
GLM-5 em Números#
O GLM-5 representa um salto enorme em relação ao seu antecessor GLM-4.7. Veja o que tem por baixo do capô:
| Especificação | GLM-5 | GLM-4.7 (Anterior) |
|---|---|---|
| Parâmetros Totais | 745B | 355B |
| Parâmetros Ativos | 44B (MoE) | 32B |
| Configuração de Experts | 256 total / 8 ativos | — |
| Janela de Contexto | 200K tokens | 128K |
| Dados de Pré-treinamento | 28,5T tokens | 23T |
| Hardware de Treinamento | Huawei Ascend | Huawei Ascend |
| Licença | MIT (Open Source) | MIT |
A arquitetura Mixture of Experts (MoE) significa que, embora o GLM-5 tenha 745 bilhões de parâmetros no total, apenas 44 bilhões ficam ativos por inferência — mantendo-o rápido e com boa relação custo-benefício apesar da escala massiva.
Desempenho em Benchmarks: Competindo com os Melhores#
O GLM-5 não compete apenas com modelos open-source — ele enfrenta de igual para igual os modelos proprietários mais caros do planeta.
Benchmarks de Código#
| Benchmark | GLM-5 | Claude Opus 4.5 | GPT-5.2 |
|---|---|---|---|
| SWE-bench Verified | 77,8 | 80,9 | 80,0 |
| SWE-bench Multilingual | 73,3 | 77,5 | — |
| Terminal-Bench 2.0 | 56,2 | 59,3 | 54,0 |
Benchmarks de Raciocínio#
| Benchmark | GLM-5 |
|---|---|
| AIME 2026 | 92,7 |
| GPQA-Diamond | 86,0 |
| Humanity's Last Exam | 30,5 (com ferramentas: 50,4) |
Desempenho Agêntico#
| Benchmark | GLM-5 | GPT-5.2 |
|---|---|---|
| BrowseComp | 75,9 | 65,8 |
| Vending Bench 2 | US$ 4.432 (#1 open-source) | — |
| MCP-Atlas Public Set | 67,8 | — |
No BrowseComp (tarefas de navegação web), o GLM-5 na verdade supera o GPT-5.2 por uma margem significativa. Ele também alcançou uma taxa de alucinação recorde de tão baixa, segundo os testes da Z.ai.
O Que Torna o GLM-5 Especial?#
1. O Framework de Reinforcement Learning "Slime"#
O GLM-5 introduz uma infraestrutura de RL open-source inovadora chamada Slime. O treinamento de RL tradicional para modelos grandes é lento e cheio de gargalos. O Slime desacopla a geração de dados das atualizações de política, alcançando até 3x mais throughput em comparação com métodos convencionais.
Isso não é apenas um truque de treinamento — é o motivo pelo qual o GLM-5 se destaca em tarefas agênticas de longo horizonte. O framework otimiza especificamente para consistência na conclusão de tarefas, em vez de otimização superficial de métricas.
2. DeepSeek Sparse Attention (DSA)#
Pela primeira vez na série GLM, o GLM-5 integra o mecanismo de Sparse Attention da DeepSeek. Transformers tradicionais sofrem com complexidade quadrática — dobrar o comprimento do contexto quadruplica o custo computacional. O DSA quebra esse teto, permitindo que o GLM-5 lide com toda a sua janela de contexto de 200K sem a degradação de desempenho habitual.
3. Construído para Engenharia Agêntica#
Diferente de modelos otimizados para chat, o GLM-5 foi projetado especificamente para fluxos de trabalho de engenharia com múltiplas etapas. Na avaliação Vending Bench 2 (simulando um ano de operação empresarial), o GLM-5 demonstrou alocação consistente de recursos, ajuste dinâmico de estratégia e gerenciamento de risco ao longo de 365 dias simulados — ficando em #1 entre todos os modelos open-source.
4. Treinado Inteiramente em Hardware Chinês#
O GLM-5 foi treinado exclusivamente em chips Huawei Ascend usando o framework MindSpore — alcançando total independência de semicondutores fabricados nos EUA. Este é um marco significativo para a infraestrutura doméstica de IA da China e prova que modelos de fronteira podem ser construídos sem hardware NVIDIA.
Preço: 7x Mais Barato que o Claude#
É aqui que o GLM-5 fica realmente interessante para desenvolvedores:
| Modelo | Entrada (por 1M tokens) | Saída (por 1M tokens) |
|---|---|---|
| GLM-5 | US$ 0,80 – 1,00 | US$ 2,56 – 3,20 |
| Claude Opus 4.5 | US$ 5,00 | US$ 25,00 |
| GPT-5.2 | US$ 1,25 | US$ 10,00 |
O GLM-5 entrega ~90% do desempenho de código do Claude Opus 4.5 por ~14% do custo. Para equipes com alto volume de workloads de IA, a economia é enorme.
Melhor ainda: o GLM-5 está disponível atualmente de graça no Kilo Code por tempo limitado — sem chaves de API, sem assinaturas.
Como Usar o GLM-5#
Opção 1: API do OpenRouter#
O GLM-5 está disponível no OpenRouter desde 11 de fevereiro de 2026. Você pode usá-lo com qualquer ferramenta ou framework compatível com o OpenRouter.
Opção 2: Plataforma Z.ai#
Acesse o GLM-5 diretamente pela Z.ai, a plataforma oficial da Zhipu AI.
Opção 3: Kilo Code (Grátis)#
O Kilo Code oferece o GLM-5 gratuitamente durante o período de lançamento. Basta instalar a extensão do VS Code, selecionar o GLM-5 no menu de modelos e começar a programar.
Opção 4: API WaveSpeed#
O WaveSpeed oferece acesso otimizado via API com preços competitivos.
Opção 5: Self-Host (Em Breve)#
Com licença MIT e pesos disponíveis no HuggingFace e ModelScope, você poderá implantar o GLM-5 na sua própria infraestrutura. Considerando os 745B parâmetros, você vai precisar de hardware robusto — mas o design de 44B parâmetros ativos torna tudo mais viável do que você imagina.
GLM-5 vs GPT-5.2 vs Claude Opus 4.5: O Panorama Completo#
| Recurso | GLM-5 | GPT-5.2 | Claude Opus 4.5 |
|---|---|---|---|
| Parâmetros | 745B (44B ativos) | Não divulgado | Não divulgado |
| Janela de Contexto | 200K | 400K entrada / 128K saída | 200K |
| Open Source | ✅ Licença MIT | ❌ Fechado | ❌ Fechado |
| SWE-bench | 77,8 | 80,0 | 80,9 |
| BrowseComp | 75,9 | 65,8 | — |
| Terminal-Bench | 56,2 | 54,0 | 59,3 |
| Preço Entrada/1M | US$ 0,80–1,00 | US$ 1,25 | US$ 5,00 |
| Preço Saída/1M | US$ 2,56–3,20 | US$ 10,00 | US$ 25,00 |
| Hardware de Treinamento | Huawei Ascend | NVIDIA | NVIDIA |
| Tier Gratuito | ✅ (Kilo Code) | ❌ | ❌ |
O veredito: O GLM-5 é a melhor relação custo-benefício em IA neste momento. Ele não está exatamente no nível do Claude Opus 4.5 em todos os aspectos, mas chega impressionantemente perto — e é open-source, 7x mais barato e disponível de graça. Para a maioria das tarefas reais de código e raciocínio, a diferença de desempenho é insignificante.
Quem Deve Usar o GLM-5?#
- Desenvolvedores conscientes do orçamento que querem desempenho próximo da fronteira sem pagar preço de fronteira
- Defensores do open-source que preferem modelos que podem inspecionar, fazer fine-tune e hospedar por conta própria
- Construtores de IA agêntica — o desempenho do GLM-5 em tarefas de longo horizonte é genuinamente o melhor da categoria entre modelos abertos
- Equipes globais que trabalham em múltiplos idiomas (o GLM-5 tem excelente suporte multilíngue, especialmente para chinês + inglês)
- Qualquer pessoa curiosa sobre o modelo que quebrou a internet como "Pony Alpha"
Conclusão#
A Zhipu AI realizou uma das jogadas de marketing mais brilhantes da história da IA. Ao lançar o GLM-5 anonimamente como "Pony Alpha", eles deixaram o desempenho do modelo falar por si — sem hype, sem PR corporativo, apenas capacidade bruta que fez toda a comunidade de IA comentar.
O resultado? Um modelo que prova que a IA open-source pode competir com as melhores ofertas proprietárias por uma fração do custo. O GLM-5 não é perfeito — ele fica alguns pontos atrás do Claude Opus 4.5 em benchmarks de código e tem alguns problemas de latência relatados — mas a 7x mais barato com licença MIT, é uma opção incrivelmente atraente.
O cavalo saiu do estábulo. E está correndo rápido.
Quer explorar mais ferramentas de IA? Confira nosso diretório completo para as últimas novidades em ferramentas de desenvolvimento com IA, assistentes de código e muito mais.
