GLM-5 Pony Alpha: IA Open-Source da Zhipu AI vs Claude e GPT

Para a última semana, a comunidade de IA ficou obcecada com um mistério. Um modelo furtivo chamado "Pony Alpha" apareceu no OpenRouter em 6 de fevereiro de 2026 — sem marca, sem nome de empresa, apenas desempenho bruto que deixou desenvolvedores enlouquecidos no Reddit.

Agora o segredo foi revelado: Pony Alpha é o GLM-5, o modelo flagship de próxima geração da Zhipu AI (Z.ai), e é um dos modelos de IA open-source mais impressionantes já lançados.

O Grande Mistério da IA: O Que Era o Pony Alpha?#

Quando o Pony Alpha apareceu pela primeira vez no OpenRouter, ninguém sabia de onde vinha. Mas as pistas estavam lá:

O momento do lançamento coincidiu com o anúncio da Zhipu AI de que o GLM-5 seria lançado por volta do Ano Novo Chinês
O estilo de saída correspondia à série GLM
Quando questionado sobre suas origens, o modelo se identificou como um modelo GLM desenvolvido pela Zhipu
"Pony" faz referência ao Ano do Cavalo no zodíaco chinês — uma brincadeira da equipe

Threads no Reddit explodiram com especulações. Seria o DeepSeek V4? Um experimento secreto da OpenAI? A revelação fez as ações da Zhipu AI dispararem 60% em dois dias, elevando seu valor de mercado para mais de HKD 150 bilhões (~US$ 19 bilhões).

GLM-5 em Números#

O GLM-5 representa um salto enorme em relação ao seu antecessor GLM-4.7. Veja o que tem por baixo do capô:

Especificação	GLM-5	GLM-4.7 (Anterior)
Parâmetros Totais	745B	355B
Parâmetros Ativos	44B (MoE)	32B
Configuração de Experts	256 total / 8 ativos	—
Janela de Contexto	200K tokens	128K
Dados de Pré-treinamento	28,5T tokens	23T
Hardware de Treinamento	Huawei Ascend	Huawei Ascend
Licença	MIT (Open Source)	MIT

A arquitetura Mixture of Experts (MoE) significa que, embora o GLM-5 tenha 745 bilhões de parâmetros no total, apenas 44 bilhões ficam ativos por inferência — mantendo-o rápido e com boa relação custo-benefício apesar da escala massiva.

Desempenho em Benchmarks: Competindo com os Melhores#

O GLM-5 não compete apenas com modelos open-source — ele enfrenta de igual para igual os modelos proprietários mais caros do planeta.

Benchmarks de Código#

Benchmark	GLM-5	Claude Opus 4.5	GPT-5.2
SWE-bench Verified	77,8	80,9	80,0
SWE-bench Multilingual	73,3	77,5	—
Terminal-Bench 2.0	56,2	59,3	54,0

Benchmarks de Raciocínio#

Benchmark	GLM-5
AIME 2026	92,7
GPQA-Diamond	86,0
Humanity's Last Exam	30,5 (com ferramentas: 50,4)

Desempenho Agêntico#

Benchmark	GLM-5	GPT-5.2
BrowseComp	75,9	65,8
Vending Bench 2	US$ 4.432 (#1 open-source)	—
MCP-Atlas Public Set	67,8	—

No BrowseComp (tarefas de navegação web), o GLM-5 na verdade supera o GPT-5.2 por uma margem significativa. Ele também alcançou uma taxa de alucinação recorde de tão baixa, segundo os testes da Z.ai.

O Que Torna o GLM-5 Especial?#

1. O Framework de Reinforcement Learning "Slime"#

O GLM-5 introduz uma infraestrutura de RL open-source inovadora chamada Slime. O treinamento de RL tradicional para modelos grandes é lento e cheio de gargalos. O Slime desacopla a geração de dados das atualizações de política, alcançando até 3x mais throughput em comparação com métodos convencionais.

Isso não é apenas um truque de treinamento — é o motivo pelo qual o GLM-5 se destaca em tarefas agênticas de longo horizonte. O framework otimiza especificamente para consistência na conclusão de tarefas, em vez de otimização superficial de métricas.

2. DeepSeek Sparse Attention (DSA)#

Pela primeira vez na série GLM, o GLM-5 integra o mecanismo de Sparse Attention da DeepSeek. Transformers tradicionais sofrem com complexidade quadrática — dobrar o comprimento do contexto quadruplica o custo computacional. O DSA quebra esse teto, permitindo que o GLM-5 lide com toda a sua janela de contexto de 200K sem a degradação de desempenho habitual.

3. Construído para Engenharia Agêntica#

Diferente de modelos otimizados para chat, o GLM-5 foi projetado especificamente para fluxos de trabalho de engenharia com múltiplas etapas. Na avaliação Vending Bench 2 (simulando um ano de operação empresarial), o GLM-5 demonstrou alocação consistente de recursos, ajuste dinâmico de estratégia e gerenciamento de risco ao longo de 365 dias simulados — ficando em #1 entre todos os modelos open-source.

4. Treinado Inteiramente em Hardware Chinês#

O GLM-5 foi treinado exclusivamente em chips Huawei Ascend usando o framework MindSpore — alcançando total independência de semicondutores fabricados nos EUA. Este é um marco significativo para a infraestrutura doméstica de IA da China e prova que modelos de fronteira podem ser construídos sem hardware NVIDIA.

Preço: 7x Mais Barato que o Claude#

É aqui que o GLM-5 fica realmente interessante para desenvolvedores:

Modelo	Entrada (por 1M tokens)	Saída (por 1M tokens)
GLM-5	US$ 0,80 – 1,00	US$ 2,56 – 3,20
Claude Opus 4.5	US$ 5,00	US$ 25,00
GPT-5.2	US$ 1,25	US$ 10,00

O GLM-5 entrega ~90% do desempenho de código do Claude Opus 4.5 por ~14% do custo. Para equipes com alto volume de workloads de IA, a economia é enorme.

Melhor ainda: o GLM-5 está disponível atualmente de graça no Kilo Code por tempo limitado — sem chaves de API, sem assinaturas.

Como Usar o GLM-5#

Opção 1: API do OpenRouter#

O GLM-5 está disponível no OpenRouter desde 11 de fevereiro de 2026. Você pode usá-lo com qualquer ferramenta ou framework compatível com o OpenRouter.

Opção 2: Plataforma Z.ai#

Acesse o GLM-5 diretamente pela Z.ai, a plataforma oficial da Zhipu AI.

Opção 3: Kilo Code (Grátis)#

O Kilo Code oferece o GLM-5 gratuitamente durante o período de lançamento. Basta instalar a extensão do VS Code, selecionar o GLM-5 no menu de modelos e começar a programar.

Opção 4: API WaveSpeed#

O WaveSpeed oferece acesso otimizado via API com preços competitivos.

Opção 5: Self-Host (Em Breve)#

Com licença MIT e pesos disponíveis no HuggingFace e ModelScope, você poderá implantar o GLM-5 na sua própria infraestrutura. Considerando os 745B parâmetros, você vai precisar de hardware robusto — mas o design de 44B parâmetros ativos torna tudo mais viável do que você imagina.

GLM-5 vs GPT-5.2 vs Claude Opus 4.5: O Panorama Completo#

Recurso	GLM-5	GPT-5.2	Claude Opus 4.5
Parâmetros	745B (44B ativos)	Não divulgado	Não divulgado
Janela de Contexto	200K	400K entrada / 128K saída	200K
Open Source	✅ Licença MIT	❌ Fechado	❌ Fechado
SWE-bench	77,8	80,0	80,9
BrowseComp	75,9	65,8	—
Terminal-Bench	56,2	54,0	59,3
Preço Entrada/1M	US$ 0,80–1,00	US$ 1,25	US$ 5,00
Preço Saída/1M	US$ 2,56–3,20	US$ 10,00	US$ 25,00
Hardware de Treinamento	Huawei Ascend	NVIDIA	NVIDIA
Tier Gratuito	✅ (Kilo Code)	❌	❌

O veredito: O GLM-5 é a melhor relação custo-benefício em IA neste momento. Ele não está exatamente no nível do Claude Opus 4.5 em todos os aspectos, mas chega impressionantemente perto — e é open-source, 7x mais barato e disponível de graça. Para a maioria das tarefas reais de código e raciocínio, a diferença de desempenho é insignificante.

Quem Deve Usar o GLM-5?#

Desenvolvedores conscientes do orçamento que querem desempenho próximo da fronteira sem pagar preço de fronteira
Defensores do open-source que preferem modelos que podem inspecionar, fazer fine-tune e hospedar por conta própria
Construtores de IA agêntica — o desempenho do GLM-5 em tarefas de longo horizonte é genuinamente o melhor da categoria entre modelos abertos
Equipes globais que trabalham em múltiplos idiomas (o GLM-5 tem excelente suporte multilíngue, especialmente para chinês + inglês)
Qualquer pessoa curiosa sobre o modelo que quebrou a internet como "Pony Alpha"

Conclusão#

A Zhipu AI realizou uma das jogadas de marketing mais brilhantes da história da IA. Ao lançar o GLM-5 anonimamente como "Pony Alpha", eles deixaram o desempenho do modelo falar por si — sem hype, sem PR corporativo, apenas capacidade bruta que fez toda a comunidade de IA comentar.

O resultado? Um modelo que prova que a IA open-source pode competir com as melhores ofertas proprietárias por uma fração do custo. O GLM-5 não é perfeito — ele fica alguns pontos atrás do Claude Opus 4.5 em benchmarks de código e tem alguns problemas de latência relatados — mas a 7x mais barato com licença MIT, é uma opção incrivelmente atraente.

O cavalo saiu do estábulo. E está correndo rápido.

Quer explorar mais ferramentas de IA? Confira nosso diretório completo para as últimas novidades em ferramentas de desenvolvimento com IA, assistentes de código e muito mais.