Releases
Kimi K2.5
Moonshot AI have released an updated version of their 1 trillion parameter open source model, Kimi K2.5.
This version departs from its previous version (and most Chinese models in general) by being a multimodal model, meaning it supports both text and image inputs.
Benchmarks show it competes with the frontier closed source models
Kimi has been known for its interesting personality and writing style, something that was unique compared to all other LLMs.
That personality has been degraded a bit (it sometimes says “You’re absolutely right!”), but this has come at better expressiveness in agentic tasks, which we can see as it sits on top of the Design Arena leaderboard.

For coding tasks it still lags behind Opus 4.5 and GPT 5.2, the two top tier models right now.
This is actually the case from what I have seen for most tasks.
On benchmarks it is in the top tier, but in the real world it is in the tier below, with models like GLM 4.7, Gemini 3 Flash, and Sonnet 4.5.
| Model | $ per million (input) | $ per million (output) | Tokens per second |
|---|
| Kimi K2.5 Thinking | $0.6 | $3 | 30 |
| Gemini 3 Flash | $0.50 | $3 | 75 |
| GLM 4.7 | $0.60 | $2.20 | 90 |
| Claude Sonnet 4.5 | $3 | $15 | 57 |
| GPT 5.2 | $1.75 | $14 | 34 |
| Claude Opus 4.5 | $5 | $25 | 64 |
Numbers from OpenRouter.
GPT 5.2 and Opus 4.5, although being the top models, are there for different reasons.
GPT 5.2 is cold and very literal, but is thorough and extremely smart.
Opus on the other hand understands user intent very well, and is great to talk to, but makes more mistakes.
I feel like the comparison is very similar for Kimi K2 and Gemini 3 Flash. Kimi is the cheaper version of Opus and Gemini is the cheaper version of GPT 5.2.
For cheap coding, I think I will still turn to GLM 4.7, but for all other tasks Kimi beats it out, which means it’s a top 5 model in the world right now.
I highly recommend checking it out if you haven’t already.
The Artificial Analysis benchmarks also corroborate its similarity to Gemini 3 Flash
Research
Skills are not enough
If you have been using any agentic coding tool (Claude Code, Cursor, etc) you have probably heard of skills.
Skills are markdown files that contain instructions for LLMs on how to do specific tasks or use certain libraries that the model may not have been trained on.
What Vercel found out is that just because you have these skills, doesn’t mean the models will use them.
By default, most frameworks will just tell the LLMs that they exist, but its up to the LLMs to actually read them when needed.

What they found was that the models will not call skills on their own unless specifically told to and even when you tell them directly in your AGENT.md they still won’t use them when needed.
They found to get agents to calls when needed properly they had to add this to their AGENTS.md file
IMPORTANT: Prefer retrieval-led reasoning over pre-training-led reasoning for any {your skill content} tasks.
{List of paths to skills files here}
This bypasses the actual skills loading and calling tools that frameworks have and instead just gives the model the direct paths to look at instead, which it understands to do much better.
This is most likely due to the fact that models are much more used to reading and looking at files, as that’s just a general coding task that they have to do, versus using the custom skill calling tools that they have in their harnesses. This goes to show the importance of utilizing things that the model has already seen a lot of versus making your own new abstraction for them to go and try and use.
Quick Hits
Genie 3 Public Release
Google’s world model Genie 3 has been released publicly.
An AI world model is basically a video game engine that generates each frame on the fly based on your inputs.
There is no game engine, code, or any other additional state that is used, it is purely an AI model.
You can give it a starting frame, or just a text description of the world that you want, and then you can interact with the world from there and it will generate it all on the fly for you as you go in real time.
A discarded pack of cigarettes in Penn Station — From Riley Goodside on Twitter
Note: to access the model you will need Google’s AI Ultra subscription, which is $125 a month for the first 3 months and then $250 a month after that.
Finish
I hope you enjoyed the news this week. If you want to get the news every week, be sure to join our mailing list below.
Ascii art by Design by Aron on Twitter Nota: Este artigo foi traduzido automaticamente com Claude Sonnet 4.5; a qualidade pode estar reduzida, especialmente na terminologia técnica.
Lançamentos
Kimi K2.5
A Moonshot AI lançou uma versão atualizada de seu modelo de código aberto de 1 trilhão de parâmetros, Kimi K2.5.
Esta versão se diferencia de sua versão anterior (e da maioria dos modelos chineses em geral) por ser um modelo multimodal, ou seja, suporta entradas de texto e imagem.
Os benchmarks mostram que ele compete com os modelos de código fechado de ponta
O Kimi é conhecido por sua personalidade interessante e estilo de escrita, algo que era único comparado a todos os outros LLMs.
Essa personalidade foi um pouco degradada (às vezes ele diz “Você está absolutamente certo!”), mas isso resultou em melhor expressividade em tarefas agênticas, o que podemos ver pelo fato de estar no topo da tabela de classificação do Design Arena.

Para tarefas de codificação, ele ainda fica atrás do Opus 4.5 e GPT 5.2, os dois modelos de primeira linha no momento.
Este é, na verdade, o caso do que tenho visto para a maioria das tarefas.
Nos benchmarks, ele está na primeira linha, mas no mundo real está na linha abaixo, com modelos como GLM 4.7, Gemini 3 Flash e Sonnet 4.5.
| Modelo | $ por milhão (entrada) | $ por milhão (saída) | Tokens por segundo |
|---|
| Kimi K2.5 Thinking | $0.6 | $3 | 30 |
| Gemini 3 Flash | $0.50 | $3 | 75 |
| GLM 4.7 | $0.60 | $2.20 | 90 |
| Claude Sonnet 4.5 | $3 | $15 | 57 |
| GPT 5.2 | $1.75 | $14 | 34 |
| Claude Opus 4.5 | $5 | $25 | 64 |
Números do OpenRouter.
GPT 5.2 e Opus 4.5, embora sejam os principais modelos, estão lá por razões diferentes.
O GPT 5.2 é frio e muito literal, mas é minucioso e extremamente inteligente.
O Opus, por outro lado, entende muito bem a intenção do usuário e é ótimo para conversar, mas comete mais erros.
Sinto que a comparação é muito similar para Kimi K2 e Gemini 3 Flash. O Kimi é a versão mais barata do Opus e o Gemini é a versão mais barata do GPT 5.2.
Para codificação barata, acho que ainda vou recorrer ao GLM 4.7, mas para todas as outras tarefas o Kimi se destaca, o que significa que é um dos 5 melhores modelos do mundo agora.
Recomendo fortemente que você o experimente se ainda não o fez.
Os benchmarks do Artificial Analysis também corroboram sua similaridade com o Gemini 3 Flash
Pesquisa
Habilidades não são suficientes
Se você tem usado alguma ferramenta de codificação agêntica (Claude Code, Cursor, etc), provavelmente já ouviu falar de habilidades.
Habilidades são arquivos markdown que contêm instruções para LLMs sobre como fazer tarefas específicas ou usar certas bibliotecas nas quais o modelo pode não ter sido treinado.
O que a Vercel descobriu é que só porque você tem essas habilidades, não significa que os modelos vão usá-las.
Por padrão, a maioria dos frameworks apenas informa aos LLMs que elas existem, mas cabe aos LLMs realmente lê-las quando necessário.

O que descobriram foi que os modelos não chamarão habilidades por conta própria, a menos que especificamente instruídos a fazê-lo, e mesmo quando você os instrui diretamente em seu AGENT.md, eles ainda não as usarão quando necessário.
Eles descobriram que para fazer os agentes chamarem quando necessário adequadamente, tiveram que adicionar isto ao arquivo AGENTS.md:
IMPORTANTE: Prefira raciocínio orientado por recuperação em vez de raciocínio orientado por pré-treinamento para quaisquer tarefas de {conteúdo de suas habilidades}.
{Lista de caminhos para arquivos de habilidades aqui}
Isso contorna o carregamento real de habilidades e as ferramentas de chamada que os frameworks têm e, em vez disso, apenas fornece ao modelo os caminhos diretos para olhar, o que ele entende fazer muito melhor.
Isso provavelmente se deve ao fato de que os modelos estão muito mais acostumados a ler e olhar arquivos, pois essa é apenas uma tarefa geral de codificação que eles têm que fazer, em vez de usar as ferramentas personalizadas de chamada de habilidades que têm em seus harnesses. Isso mostra a importância de utilizar coisas que o modelo já viu muito versus criar sua própria nova abstração para eles tentarem usar.
Destaques Rápidos
Lançamento Público do Genie 3
O modelo de mundo Genie 3 do Google foi lançado publicamente.
Um modelo de mundo de IA é basicamente um motor de videogame que gera cada quadro em tempo real com base em suas entradas.
Não há motor de jogo, código ou qualquer outro estado adicional que seja usado, é puramente um modelo de IA.
Você pode dar a ele um quadro inicial, ou apenas uma descrição de texto do mundo que você deseja, e então pode interagir com o mundo a partir daí e ele gerará tudo em tempo real para você conforme você avança.
Um maço de cigarros descartado na Penn Station — De Riley Goodside no Twitter
Nota: para acessar o modelo, você precisará da assinatura AI Ultra do Google, que custa $125 por mês nos primeiros 3 meses e depois $250 por mês.
Finalização
Espero que você tenha gostado das notícias desta semana. Se você quiser receber as notícias todas as semanas, não deixe de se inscrever em nossa lista de e-mails abaixo.
Arte ASCII por Design by Aron no Twitter Nota: Este artículo fue traducido automáticamente con Claude Sonnet 4.5; la calidad puede verse degradada, especialmente en la terminología técnica.
En resumen
- ¿Puede Kimi K2.5 superar a GPT 5.2 y Opus 4.5?
- ¿Los archivos de skills realmente ayudan a tus agentes?
- El modelo de mundo Genie 3 de Google se lanza al público
Lanzamientos
Kimi K2.5
Moonshot AI ha lanzado una versión actualizada de su modelo de código abierto de 1 billón de parámetros, Kimi K2.5.
Esta versión se aleja de su versión anterior (y de la mayoría de los modelos chinos en general) al ser un modelo multimodal, lo que significa que soporta tanto entradas de texto como de imágenes.
Los benchmarks muestran que compite con los modelos de código cerrado de vanguardia
Kimi ha sido conocido por su personalidad interesante y estilo de escritura, algo que era único en comparación con todos los demás LLMs.
Esa personalidad se ha degradado un poco (a veces dice “¡Tienes toda la razón!”), pero esto ha venido con una mejor expresividad en tareas agénticas, lo cual podemos ver ya que se sitúa en la cima de la tabla de clasificación de Design Arena.

Para tareas de programación todavía va por detrás de Opus 4.5 y GPT 5.2, los dos modelos de primer nivel en este momento.
Este es en realidad el caso de lo que he visto para la mayoría de las tareas.
En benchmarks está en el nivel superior, pero en el mundo real está en el nivel inferior, con modelos como GLM 4.7, Gemini 3 Flash, y Sonnet 4.5.
| Modelo | $ por millón (entrada) | $ por millón (salida) | Tokens por segundo |
|---|
| Kimi K2.5 Thinking | $0.6 | $3 | 30 |
| Gemini 3 Flash | $0.50 | $3 | 75 |
| GLM 4.7 | $0.60 | $2.20 | 90 |
| Claude Sonnet 4.5 | $3 | $15 | 57 |
| GPT 5.2 | $1.75 | $14 | 34 |
| Claude Opus 4.5 | $5 | $25 | 64 |
Datos de OpenRouter.
GPT 5.2 y Opus 4.5, aunque siendo los modelos superiores, están ahí por diferentes razones.
GPT 5.2 es frío y muy literal, pero es exhaustivo y extremadamente inteligente.
Opus por otro lado entiende muy bien la intención del usuario, y es genial para conversar, pero comete más errores.
Siento que la comparación es muy similar para Kimi K2 y Gemini 3 Flash. Kimi es la versión más económica de Opus y Gemini es la versión más económica de GPT 5.2.
Para programación económica, creo que aún recurriré a GLM 4.7, pero para todas las demás tareas Kimi lo supera, lo que significa que es un modelo top 5 en el mundo en este momento.
Recomiendo encarecidamente que lo pruebes si aún no lo has hecho.
Los benchmarks de Artificial Analysis también corroboran su similitud con Gemini 3 Flash
Investigación
Los skills no son suficientes
Si has estado usando alguna herramienta de programación agéntica (Claude Code, Cursor, etc) probablemente hayas oído hablar de los skills.
Los skills son archivos markdown que contienen instrucciones para LLMs sobre cómo realizar tareas específicas o usar ciertas bibliotecas en las que el modelo puede no haber sido entrenado.
Lo que Vercel descubrió es que solo porque tengas estos skills, no significa que los modelos los vayan a usar.
Por defecto, la mayoría de los frameworks simplemente le dicen a los LLMs que existen, pero depende de los LLMs leerlos realmente cuando sea necesario.

Lo que encontraron fue que los modelos no llamarán a los skills por sí mismos a menos que se les diga específicamente e incluso cuando se les dice directamente en su AGENT.md todavía no los usarán cuando sea necesario.
Descubrieron que para lograr que los agentes llamen cuando sea necesario adecuadamente tenían que agregar esto a su archivo AGENTS.md
IMPORTANTE: Prefiere el razonamiento guiado por recuperación sobre el razonamiento guiado por pre-entrenamiento para cualquier tarea de {contenido de tu skill}.
{Lista de rutas a archivos de skills aquí}
Esto evita las herramientas reales de carga y llamada de skills que tienen los frameworks y en su lugar simplemente le da al modelo las rutas directas para mirar, lo cual entiende hacer mucho mejor.
Esto es muy probablemente debido al hecho de que los modelos están mucho más acostumbrados a leer y mirar archivos, ya que esa es solo una tarea general de programación que tienen que hacer, versus usar las herramientas personalizadas de llamada de skills que tienen en sus arneses. Esto demuestra la importancia de utilizar cosas que el modelo ya ha visto mucho versus hacer tu propia nueva abstracción para que ellos vayan e intenten usar.
Titulares Rápidos
Lanzamiento Público de Genie 3
El modelo de mundo Genie 3 de Google ha sido lanzado públicamente.
Un modelo de mundo de IA es básicamente un motor de videojuegos que genera cada fotograma sobre la marcha basándose en tus entradas.
No hay motor de juego, código, o cualquier otro estado adicional que se use, es puramente un modelo de IA.
Puedes darle un fotograma inicial, o simplemente una descripción de texto del mundo que quieres, y luego puedes interactuar con el mundo desde ahí y generará todo sobre la marcha para ti a medida que avanzas en tiempo real.
Un paquete de cigarrillos descartado en Penn Station — De Riley Goodside en Twitter
Nota: para acceder al modelo necesitarás la suscripción AI Ultra de Google, que cuesta $125 al mes durante los primeros 3 meses y luego $250 al mes después de eso.
Final
Espero que hayas disfrutado las noticias de esta semana. Si quieres recibir las noticias cada semana, asegúrate de unirte a nuestra lista de correo a continuación.
Arte ascii por Design by Aron en Twitter