News
Sweden PM uses ChatGPT
Recently the Swedish prime minister addmitted to using ChatGPT “quite often” when in need of a second opinion or historical information. While he says he does not upload any documents, and that he uses it in a similar way that doctors do to gain more perspectives.
This comes on the heels of many AI labs lobbying to get used more in federal systems.
This week OpenAI announced that each US federal agency can use ChatGPT for free for just $1 per agency.
Anthropic has also publically announced that they have already trained models specific for national security customers, and that any other agencies can request access to it as well.
America runs on Dunkin, and Sweden on ChatGPT
Releases
GPT 5
The much anticipated GPT 5 has been released by OpenAI, not without its fair share of controversy.
The announcement stream had a variety of issues, most obvious were the heinous chart crimes, including a very ironic mislabeling of the deception score.
52.8 > 69.1 == 30.8 - We all can’t be math majors guys
Their model naming hasn’t improved much either.
This is gonna take me a while to remember
When using ChatGPT with GPT5, your queries will now be automatically routed to the model that they think will be best to answer your question, much to the chagrin of many users. What didn’t help was that on release day, the model routing was broken, so users were being given the lower performing models when asking complex queries, resulting in poor answers.
Getting passed all of the launch day shenanigans, are the models actually good to use? The answer so far seems to be yes.
For the casual user of ChatGPT (non technical and free plan users), they will see a large bump in quality from the over 1 year old GPT 4o and 4o mini that they are used to. This also comes with a reduction in glazing from the model, to hopefully prevent less users from experiencing ChatGPT psychosis.
For the more experienced users, this seems to be a bit of a quality bump from the other models on the market. Most notably is that for coding, it seems to be a potential step up from Claude Sonnet while being 33% cheaper. It is better at follwing exact instructions than Sonnet is and is capable of pushing back on design decisions when needed.
Where is has been reported to fall short is on pure vibe coding, as it does not appear to do as well on vague prompts as Sonnet does. So if you are a Software Engineer that knows what they want, GPT 5 will be a precision instrument that you can use, while if you like vibe coding and letting the model figure it out, then you are best off sticking with what you are using now.
Finally, there has been a surprising amount of pushback from the general populace on the sudden disappearance of GPT 4o, with many equating it to losing a friend. This has caused OpenAI to reinstate the model on the ChatGPT site as an option for people to use. Remember kids, not your weights, not your waifu.
Google Genie-3
Google has released their third iteration of their world generation model called Genie-3.
This model will generate custom environments that you are able to go and then walk around in, and that it will go and generate the terrain and objects within it on the fly for you.
Normally, models like this really struggled with object permeance.
So once an object went out of your line of sight, when you looked back in that direction, the object no longer be there or it would be changed.
This model no longer has that issue.
They have, according to them, an emerging capability of remembering objects and their locations previously for up to a minute.
Genie 3 generation of some Greek ruins, remember this is a real time AI generated video, not a premade map or world we are walking around in
OpenAI gpt-oss
GPT-5 wasn’t the only big release OpenAI had this week. They also released their first open-source LLM since GPT-2. The gpt-oss series of models comes in two sizes, 20 billion parameters and 120 billion parameters, both being a mixture of experts models with 3 billion active and 5 billion active parameters, respectively.
The models benchmark well, but the general sentiment for their actual quality is poor.
These models have been trained on what appears to be a purely synthetic dataset, lacking essentially zero world knowledge.
They are very good at coding and math, but outside of these fields they struggle and their lack of diversity in their pre-training dataset really shows.
They have almost rigid boundaries in terms of knowledge, resulting in very weird failure modes.
People have been reporting that for even non-coding questions, the models will hallucinate a coding question in your input and try and figure it out themselves.
Also thanks to its purely synthetic data training, the model hallucinates more than almost any other model out there, with a SimpleQA score in the low single digits, a benchmark that OpenAI made.
This is very similar in behavior to the Phi series of models from Microsoft, which are known to be purely synthetic dataset-trained models.
These models perform well in reasoning and STEM, and other STEM fields, but for any other use case, they fail miserably.
Even if it weren’t for these models’ rigidness, they still wouldn’t be my choice for their given sizes.
The recently refreshed Qwen3 30B MOE model has similar speeds and also similar performance while not having the catastrophic failure cases that gpt-oss has.
And then for the 120B parameter model, the GLM Air model also competes directly with that within a few percent on pretty much every benchmark, even exceeding gpt-oss for agentic applications.
But hey, look on the bright side, you can now force the model to never output an em-dash ever again.
Speed Round
Useful tools or topics I found this week that may or not be AI related, but I didn’t have time to write a full section about.
Qwen
Qwen has been releasing so much stuff that they get to have their own section now.
Qwen Image
A new 20B param image generation model from the Qwen team, has very good prompt instruction following, but I find the actual image quality to be a little bit behind the top models in terms of the “AI” look that it has.
Prompt: Amateur POV Selfie: A man’s face is half-submerged as he takes a selfie in a murky swamp. Just behind his head, the two eyes and snout of a large alligator are visible on the water’s surface. He hasn’t noticed yet. - From Reddit
Qwen3 4B update
The Qwen LLM team has continued their post training refresh of their Qwen3 models, with two new 4B param models coming out this week.
Of note there is no coder version like there was for the other two refreshes, but this does make sense as coding is a very difficult task, especially for the smaller models.
We are starting to see what sizes of models they seems to care about and think have the most impact, being the large 235B model, the 30B MoE model, and now the small 4B model.

Qwen Coder is now free
Qwen has their own Claude Code TUI competitor built on top of the Gemini TUI (not confusing at all),
And like Gemini, they are offering access to their model for free, giving not just 1000, but 2000 requests everyday for free when you log in with your Qwen account.
It follows the same privacy policy as Google, so they will be training on your code, but if you are okay with that then this is a great option to go and use.
Opus 4.1
Small version bump of the already top tier Opus 4 model, performance is slightly improved across the board, but nothing revolutionary.
Anthropic says that they will have “substantially larger improvements” coming in the next few weeks.
RedNote OCR model
The TikTok of China has released has an AI lab, and they have just released a SOTA VLM for general purpose OCR and image understanding. Only 1.7B params, so it should be feasible to run on the edge.
ElevenLabs Music
New music model from Eleven labs. Seems to be a step up from Suno, also allows for editing sound, lyrics, or entire sections of the songs you make. See an example of how to use it here.
Lightweight deep research model
We had previously converted a similar model called Jan a few weeks ago, and now there is competition in the space as former Stability AI founder Emad Mostaque’s new startup Intelligent Internet has released their own version that outperforms Jan by quite a large margin, especially on harder research tasks.
All the data for training and how they did it is open source.
I can see these small, on-device, personal agents being the future, as they allow for easy customizability and also users can give them access to private information without having to worry about someone else having it.
This sentiment is also echo’d by Nvidia in a recent paper they released, highlighting how small language models(SLMs) will be cheaper and faster while still being just as capable in most real world tasks.
Kitten TTS model
Kokoro TTS’s 70M params are just too much for your old Raspberry Pi? Well worry no longer, as there is now an even smaller TTS model called Kitten TTS which is only 15M params.
The voices are definitely worse than Kokoro, but still very much passable, especially if you are extremely resource constrained or care about having the lowest latency possible.
Fully AI run companies in the wild
In the future there will probably be thousands of AI companies running around, but right now there are very few. Here you can watch one person on TikTok figure out that they are a part of a company where all their coworkers and bosses are just different AI agents.
The videos seem fairly convincing, and even if it is fake, there will be something like this in the future that’s not.
MCP RL
Have an MCP server that your agent is struggling to figure out how to use? Now you can use reinforcement learning to fine tune your agent to use your server, no data required. Just give the connection to the server, and the agent will “play around with it” to learn how to use it most effectively.
Gemini is free for students
2.5 pro access, notebook LM, deep research, and 2TB of storage all included for free. All you need is a .edu email. Everyone say thanks Sundar.
Finish
I hope you enjoyed the news this week. If you want to get the news every week, be sure to join our mailing list below.
Nota: Este artigo foi traduzido automaticamente com Claude Sonnet 4.5; a qualidade pode estar reduzida, especialmente na terminologia técnica.
Notícias
Primeiro-ministro da Suécia usa ChatGPT
Recentemente, o primeiro-ministro sueco admitiu usar o ChatGPT “com bastante frequência” quando precisa de uma segunda opinião ou informações históricas. Embora ele diga que não faz upload de documentos, e que o usa de forma similar aos médicos para obter mais perspectivas.
Isso acontece após vários laboratórios de IA fazerem lobby para serem mais utilizados em sistemas federais.
Esta semana a OpenAI anunciou que cada agência federal dos EUA pode usar o ChatGPT gratuitamente por apenas $1 por agência.
A Anthropic também anunciou publicamente que já treinou modelos específicos para clientes de segurança nacional, e que quaisquer outras agências podem solicitar acesso a ele também.
A América funciona com Dunkin, e a Suécia com ChatGPT
Lançamentos
GPT 5
O muito aguardado GPT 5 foi lançado pela OpenAI, não sem sua boa dose de controvérsia.
A transmissão do anúncio teve uma variedade de problemas, sendo os mais óbvios os crimes hediondos com gráficos, incluindo uma rotulagem incorreta muito irônica da pontuação de engano.
52.8 > 69.1 == 30.8 - Nem todos podemos ser formados em matemática, pessoal
A nomenclatura dos modelos também não melhorou muito.
Isso vai me levar um tempo para decorar
Ao usar o ChatGPT com GPT5, suas consultas agora serão automaticamente roteadas para o modelo que eles acham que será melhor para responder sua pergunta, para grande desgosto de muitos usuários. O que não ajudou foi que no dia do lançamento, o roteamento do modelo estava quebrado, então os usuários estavam recebendo os modelos de menor desempenho ao fazer consultas complexas, resultando em respostas ruins.
Passando todas as confusões do dia de lançamento, os modelos são realmente bons de usar? A resposta até agora parece ser sim.
Para o usuário casual do ChatGPT (usuários não técnicos e de plano gratuito), eles verão um grande aumento na qualidade em relação ao GPT 4o e 4o mini de mais de 1 ano atrás que estavam acostumados. Isso também vem com uma redução na adulação do modelo, para evitar que menos usuários experimentem a psicose do ChatGPT.
Para os usuários mais experientes, isso parece ser um pequeno aumento de qualidade em relação aos outros modelos do mercado. Mais notavelmente é que para codificação, parece ser um potencial avanço em relação ao Claude Sonnet sendo 33% mais barato. É melhor em seguir instruções exatas do que o Sonnet e é capaz de questionar decisões de design quando necessário.
Onde foi relatado que ele fica aquém é na codificação puramente intuitiva, pois não parece se sair tão bem em prompts vagos quanto o Sonnet. Então, se você é um Engenheiro de Software que sabe o que quer, o GPT 5 será um instrumento de precisão que você pode usar, enquanto se você gosta de codificação intuitiva e deixar o modelo descobrir, então é melhor continuar com o que você está usando agora.
Finalmente, houve uma quantidade surpreendente de resistência da população em geral quanto ao desaparecimento repentino do GPT 4o, com muitos equiparando isso a perder um amigo. Isso fez com que a OpenAI restabelecesse o modelo no site do ChatGPT como uma opção para as pessoas usarem. Lembrem-se crianças, se não são seus pesos, não é sua waifu.
Google Genie-3
O Google lançou sua terceira iteração de seu modelo de geração de mundos chamado Genie-3.
Este modelo gerará ambientes personalizados nos quais você poderá andar, e ele irá gerar o terreno e os objetos dentro dele em tempo real para você.
Normalmente, modelos como este realmente lutavam com a permanência de objetos.
Então, uma vez que um objeto saía de sua linha de visão, quando você olhava de volta naquela direção, o objeto não estaria mais lá ou estaria mudado.
Este modelo não tem mais esse problema.
Eles têm, de acordo com eles, uma capacidade emergente de lembrar objetos e suas localizações anteriormente por até um minuto.
Geração do Genie 3 de algumas ruínas gregas, lembre-se de que este é um vídeo gerado por IA em tempo real, não um mapa ou mundo pré-fabricado no qual estamos andando
OpenAI gpt-oss
O GPT-5 não foi o único grande lançamento da OpenAI esta semana. Eles também lançaram seu primeiro LLM de código aberto desde o GPT-2. A série de modelos gpt-oss vem em dois tamanhos, 20 bilhões de parâmetros e 120 bilhões de parâmetros, ambos sendo modelos de mistura de especialistas com 3 bilhões ativos e 5 bilhões de parâmetros ativos, respectivamente.
Os modelos têm bom desempenho em benchmarks, mas o sentimento geral quanto à sua qualidade real é ruim.
Esses modelos foram treinados no que parece ser um conjunto de dados puramente sintético, faltando essencialmente zero conhecimento do mundo.
Eles são muito bons em codificação e matemática, mas fora desses campos eles lutam e sua falta de diversidade em seu conjunto de dados de pré-treinamento realmente mostra.
Eles têm limites quase rígidos em termos de conhecimento, resultando em modos de falha muito estranhos.
As pessoas relataram que mesmo para perguntas que não são de codificação, os modelos vão alucinar uma pergunta de codificação em sua entrada e tentar resolvê-la sozinhos.
Também graças ao seu treinamento de dados puramente sintéticos, o modelo alucina mais do que quase qualquer outro modelo por aí, com uma pontuação SimpleQA na faixa de um dígito baixo, um benchmark que a OpenAI criou.
Isso é muito similar em comportamento à série Phi de modelos da Microsoft, que são conhecidos por serem modelos treinados em conjuntos de dados puramente sintéticos.
Esses modelos têm bom desempenho em raciocínio e STEM, e outros campos STEM, mas para qualquer outro caso de uso, eles falham miseravelmente.
Mesmo que não fosse pela rigidez desses modelos, eles ainda não seriam minha escolha para seus tamanhos dados.
O modelo Qwen3 30B MOE recentemente atualizado tem velocidades similares e também desempenho similar sem ter os casos de falha catastrófica que o gpt-oss tem.
E então para o modelo de 120B parâmetros, o modelo GLM Air também compete diretamente com isso dentro de alguns pontos percentuais em praticamente todos os benchmarks, até mesmo superando o gpt-oss para aplicações agênticas.
Mas ei, olhe pelo lado bom, você agora pode forçar o modelo a nunca produzir um travessão novamente.
Rodada Rápida
Ferramentas ou tópicos úteis que encontrei esta semana que podem ou não estar relacionados à IA, mas não tive tempo de escrever uma seção completa sobre.
Qwen
A Qwen tem lançado tantas coisas que agora tem sua própria seção.
Qwen Image
Um novo modelo de geração de imagens de 20B de parâmetros da equipe Qwen, tem muito bom seguimento de instruções de prompt, mas acho que a qualidade real da imagem está um pouco atrás dos principais modelos em termos da aparência “IA” que ela tem.
Prompt: Selfie POV Amadora: O rosto de um homem está meio submerso enquanto ele tira uma selfie em um pântano turvo. Logo atrás de sua cabeça, os dois olhos e o focinho de um grande jacaré estão visíveis na superfície da água. Ele ainda não percebeu. - Do Reddit
Atualização do Qwen3 4B
A equipe LLM da Qwen continuou sua atualização de pós-treinamento de seus modelos Qwen3, com dois novos modelos de 4B parâmetros saindo esta semana.
Vale notar que não há versão coder como havia para as outras duas atualizações, mas isso faz sentido, pois codificação é uma tarefa muito difícil, especialmente para modelos menores.
Estamos começando a ver quais tamanhos de modelos eles parecem se importar e acham que têm mais impacto, sendo o grande modelo de 235B, o modelo MoE de 30B e agora o pequeno modelo de 4B.

Qwen Coder agora é gratuito
A Qwen tem seu próprio concorrente TUI do Claude Code construído em cima do Gemini TUI (nada confuso),
E como o Gemini, eles estão oferecendo acesso ao seu modelo gratuitamente, dando não apenas 1000, mas 2000 requisições todos os dias gratuitamente quando você faz login com sua conta Qwen.
Ele segue a mesma política de privacidade do Google, então eles vão treinar em seu código, mas se você está de acordo com isso, então esta é uma ótima opção para usar.
Opus 4.1
Pequeno aumento de versão do já excelente modelo Opus 4, o desempenho está ligeiramente melhorado em geral, mas nada revolucionário.
A Anthropic diz que terá “melhorias substancialmente maiores” chegando nas próximas semanas.
Modelo OCR da RedNote
O TikTok da China lançou um laboratório de IA, e eles acabaram de lançar um VLM SOTA para OCR de propósito geral e compreensão de imagens. Apenas 1.7B de parâmetros, então deve ser viável executar na borda.
ElevenLabs Music
Novo modelo de música da Eleven labs. Parece ser um avanço em relação ao Suno, também permite editar som, letras ou seções inteiras das músicas que você cria. Veja um exemplo de como usá-lo aqui.
Modelo de pesquisa profunda leve
Tínhamos convertido anteriormente um modelo similar chamado Jan algumas semanas atrás, e agora há concorrência no espaço, pois a nova startup do ex-fundador da Stability AI Emad Mostaque, Intelligent Internet, lançou sua própria versão que supera o Jan por uma margem bastante grande, especialmente em tarefas de pesquisa mais difíceis.
Todos os dados para treinamento e como eles fizeram são de código aberto.
Posso ver esses pequenos agentes pessoais em dispositivos sendo o futuro, pois eles permitem fácil personalização e também os usuários podem dar a eles acesso a informações privadas sem ter que se preocupar com outra pessoa tendo acesso a elas.
Este sentimento também é ecoado pela Nvidia em um artigo recente que eles lançaram, destacando como modelos de linguagem pequenos (SLMs) serão mais baratos e rápidos enquanto ainda sendo tão capazes na maioria das tarefas do mundo real.
Modelo TTS Kitten
Os 70M de parâmetros do Kokoro TTS são demais para seu velho Raspberry Pi? Bem, não se preocupe mais, pois agora há um modelo TTS ainda menor chamado Kitten TTS que tem apenas 15M de parâmetros.
As vozes são definitivamente piores que o Kokoro, mas ainda muito aceitáveis, especialmente se você está extremamente restrito em recursos ou se importa em ter a menor latência possível.
Empresas totalmente gerenciadas por IA na natureza
No futuro provavelmente haverá milhares de empresas de IA rodando por aí, mas agora existem muito poucas. Aqui você pode assistir uma pessoa no TikTok descobrir que faz parte de uma empresa onde todos os seus colegas e chefes são apenas agentes de IA diferentes.
Os vídeos parecem bastante convincentes, e mesmo que seja falso, haverá algo assim no futuro que não é.
MCP RL
Tem um servidor MCP que seu agente está lutando para descobrir como usar? Agora você pode usar aprendizado por reforço para ajustar fino seu agente para usar seu servidor, nenhum dado necessário. Apenas dê a conexão ao servidor, e o agente vai “brincar com ele” para aprender como usá-lo mais efetivamente.
Gemini é gratuito para estudantes
Acesso ao 2.5 pro, notebook LM, pesquisa profunda e 2TB de armazenamento tudo incluído gratuitamente. Tudo que você precisa é um email .edu. Todos digam obrigado Sundar.
Conclusão
Espero que você tenha gostado das notícias desta semana. Se você quer receber as notícias toda semana, não deixe de se juntar à nossa lista de e-mails abaixo.
Nota: Este artículo fue traducido automáticamente con Claude Sonnet 4.5; la calidad puede verse degradada, especialmente en la terminología técnica.
Noticias
El primer ministro de Suecia usa ChatGPT
Recientemente, el primer ministro sueco admitió usar ChatGPT “bastante seguido” cuando necesita una segunda opinión o información histórica. Aunque dice que no sube ningún documento, y que lo usa de manera similar a como lo hacen los médicos para obtener más perspectivas.
Esto ocurre tras varios laboratorios de IA que han estado presionando para ser utilizados más en los sistemas federales.
Esta semana OpenAI anunció que cada agencia federal de EE.UU. puede usar ChatGPT gratis por solo $1 por agencia.
Anthropic también anunció públicamente que ya han entrenado modelos específicos para clientes de seguridad nacional, y que cualquier otra agencia puede solicitar acceso también.
América funciona con Dunkin, y Suecia con ChatGPT
Lanzamientos
GPT 5
El muy anticipado GPT 5 ha sido lanzado por OpenAI, no sin su buena dosis de controversia.
La transmisión del anuncio tuvo una variedad de problemas, siendo los más obvios los atroces crímenes en los gráficos, incluyendo un muy irónico etiquetado incorrecto de la puntuación de engaño.
52.8 > 69.1 == 30.8 - No todos podemos ser expertos en matemáticas, chicos
Su nomenclatura de modelos tampoco ha mejorado mucho.
Esto me va a tomar un tiempo recordarlo
Al usar ChatGPT con GPT5, tus consultas ahora serán automáticamente dirigidas al modelo que ellos crean que será mejor para responder tu pregunta, para consternación de muchos usuarios. Lo que no ayudó fue que el día del lanzamiento, el enrutamiento del modelo estaba roto, por lo que los usuarios estaban recibiendo los modelos de menor rendimiento al hacer consultas complejas, resultando en respuestas pobres.
Dejando de lado todas las travesuras del día de lanzamiento, ¿los modelos son realmente buenos de usar? La respuesta hasta ahora parece ser sí.
Para el usuario casual de ChatGPT (usuarios no técnicos y de plan gratuito), verán un gran aumento en calidad desde el GPT 4o y 4o mini de hace más de 1 año al que están acostumbrados. Esto también viene con una reducción en la adulación del modelo, para prevenir con suerte que menos usuarios experimenten la psicosis de ChatGPT.
Para los usuarios más experimentados, esto parece ser un ligero aumento de calidad respecto a los otros modelos del mercado. Lo más notable es que para programación, parece ser un potencial paso adelante respecto a Claude Sonnet mientras es 33% más barato. Es mejor siguiendo instrucciones exactas de lo que es Sonnet y es capaz de objetar decisiones de diseño cuando es necesario.
Donde se ha reportado que falla es en la programación pura por vibra, ya que no parece desempeñarse tan bien con prompts vagos como lo hace Sonnet. Así que si eres un ingeniero de software que sabe lo que quiere, GPT 5 será un instrumento de precisión que puedes usar, mientras que si te gusta programar por vibra y dejar que el modelo lo resuelva, entonces es mejor que te quedes con lo que estás usando ahora.
Finalmente, ha habido una cantidad sorprendente de rechazo de la población general sobre la repentina desaparición de GPT 4o, con muchos equiparándolo a perder un amigo. Esto ha causado que OpenAI restablezca el modelo en el sitio de ChatGPT como una opción para que las personas lo usen. Recuerden niños, si no son tus pesos, no es tu waifu.
Google Genie-3
Google ha lanzado su tercera iteración de su modelo de generación de mundos llamado Genie-3.
Este modelo generará entornos personalizados en los que puedes ir y caminar, y que generará el terreno y los objetos dentro de él sobre la marcha para ti.
Normalmente, modelos como este realmente luchaban con la permanencia de objetos.
Así que una vez que un objeto salía de tu línea de visión, cuando mirabas de nuevo en esa dirección, el objeto ya no estaría allí o habría cambiado.
Este modelo ya no tiene ese problema.
Tienen, según ellos, una capacidad emergente de recordar objetos y sus ubicaciones previas hasta por un minuto.
Generación de Genie 3 de unas ruinas griegas, recuerda que esto es un video generado por IA en tiempo real, no un mapa o mundo premade por el que estamos caminando
OpenAI gpt-oss
GPT-5 no fue el único gran lanzamiento que tuvo OpenAI esta semana. También lanzaron su primer LLM de código abierto desde GPT-2. La serie de modelos gpt-oss viene en dos tamaños, 20 mil millones de parámetros y 120 mil millones de parámetros, siendo ambos modelos de mezcla de expertos con 3 mil millones activos y 5 mil millones de parámetros activos, respectivamente.
Los modelos tienen buen desempeño en benchmarks, pero el sentimiento general sobre su calidad real es pobre.
Estos modelos han sido entrenados en lo que parece ser un conjunto de datos puramente sintético, careciendo esencialmente de cero conocimiento del mundo.
Son muy buenos en programación y matemáticas, pero fuera de estos campos luchan y su falta de diversidad en su conjunto de datos de preentrenamiento realmente se nota.
Tienen límites casi rígidos en términos de conocimiento, resultando en modos de falla muy extraños.
Las personas han reportado que incluso para preguntas que no son de programación, los modelos alucinarán una pregunta de programación en tu entrada e intentarán resolverla ellos mismos.
También, gracias a su entrenamiento con datos puramente sintéticos, el modelo alucina más que casi cualquier otro modelo, con una puntuación de SimpleQA en los dígitos bajos, un benchmark que OpenAI creó.
Esto es muy similar en comportamiento a la serie Phi de modelos de Microsoft, que se sabe que son modelos entrenados con conjuntos de datos puramente sintéticos.
Estos modelos se desempeñan bien en razonamiento y STEM, y otros campos STEM, pero para cualquier otro caso de uso, fallan miserablemente.
Incluso si no fuera por la rigidez de estos modelos, aún no serían mi elección para sus tamaños dados.
El modelo Qwen3 30B MOE recientemente actualizado tiene velocidades similares y también rendimiento similar sin tener los casos de falla catastrófica que gpt-oss tiene.
Y luego para el modelo de 120B parámetros, el modelo GLM Air también compite directamente con eso dentro de unos pocos puntos porcentuales en prácticamente todos los benchmarks, incluso superando a gpt-oss para aplicaciones agénticas.
Pero bueno, mira el lado positivo, ahora puedes forzar al modelo a nunca producir un guión largo nunca más.
Ronda Rápida
Herramientas útiles o temas que encontré esta semana que pueden o no estar relacionados con IA, pero no tuve tiempo de escribir una sección completa sobre ellos.
Qwen
Qwen ha estado lanzando tantas cosas que ahora tienen su propia sección.
Qwen Image
Un nuevo modelo de generación de imágenes de 20B params del equipo de Qwen, tiene muy buen seguimiento de instrucciones de prompts, pero encuentro que la calidad real de la imagen está un poco por detrás de los mejores modelos en términos del aspecto “IA” que tiene.
Prompt: Amateur POV Selfie: A man’s face is half-submerged as he takes a selfie in a murky swamp. Just behind his head, the two eyes and snout of a large alligator are visible on the water’s surface. He hasn’t noticed yet. - De Reddit
Actualización de Qwen3 4B
El equipo de LLM de Qwen ha continuado su actualización de post-entrenamiento de sus modelos Qwen3, con dos nuevos modelos de 4B params saliendo esta semana.
Cabe destacar que no hay versión de programador como hubo para las otras dos actualizaciones, pero esto tiene sentido ya que la programación es una tarea muy difícil, especialmente para los modelos más pequeños.
Estamos empezando a ver qué tamaños de modelos parecen importarles y creen que tienen el mayor impacto, siendo el modelo grande de 235B, el modelo MoE de 30B, y ahora el modelo pequeño de 4B.

Qwen Coder ahora es gratis
Qwen tiene su propio competidor TUI de Claude Code construido sobre el TUI de Gemini (nada confuso),
Y como Gemini, están ofreciendo acceso a su modelo gratis, dando no solo 1000, sino 2000 solicitudes todos los días gratis cuando inicias sesión con tu cuenta de Qwen.
Sigue la misma política de privacidad que Google, así que entrenarán con tu código, pero si estás de acuerdo con eso entonces esta es una gran opción para usar.
Opus 4.1
Pequeño aumento de versión del ya modelo de primer nivel Opus 4, el rendimiento está ligeramente mejorado en todos los aspectos, pero nada revolucionario.
Anthropic dice que tendrán “mejoras sustancialmente mayores” llegando en las próximas semanas.
Modelo OCR de RedNote
El TikTok de China ha lanzado tiene un laboratorio de IA, y acaban de lanzar un VLM SOTA para OCR de propósito general y comprensión de imágenes. Solo 1.7B params, por lo que debería ser factible ejecutarlo en el borde.
ElevenLabs Music
Nuevo modelo de música de Eleven labs. Parece ser un paso adelante de Suno, también permite editar sonido, letras, o secciones enteras de las canciones que haces. Ve un ejemplo de cómo usarlo aquí.
Modelo de investigación profunda ligero
Habíamos convertido previamente un modelo similar llamado Jan hace unas semanas, y ahora hay competencia en el espacio ya que la nueva startup del ex-fundador de Stability AI Emad Mostaque, Intelligent Internet, ha lanzado su propia versión que supera a Jan por un margen bastante grande, especialmente en tareas de investigación más difíciles.
Todos los datos para el entrenamiento y cómo lo hicieron son de código abierto.
Puedo ver estos agentes personales pequeños, en el dispositivo, siendo el futuro, ya que permiten fácil personalización y también los usuarios pueden darles acceso a información privada sin tener que preocuparse de que alguien más la tenga.
Este sentimiento también es hecho eco por Nvidia en un artículo reciente que lanzaron, destacando cómo los modelos de lenguaje pequeños (SLMs) serán más baratos y rápidos mientras siguen siendo igual de capaces en la mayoría de las tareas del mundo real.
Modelo TTS Kitten
¿Los 70M params de Kokoro TTS son demasiado para tu vieja Raspberry Pi? Bueno, no te preocupes más, ya que ahora hay un modelo TTS aún más pequeño llamado Kitten TTS que es solo 15M params.
Las voces son definitivamente peores que Kokoro, pero aún muy aceptables, especialmente si estás extremadamente limitado en recursos o te importa tener la menor latencia posible.
Empresas completamente administradas por IA en la naturaleza
En el futuro probablemente habrá miles de empresas de IA funcionando, pero ahora mismo hay muy pocas. Aquí puedes ver a una persona en TikTok descubrir que es parte de una empresa donde todos sus compañeros de trabajo y jefes son solo diferentes agentes de IA.
Los videos parecen bastante convincentes, e incluso si es falso, habrá algo como esto en el futuro que no lo será.
MCP RL
¿Tienes un servidor MCP que tu agente está luchando para descubrir cómo usar? Ahora puedes usar aprendizaje por refuerzo para afinar tu agente para usar tu servidor, sin datos requeridos. Solo da la conexión al servidor, y el agente “jugará con él” para aprender cómo usarlo más efectivamente.
Gemini es gratis para estudiantes
Acceso a 2.5 pro, notebook LM, investigación profunda, y 2TB de almacenamiento todo incluido gratis. Todo lo que necesitas es un correo .edu. Todos digan gracias Sundar.
Fin
Espero que hayas disfrutado las noticias de esta semana. Si quieres recibir las noticias cada semana, asegúrate de unirte a nuestra lista de correo a continuación.