Releases
Sonnet 4.5
Major release from Anthropic this week, as they dropped their Sonnet 4.5 model, showing promising improvements in coding and safety benchmarks.

Straight to the real-world performance though. Having used it for the last week and also read a bunch about what others are saying, this is not the major performance increase we were expecting and hoping for. It is definitely an improvement. The model feels similar in quality to Opus 4.1, but it still does not have that raw intelligence and attention to detail that GPT-5 has.
In my testing this week, I wouldn’t say the model is necessarily smarter, but more that it is less dumb, meaning that it does not make some of the silly mistakes or have as many oversights about its implementation as Sonnet 4.
This is also somewhat corroborated by Anthropic themselves, as in their safety report for the model, they mention that Sonnet 4.5 does not reach the “notably more capable” threshold that would require a brand new comprehensive assessment of the model for its potential harmful capabilities.
They also have not changed the pricing from $15 per million output tokens, meaning that it’s 50% more expensive than GPT-5 still. This, combined with all the other factors above, make this a rather lackluster “upgrade”. If you were using Sonnet 4 previously, then expect a slight boost from what you’re used to, but it is not leaps and bounds better by any stretch of the imagination.
GLM 4.6
Speaking of pricing, the price-to-performance agentic coding kings, Z.ai have released an upgrade to their GLM 4.5 model. If you haven’t heard us talk about this model previously, the GLM 4.5 and now 4.6 models are available from Z.ai for only $3 a month, are comparable to Sonnet in quality, and has a four times larger rate limit than the $20 Anthropic subscription. It also plugs directly into Claude Code, allowing you to keep all of your existing agentic coding infrastructure in place.
Real world coding win rates using Claude Code as the harness
GLM 4.6 shows an impressive bump over the previous 4.5 model, and when matched up head to head against Sonnet 4 and other open source models, comes out on top. I have been using it the past week as well along Sonnet 4.5, and there is very little difference between the two.
Because of this, my current coding stack recommendation is Codex-cli with GPT-5-codex for all of the hard tasks ($20/month plan), and the $3/month GLM coding plan for easy and medium tasks. This combo will give you the best bang for your buck in terms of model intelligence and raw output.
Sora 2
OpenAI has decided to release their Sora 2 model in the opposite way that they did the original Sora. This time, directly releasing a way for users to go and access the model and play around with it, instead of dropping a few examples from the model and then disappearing, with no real model release in sight.
Although it is not on any of the usual public benchmarks, Sora 2 is very clearly the best video generation model out there right now. OpenAI has forgone the lawyers and safety filters and are directly allowing users to generate copyrighted content from the likes of Family Guy and SpongeBob.
The model has a very strong real-world physics understanding and scene composition capabilities It has a level of clarity and cohesiveness that none of the other models on the market now seem to have.
Similar to VO3 from Google, it also does the audio generation for your videos as well. I will say on this front, it is a little bit lacking when compared to VO3, but still very usable.
They also released the ability to add yourself to the videos as well as use your voice allowing for a lot of creativity and use in real-world video production.
But on the flip side, you can now generate videos of almost anyone doing illegal things. For instance, Sam Altman has made his likeness available on the app by default for everyone, and so there have been numerous videos of him performing illegal acts like stealing GPUs from the store, fighting people, and other such crimes.
Quick Hits
DeepSeek 3.2 Exp
DeepSeek has released yet another version bump to their V3 model, this time calling it 3.2 Experimental. The main highlight of this release is their new DeepSpeak Sparse Attention (DSA) architecture, which is a linear attention based transformer that drastically reduces the computation needed for long sequences.
This architecture promises to be relatively straightforward to train into your existing model. Expect to see this or another variant of sparse attention in the release of DeepSeek V4.

Thinking Machines LoRa
Thinking Machines dropped a blog post this week showing how LoRa, when used correctly, is identical to full fine-tuning. And then building upon this, they also released a platform called Tinker to allow you to go and fine-tune LLMs using LoRa’s, abstracting away all the infrastructure code, while still leaving you in control of the data, loss function, and algorithms being used.
IBM Makes LLMs
IBM has quietly been releasing some small open source lms that are fairly decent over the last few months and this week they released another set in their Granite series of models which are competitive if not better than similar sized Qwen3 models while also being two to five times faster.

ChatGPT Instant Checkout
OpenAI has just announced Instant Checkout in ChatGPT in collaboration with Etsy and Spotify, allowing you to purchase products directly on the ChatGPT website. They also released the Agentic Commerce Protocol that they used to power it, which is built on top of Stripe.
I don’t have too much else to say about it, but I thought this meme was funny, which is why I wanted to highlight this topic.
Needless to say, I won’t be using this feature anytime soon.
Finish
I hope you enjoyed the news this week. If you want to get the news every week, be sure to join our mailing list below.
Output from a Qwen Image lora I trained this week as a part of the free Huggingface Lora training event Nota: Este artigo foi traduzido automaticamente com Claude Sonnet 4.5; a qualidade pode estar reduzida, especialmente na terminologia técnica.
Lançamentos
Sonnet 4.5
Grande lançamento da Anthropic esta semana, com o lançamento do modelo Sonnet 4.5, mostrando melhorias promissoras em benchmarks de codificação e segurança.

Mas direto ao desempenho no mundo real. Tendo usado por uma semana e também lido bastante sobre o que outros estão dizendo, este não é o grande aumento de desempenho que esperávamos e torcíamos. Definitivamente é uma melhoria. O modelo tem qualidade similar ao Opus 4.1, mas ainda não tem aquela inteligência bruta e atenção aos detalhes que o GPT-5 possui.
Nos meus testes esta semana, eu não diria que o modelo é necessariamente mais inteligente, mas sim que ele é menos burro, significando que não comete alguns dos erros bobos ou tem tantas falhas na sua implementação quanto o Sonnet 4.
Isto também é de certa forma corroborado pela própria Anthropic, pois no relatório de segurança do modelo, eles mencionam que o Sonnet 4.5 não alcança o limiar de “notavelmente mais capaz” que exigiria uma nova avaliação abrangente do modelo quanto às suas potenciais capacidades prejudiciais.
Eles também não mudaram o preço de $15 por milhão de tokens de saída, significando que ainda é 50% mais caro que o GPT-5. Isto, combinado com todos os outros fatores acima, torna esta uma “atualização” bastante decepcionante. Se você estava usando o Sonnet 4 anteriormente, então espere um ligeiro aumento do que está acostumado, mas não é melhor por grandes margens de forma alguma.
GLM 4.6
Falando em preços, os reis de codificação agêntica em custo-benefício, Z.ai lançaram uma atualização para seu modelo GLM 4.5. Se você não nos ouviu falar sobre este modelo anteriormente, os modelos GLM 4.5 e agora 4.6 estão disponíveis na Z.ai por apenas $3 por mês, são comparáveis ao Sonnet em qualidade, e têm um limite de taxa quatro vezes maior que a assinatura de $20 da Anthropic. Também se conecta diretamente ao Claude Code, permitindo que você mantenha toda sua infraestrutura de codificação agêntica existente no lugar.
Taxas de vitória de codificação no mundo real usando Claude Code como plataforma
GLM 4.6 mostra um aumento impressionante sobre o modelo 4.5 anterior, e quando comparado frente a frente contra o Sonnet 4 e outros modelos open source, sai por cima. Eu também tenho usado na semana passada junto com o Sonnet 4.5, e há muito pouca diferença entre os dois.
Por causa disso, minha recomendação atual de stack de codificação é Codex-cli com GPT-5-codex para todas as tarefas difíceis (plano de $20/mês), e o plano de codificação GLM de $3/mês para tarefas fáceis e médias. Esta combinação lhe dará o melhor custo-benefício em termos de inteligência do modelo e saída bruta.
Sora 2
A OpenAI decidiu lançar seu modelo Sora 2 da forma oposta ao Sora original. Desta vez, lançando diretamente uma forma para os usuários acessarem e brincarem com o modelo, ao invés de soltar alguns exemplos do modelo e depois desaparecer, sem lançamento real do modelo à vista.
Embora não esteja em nenhum dos benchmarks públicos habituais, o Sora 2 é muito claramente o melhor modelo de geração de vídeo disponível agora. A OpenAI deixou de lado os advogados e filtros de segurança e está permitindo diretamente que os usuários gerem conteúdo protegido por direitos autorais como Family Guy e SpongeBob.
O modelo tem uma compreensão muito forte de física do mundo real e capacidades de composição de cena. Tem um nível de clareza e coesão que nenhum dos outros modelos no mercado agora parecem ter.
Similar ao VO3 do Google, ele também faz a geração de áudio para seus vídeos. Eu diria que nesta frente, está um pouco aquém quando comparado ao VO3, mas ainda muito utilizável.
Eles também lançaram a capacidade de adicionar você mesmo aos vídeos assim como usar sua voz permitindo muita criatividade e uso em produção de vídeo no mundo real.
Mas por outro lado, você agora pode gerar vídeos de quase qualquer pessoa fazendo coisas ilegais. Por exemplo, Sam Altman disponibilizou sua imagem no app por padrão para todos, e então houve numerosos vídeos dele realizando atos ilegais como roubar GPUs da loja, brigando com pessoas, e outros crimes do tipo.
Destaques Rápidos
DeepSeek 3.2 Exp
A DeepSeek lançou mais uma versão atualizada do seu modelo V3, desta vez chamando-o de 3.2 Experimental. O principal destaque deste lançamento é sua nova arquitetura DeepSpeak Sparse Attention (DSA), que é um transformer baseado em atenção linear que reduz drasticamente a computação necessária para sequências longas.
Esta arquitetura promete ser relativamente direta para treinar em seu modelo existente. Espere ver isto ou outra variante de atenção esparsa no lançamento do DeepSeek V4.

Thinking Machines LoRa
A Thinking Machines publicou um post de blog esta semana mostrando como LoRa, quando usado corretamente, é idêntico ao ajuste fino completo. E então construindo sobre isso, eles também lançaram uma plataforma chamada Tinker para permitir que você ajuste finamente LLMs usando LoRas, abstraindo todo o código de infraestrutura, enquanto ainda deixa você no controle dos dados, função de perda, e algoritmos sendo usados.
IBM Cria LLMs
A IBM tem silenciosamente lançado alguns LMs open source pequenos que são bastante decentes nos últimos meses e esta semana eles lançaram outro conjunto em sua série de modelos Granite que são competitivos se não melhores que modelos Qwen3 de tamanho similar enquanto também são de duas a cinco vezes mais rápidos.

ChatGPT Checkout Instantâneo
A OpenAI acabou de anunciar Checkout Instantâneo no ChatGPT em colaboração com Etsy e Spotify, permitindo que você compre produtos diretamente no site do ChatGPT. Eles também lançaram o Protocolo de Comércio Agêntico que usaram para alimentá-lo, que é construído em cima do Stripe.
Não tenho muito mais a dizer sobre isso, mas achei esse meme engraçado, que é por isso que quis destacar este tópico.
Desnecessário dizer, não estarei usando este recurso tão cedo.
Conclusão
Espero que você tenha gostado das notícias desta semana. Se você quer receber as notícias toda semana, certifique-se de se juntar à nossa lista de e-mails abaixo.
Saída de um lora Qwen Image que treinei esta semana como parte do evento gratuito de treinamento de Lora da Huggingface Nota: Este artículo fue traducido automáticamente con Claude Sonnet 4.5; la calidad puede verse degradada, especialmente en la terminología técnica.
En resumen
- Sonnet 4.5 ha salido, comparable a Opus 4.1, todavía peor que GPT-5 para programación
- GLM 4.6 es mejor que Sonnet 4 mientras cuesta solo $3 al mes
- OpenAI lanzó Sora 2, y es el mejor modelo de generación de video (únete al Discord de Vector Lab para obtener un código de invitación)
- DeepSeek 3.2 insinúa el futuro de la arquitectura LLM
- IBM lanza un conjunto de modelos de código abierto potentes, pequeños y rápidos
- Thinking Machines ha revelado su primer producto
Lanzamientos
Sonnet 4.5
Lanzamiento importante de Anthropic esta semana, ya que lanzaron su modelo Sonnet 4.5, mostrando mejoras prometedoras en los benchmarks de programación y seguridad.

Directo al rendimiento del mundo real. Habiéndolo usado durante la última semana y también leído bastante sobre lo que otros están diciendo, este no es el aumento importante de rendimiento que esperábamos y esperábamos. Definitivamente es una mejora. El modelo se siente similar en calidad a Opus 4.1, pero todavía no tiene esa inteligencia bruta y atención al detalle que GPT-5 tiene.
En mis pruebas esta semana, no diría que el modelo es necesariamente más inteligente, sino más bien que es menos tonto, lo que significa que no comete algunos de los errores tontos ni tiene tantos descuidos sobre su implementación como Sonnet 4.
Esto también está corroborado en cierta medida por la propia Anthropic, ya que en su informe de seguridad para el modelo, mencionan que Sonnet 4.5 no alcanza el umbral de “notablemente más capaz” que requeriría una nueva evaluación integral del modelo por sus posibles capacidades dañinas.
Tampoco han cambiado el precio de $15 por millón de tokens de salida, lo que significa que sigue siendo un 50% más caro que GPT-5. Esto, combinado con todos los demás factores anteriores, hace de esta una “actualización” bastante mediocre. Si estabas usando Sonnet 4 anteriormente, entonces espera un ligero impulso de lo que estás acostumbrado, pero no es infinitamente mejor de ninguna manera.
GLM 4.6
Hablando de precios, los reyes de la programación agéntica en relación precio-rendimiento, Z.ai han lanzado una actualización a su modelo GLM 4.5. Si no nos has escuchado hablar de este modelo anteriormente, los modelos GLM 4.5 y ahora 4.6 están disponibles desde Z.ai por solo $3 al mes, son comparables a Sonnet en calidad, y tienen un límite de velocidad cuatro veces mayor que la suscripción de $20 de Anthropic. También se conecta directamente a Claude Code, permitiéndote mantener toda tu infraestructura de programación agéntica existente en su lugar.
Tasas de victorias de programación en el mundo real usando Claude Code como arnés
GLM 4.6 muestra un impulso impresionante sobre el modelo 4.5 anterior, y cuando se enfrenta cara a cara contra Sonnet 4 y otros modelos de código abierto, sale ganando. También lo he estado usando la semana pasada junto con Sonnet 4.5, y hay muy poca diferencia entre los dos.
Debido a esto, mi recomendación actual de stack de programación es Codex-cli con GPT-5-codex para todas las tareas difíciles (plan de $20/mes), y el plan de programación GLM de $3/mes para tareas fáciles y medianas. Esta combinación te dará el mejor valor por tu dinero en términos de inteligencia del modelo y producción bruta.
Sora 2
OpenAI ha decidido lanzar su modelo Sora 2 de la manera opuesta a como lo hicieron con el Sora original. Esta vez, liberando directamente una forma para que los usuarios vayan y accedan al modelo y jueguen con él, en lugar de soltar algunos ejemplos del modelo y luego desaparecer, sin ningún lanzamiento real del modelo a la vista.
Aunque no está en ninguno de los benchmarks públicos habituales, Sora 2 es claramente el mejor modelo de generación de video que existe ahora mismo. OpenAI ha prescindido de los abogados y filtros de seguridad y está permitiendo directamente a los usuarios generar contenido con derechos de autor de los gustos de Family Guy y SpongeBob.
El modelo tiene una comprensión de física del mundo real muy sólida y capacidades de composición de escenas. Tiene un nivel de claridad y cohesión que ninguno de los otros modelos en el mercado ahora parece tener.
Similar a VO3 de Google, también hace la generación de audio para tus videos. Diré que en este frente, está un poco falto en comparación con VO3, pero aún muy utilizable.
También lanzaron la capacidad de agregarte a los videos así como usar tu voz permitiendo mucha creatividad y uso en producción de video del mundo real.
Pero por otro lado, ahora puedes generar videos de casi cualquier persona haciendo cosas ilegales. Por ejemplo, Sam Altman ha hecho su imagen disponible en la aplicación por defecto para todos, y por lo tanto ha habido numerosos videos de él realizando actos ilegales como robar GPUs de la tienda, pelearse con gente y otros crímenes similares.
Notas Rápidas
DeepSeek 3.2 Exp
DeepSeek ha lanzado otra actualización de versión a su modelo V3, esta vez llamándolo 3.2 Experimental. Lo más destacado de este lanzamiento es su nueva arquitectura DeepSpeak Sparse Attention (DSA), que es un transformer basado en atención lineal que reduce drásticamente el cómputo necesario para secuencias largas.
Esta arquitectura promete ser relativamente sencilla de entrenar en tu modelo existente. Espera ver esto u otra variante de atención dispersa en el lanzamiento de DeepSeek V4.

Thinking Machines LoRa
Thinking Machines publicó un artículo de blog esta semana mostrando cómo LoRa, cuando se usa correctamente, es idéntico al ajuste fino completo. Y luego construyendo sobre esto, también lanzaron una plataforma llamada Tinker para permitirte ir y ajustar finamente LLMs usando LoRa’s, abstrayendo todo el código de infraestructura, mientras todavía te dejan en control de los datos, función de pérdida y algoritmos que se están usando.
IBM Hace LLMs
IBM ha estado lanzando silenciosamente algunos LLMs de código abierto pequeños que son bastante decentes durante los últimos meses y esta semana lanzaron otro conjunto en su serie de modelos Granite que son competitivos si no mejores que modelos Qwen3 de tamaño similar mientras también son de dos a cinco veces más rápidos.

ChatGPT Instant Checkout
OpenAI acaba de anunciar Instant Checkout en ChatGPT en colaboración con Etsy y Spotify, permitiéndote comprar productos directamente en el sitio web de ChatGPT. También lanzaron el Agentic Commerce Protocol que usaron para impulsarlo, que está construido sobre Stripe.
No tengo mucho más que decir al respecto, pero pensé que este meme era gracioso, por eso quería destacar este tema.
No hace falta decir que no estaré usando esta función pronto.
Finalizar
Espero que hayas disfrutado las noticias de esta semana. Si quieres recibir las noticias cada semana, asegúrate de unirte a nuestra lista de correo a continuación.
Salida de un lora de Qwen Image que entrené esta semana como parte del evento gratuito de entrenamiento Lora de Huggingface