With most of the US taking at least a part of this week off due to the 4th of July, there isn’t that much news to report on.
News
Cursor on your phone
Cursor now allows you to be able to connect to your Github repos and then make changes for you using their new(ish) background agents. You can then come back later and review and merge the code that it makes for you. This can be done from their website or, more importantly, your phone. Just got to cursor.com/agents to try it out now.
Cursor pricing Updates
Cursor has been messing with their pricing the last few weeks, which have culminated into a much worse deal than it was previously.
A few weeks ago, they got rid of the 500 requests a month, and replaced it with unlimited uses for any of their non max models. Then they updated it so that its only unlimited free uses if you have the auto model selected, which routes the model to the most cost effective given the difficulty of the task, and when you chose a model, you now get charged base on the API pricing of the model you are using (your $20 subscription covers your first $20 of usage, but then you pay out of pocket after that).
This meant that many people found that they were getting charged hundreds of dollars all of a sudden, since Cursor did not communicate these changes very well at all. They say that you should still be able to get ~225 Claude Sonnet requests, but in my experience I would only expect to get a couple of dozen requests through before you ran out of your credits.

To be fair, they were definitely losing money on my subscription
They have since repaid everyone that incurred unexpected costs and clarified their pricing model, but the age of ludacris LLM usage for cheap has ended (for Cursor at least). I have moved to Claude Code in the last few weeks using my Claude Pro subscription, and have been liking it for vibe coding more than Cursor, but it does not have as good a UX for reviewing code changes. I will make a post once I get a good workflow down with Claude Code.
Releases
New multimodal reasoning model from Z.ai
Z.ai has gone under the radar for a while now, despite having some of the best open source models available right now with their GLM4 series. Their GLM4 32B model is arguably better than Qwen3 32B, and comes with the added benefit of having the best open source base model currently available as well (the Qwen team didn’t release the base model for the Qwen3 32B and 235B models).
They are adding to their GLM4 series, releasing a vision reasoning model based on their GLM4 9B model. It outperforms most other models its size, and also outdoes GPT-4o on image understanding and reasoning tasks. It can also do video understand as well, also ranking above other open source and closed source models.

Gemma 3n
Technically a release from last week that didn’t make the cut, Gemma 3n is a open source release from Google, meant for on device deployments. You are able to very the number of parameters used (using an architecture called MatFormer) which makes it larger or smaller, depending on the difficulty of the task or the resources of the device it is running on. It is truely multimodal as well, allow both image and audio input along with text. The benchmarks look good, especially for conversational use, with an elo over 1300 on LMArena.
There is a Kaggle competition with over $150k in prizes centered around the model. You can find and use the model on pretty much every platform that you use for LLM inference already, so you can start building with it now!
NOTE: There is currently a bug in the TIMM library (which has the modeling code for the vision transformer part of the Gemma 3n model) that is drastically negatively affecting the image understanding of the model. Until this is fixed, don’t expect any meaningful outputs from image inputs.
Research
Automated LLM Speedrunning
Andrej Karpathy released the nanoGPT library as a simple, fully self-contained example for training an LLM. Since its release, people have been working on increasing the speed to train the model to a specific target metric (3.28 cross-entropy loss on the FineWeb validation set).
This has resulted in a plethora of changes that has caused the time to train the model to go from 45 minutes down to under 3. Researchers at Meta wanted to see if the models, given the code, could go and find these speedups and implement them.
To jump to the conclusion, the models were pretty bad at this, with no models able to get more than 20% of the speedups when on their own, and even when given full pseudocode for the changes that resulted in the speedups, the models could still only at best get 40%.
LLMs may be good at web dev, but they still have a long way to go for system style programming.
ML Engineers don’t have to worry about losing their jobs any time soon
Finish

A sprite happening over Mexico as seen by the International Space Station
Nota: Este artigo foi traduzido automaticamente com Claude Sonnet 4.5; a qualidade pode estar reduzida, especialmente na terminologia técnica.
Com a maior parte dos EUA tirando pelo menos parte desta semana de folga devido ao 4 de Julho, não há muitas notícias para relatar.
Notícias
Cursor no seu telefone
O Cursor agora permite que você se conecte aos seus repositórios do Github e faça alterações para você usando seus agentes em segundo plano (relativamente) novos. Você pode voltar mais tarde e revisar e mesclar o código que ele cria para você. Isso pode ser feito a partir do site deles ou, mais importante ainda, do seu telefone. Basta ir para cursor.com/agents para experimentar agora.
Atualizações de preços do Cursor
O Cursor tem mexido com seus preços nas últimas semanas, que culminaram em um negócio muito pior do que era anteriormente.
Algumas semanas atrás, eles se livraram das 500 solicitações por mês e substituíram por usos ilimitados para qualquer um de seus modelos não-max. Então eles atualizaram para que os usos gratuitos ilimitados só funcionem se você tiver o modelo automático selecionado, que roteia o modelo para o mais econômico dado a dificuldade da tarefa, e quando você escolhe um modelo, agora você é cobrado com base no preço da API do modelo que está usando (sua assinatura de $20 cobre seus primeiros $20 de uso, mas depois você paga do próprio bolso).
Isso significou que muitas pessoas descobriram que estavam sendo cobradas centenas de dólares de repente, já que o Cursor não comunicou essas mudanças muito bem. Eles dizem que você ainda deveria conseguir cerca de ~225 solicitações do Claude Sonnet, mas na minha experiência eu esperaria conseguir apenas algumas dezenas de solicitações antes de acabar seus créditos.

Para ser justo, eles definitivamente estavam perdendo dinheiro com minha assinatura
Desde então, eles reembolsaram todos que incorreram em custos inesperados e esclareceram seu modelo de preços, mas a era do uso absurdo de LLMs por preços baixos acabou (pelo menos para o Cursor). Eu mudei para o Claude Code nas últimas semanas usando minha assinatura Claude Pro, e tenho gostado mais para programação descontraída do que o Cursor, mas não tem uma UX tão boa para revisar alterações de código. Vou fazer um post assim que tiver um bom fluxo de trabalho estabelecido com o Claude Code.
Lançamentos
Novo modelo de raciocínio multimodal da Z.ai
A Z.ai tem passado despercebida por um tempo agora, apesar de ter alguns dos melhores modelos de código aberto disponíveis atualmente com sua série GLM4. Seu modelo GLM4 32B é indiscutivelmente melhor que o Qwen3 32B, e vem com o benefício adicional de ter o melhor modelo base de código aberto atualmente disponível também (a equipe Qwen não lançou o modelo base para os modelos Qwen3 32B e 235B).
Eles estão adicionando à sua série GLM4, lançando um modelo de raciocínio de visão baseado em seu modelo GLM4 9B. Ele supera a maioria dos outros modelos de seu tamanho, e também supera o GPT-4o em tarefas de compreensão e raciocínio de imagens. Ele também pode fazer compreensão de vídeo, também ficando acima de outros modelos de código aberto e fechado.

Gemma 3n
Tecnicamente um lançamento da semana passada que não foi incluído, Gemma 3n é um lançamento de código aberto do Google, destinado a implantações em dispositivos. Você pode variar o número de parâmetros usados (usando uma arquitetura chamada MatFormer) que o torna maior ou menor, dependendo da dificuldade da tarefa ou dos recursos do dispositivo em que está sendo executado. É verdadeiramente multimodal também, permitindo entrada de imagem e áudio junto com texto. Os benchmarks parecem bons, especialmente para uso conversacional, com um elo acima de 1300 no LMArena.
Há uma competição no Kaggle com mais de $150 mil em prêmios centrada no modelo. Você pode encontrar e usar o modelo em praticamente todas as plataformas que você usa para inferência de LLM já, então você pode começar a construir com ele agora!
NOTA: Atualmente há um bug na biblioteca TIMM (que tem o código de modelagem para a parte do transformador de visão do modelo Gemma 3n) que está afetando drasticamente de forma negativa a compreensão de imagem do modelo. Até que isso seja corrigido, não espere nenhuma saída significativa de entradas de imagem.
Pesquisa
Speedrunning Automatizado de LLM
Andrej Karpathy lançou a biblioteca nanoGPT como um exemplo simples e totalmente independente para treinar um LLM. Desde seu lançamento, as pessoas têm trabalhado em aumentar a velocidade para treinar o modelo para uma métrica alvo específica (3.28 de perda de entropia cruzada no conjunto de validação FineWeb).
Isso resultou em uma infinidade de mudanças que fizeram o tempo para treinar o modelo ir de 45 minutos para menos de 3. Pesquisadores da Meta queriam ver se os modelos, dado o código, poderiam encontrar essas acelerações e implementá-las.
Para chegar à conclusão, os modelos foram bastante ruins nisso, sem nenhum modelo capaz de obter mais de 20% das acelerações quando por conta própria, e mesmo quando receberam pseudocódigo completo para as mudanças que resultaram nas acelerações, os modelos ainda podiam conseguir no máximo 40%.
LLMs podem ser bons em desenvolvimento web, mas ainda têm um longo caminho a percorrer para programação estilo sistema.
Engenheiros de ML não precisam se preocupar em perder seus empregos tão cedo
Finalização

Um sprite acontecendo sobre o México visto pela Estação Espacial Internacional
Nota: Este artículo fue traducido automáticamente con Claude Sonnet 4.5; la calidad puede verse degradada, especialmente en la terminología técnica.
Con la mayor parte de Estados Unidos tomándose al menos parte de esta semana libre debido al 4 de julio, no hay tantas noticias que reportar.
Noticias
Cursor en tu teléfono
Cursor ahora te permite conectarte a tus repositorios de Github y luego hacer cambios por ti usando sus nuevos(ish) agentes en segundo plano. Puedes volver más tarde y revisar y fusionar el código que hace por ti. Esto se puede hacer desde su sitio web o, más importante aún, tu teléfono. Solo tienes que ir a cursor.com/agents para probarlo ahora.
Actualizaciones de precios de Cursor
Cursor ha estado modificando sus precios las últimas semanas, lo que ha culminado en un acuerdo mucho peor de lo que era anteriormente.
Hace unas semanas, eliminaron las 500 solicitudes al mes y las reemplazaron con usos ilimitados para cualquiera de sus modelos que no sean max. Luego lo actualizaron para que solo sean usos gratuitos ilimitados si tienes el modelo automático seleccionado, que enruta el modelo al más rentable según la dificultad de la tarea, y cuando eliges un modelo, ahora se te cobra según el precio de la API del modelo que estás usando (tu suscripción de $20 cubre tus primeros $20 de uso, pero luego pagas de tu bolsillo después de eso).
Esto significó que muchas personas descubrieron que les estaban cobrando cientos de dólares de repente, ya que Cursor no comunicó estos cambios muy bien en absoluto. Dicen que aún deberías poder obtener ~225 solicitudes de Claude Sonnet, pero en mi experiencia solo esperaría obtener un par de docenas de solicitudes antes de que se agoten tus créditos.

Para ser justos, definitivamente estaban perdiendo dinero con mi suscripción
Desde entonces han reembolsado a todos los que incurrieron en costos inesperados y aclararon su modelo de precios, pero la era del uso ridículo de LLM por barato ha terminado (al menos para Cursor). Me he cambiado a Claude Code en las últimas semanas usando mi suscripción de Claude Pro, y me ha gustado más que Cursor para programar por vibra, pero no tiene una UX tan buena para revisar cambios de código. Haré una publicación una vez que tenga un buen flujo de trabajo con Claude Code.
Lanzamientos
Nuevo modelo de razonamiento multimodal de Z.ai
Z.ai ha pasado desapercibido durante un tiempo ahora, a pesar de tener algunos de los mejores modelos de código abierto disponibles actualmente con su serie GLM4. Su modelo GLM4 32B es posiblemente mejor que Qwen3 32B, y viene con el beneficio adicional de tener el mejor modelo base de código abierto disponible actualmente también (el equipo de Qwen no lanzó el modelo base para los modelos Qwen3 32B y 235B).
Están agregando a su serie GLM4, lanzando un modelo de razonamiento visual basado en su modelo GLM4 9B. Supera a la mayoría de los otros modelos de su tamaño, y también supera a GPT-4o en tareas de comprensión y razonamiento de imágenes. También puede entender video, clasificándose también por encima de otros modelos de código abierto y cerrado.

Gemma 3n
Técnicamente un lanzamiento de la semana pasada que no llegó a tiempo, Gemma 3n es un lanzamiento de código abierto de Google, destinado a implementaciones en dispositivos. Puedes variar el número de parámetros utilizados (usando una arquitectura llamada MatFormer) lo que lo hace más grande o más pequeño, dependiendo de la dificultad de la tarea o los recursos del dispositivo en el que se está ejecutando. Es verdaderamente multimodal también, permitiendo entrada de imagen y audio junto con texto. Los benchmarks se ven bien, especialmente para uso conversacional, con un elo por encima de 1300 en LMArena.
Hay una competencia en Kaggle con más de $150k en premios centrada en el modelo. Puedes encontrar y usar el modelo en prácticamente todas las plataformas que usas para inferencia de LLM, ¡así que puedes empezar a construir con él ahora!
NOTA: Actualmente hay un error en la biblioteca TIMM (que tiene el código de modelado para la parte del transformador de visión del modelo Gemma 3n) que está afectando drásticamente de manera negativa la comprensión de imágenes del modelo. Hasta que esto se corrija, no esperes ninguna salida significativa de las entradas de imagen.
Investigación
Speedrunning automatizado de LLM
Andrej Karpathy lanzó la biblioteca nanoGPT como un ejemplo simple y completamente autónomo para entrenar un LLM. Desde su lanzamiento, la gente ha estado trabajando en aumentar la velocidad para entrenar el modelo a una métrica objetivo específica (3.28 de pérdida de entropía cruzada en el conjunto de validación de FineWeb).
Esto ha resultado en una plétora de cambios que han hecho que el tiempo para entrenar el modelo pase de 45 minutos a menos de 3. Investigadores de Meta querían ver si los modelos, dado el código, podían ir y encontrar estas mejoras de velocidad e implementarlas.
Para saltar a la conclusión, los modelos fueron bastante malos en esto, sin que ningún modelo pudiera obtener más del 20% de las mejoras de velocidad cuando estaban solos, e incluso cuando se les dio pseudocódigo completo para los cambios que resultaron en las mejoras de velocidad, los modelos todavía solo podían obtener como máximo el 40%.
Los LLM pueden ser buenos en desarrollo web, pero todavía tienen un largo camino por recorrer para la programación de estilo de sistemas.
Los ingenieros de ML no tienen que preocuparse por perder sus trabajos en el corto plazo
Final

Un sprite ocurriendo sobre México visto por la Estación Espacial Internacional