News
GLM Coding Plan Special Offer
We have talked a bunch the past few weeks about Z.ai and their GLM series of models and how it is the best deal for agentic coding right now at only $3 a month.
Now that deal gets even better; new users can use the Vector Lab invite code to get 10% off any GLM Coding plan.
GLM-4.6 outperforms claude-4-5-sonnet while being ~8x cheaper — from gum1hox on Twitter (note, this is a math benchmark)
OpenAI Dev Day
Chat with Apps
The first announcement of Dev Day was the ability to Chat with Apps. This feature allows you to embed your website into the ChatGPT app, allowing users to interact with the app and also use ChatGPT to control the app and answer any questions the user may have, taking in the current app’s context to better answer the question.
Right now it can be used by directly mentioning one of the partnered apps that have already been released (like Canva), or for a given request the model can also suggest an app to use.
It’s very easy to build your own app for ChatGPT, they have built the SDK on top of the MCP protocol, if you have an existing MCP server, all you need is a tool that returns a UI and it should work in ChatGPT.
Actually getting your app published is a whole nother issue however, as OpenAI seems to be only allowing select businesses to add their apps to the ChatGPT website. Right now there are 7, with 11 more on the way. OpenAI says they will assess more near the end of the year, but I wouldn’t be holding your breath in anticipation if you are a small startup.
AgentKit
The next major release is their agent builder platform. This platform is similar to N8N or ComfyUI, where it has a set of nodes that you can string together into other nodes to be able to go and create a custom workflow for your agents.

The OpenAI team claims that it was primarily vibe-coded using their Codex models over the course of six weeks.
This is not necessarily a good thing as many users have mentioned a lack of polish on the app as well as complicated and confusing UI.
I personally don’t think these visual builders are all that useful. I think if you’re a non-technical user, you don’t want to have to worry about any of the logic at all. And you just want to be able to give a description of the task and have an agent go and build out the actual workflow or code for you. And if you’re a more technical user, you’re going to want the additional control that actually writing the code yourself gives you. I think visual workflow editors are good for debugging and understanding the general flow of what your agent is doing. But I don’t think they are the way to go and actually build these agents.
CodexSDK
Claude Code and the Codex CLI are the best agentic platforms out there right now since they were made by the model creators, and will continue to be in the future since they will be able to train their models on these frameworks specifically.
Claude Code has the Claude Agent SDK (recently rebranded from the Claude Code SDK), which allows you to programmatically use Claude Code and build your own workflows with it. The CodexCLI was missing its own SDK to use (something I thought about building myself), but it now exists.
This unlocks a whole new set of problems that you can conquer, as GPT-5 does not get stuck or hallucinate nearly as much as Claude does, and also has a far greater attention to detail.
The library is only in typescript for now unfortunately, but I expect a python version to be released in the near future as well. If you want to play around with it now, you can check it out in the Codex github.
Misc
- Sora 2 via the api
- Good pricing, much more severe restrictions than on the app
- GPT 5 Pro API access
- Not a model most people know of, since you could only use it on the $200/month plan. You still shouldn’t use it, as it’s only a few percent better than normal GPT-5 high while being 12x more expensive.
- GPT realtime mini and GPT image mini
- smaller, faster, and cheaper versions of their normal counterparts. Expect quality to take a bit of a hit, but if you can handle the blow, these models will be much more cost effective.
Releases
Qwen3 VL 30B
Two weeks ago I complained about how Qwen3-VL was only 235B parameters and how I would like to have a 30B version as well.
Well my wish came true, as this week they released the Qwen3-VL-30B model.

The model does very well in image and video benchmarks for its size, and also shows negligible decreases in its text only abilities as well.
Because of its multimodal ability and string text performance, along with its fast inference speed (its a MoE model with only 3B active params), I am switching to it as my local daily driver LLM.
Liquid AI 8B
Liquid AI has recently been specing heavily into the small, efficient model space, which has been ignored by pretty much all of the major labs up to this point, despite being wanted by many consumers and businesses alike.
This week they continued this trend, releasing LFM2-8B-A1B, which, as the name suggest, has 8B parameters with 1B active, making it very fast, even on edge devices.
It benchmarks around the Qwen3 4B level, while being 3x faster.

This is an extremely attractive model for deployment on phones, since they have the available memory to load the model in 4bit (~4GB) and the model can run at a very respectible 50 tokens per second on an iPhone 17, while also being smart enough to be usable for real world tasks.
NeuTTS
There is a new, small, high quality text to speech model that can do voice cloning. It’s a 600 million parameter model called NeuTTS Air.
There are a bunch of models like this that get released every week, but this one stood out, as it has very natural sounding voice cloning, something that most models struggle with a lot. They normally tend to be robotic, noisy, or choppy, but NeuTTS doesn;t have any of these issues.
You don’t have to take my word for it though, you can test it right now for free on Huggingface.
Quick Hits
Do LLMs like to gamble too much?
Do LLMs internalize human-like cognitive biases, like gambling addictions? The answer seems to be yes, as researchers have recently discovered.

Finish
I hope you enjoyed the news this week. If you want to get the news every week, be sure to join our mailing list below.
Dancing through the void — by me (Andrew) using Fluxmania Legacy and the SynthWave Lora Nota: Este artigo foi traduzido automaticamente com Claude Sonnet 4.5; a qualidade pode estar reduzida, especialmente na terminologia técnica.
Notícias
Oferta Especial do Plano GLM Coding
Nós falamos bastante nas últimas semanas sobre a Z.ai e sua série de modelos GLM e como é o melhor negócio para codificação agêntica agora por apenas $3 por mês.
Agora esse negócio fica ainda melhor; novos usuários podem usar o código de convite do Vector Lab para obter 10% de desconto em qualquer plano GLM Coding.
GLM-4.6 supera o claude-4-5-sonnet enquanto é ~8x mais barato — de gum1hox no Twitter (nota: este é um benchmark de matemática)
OpenAI Dev Day
Chat with Apps
O primeiro anúncio do Dev Day foi a capacidade de Chat with Apps. Este recurso permite que você incorpore seu site no aplicativo ChatGPT, permitindo que os usuários interajam com o aplicativo e também usem o ChatGPT para controlar o aplicativo e responder a quaisquer perguntas que o usuário possa ter, levando em consideração o contexto atual do aplicativo para responder melhor à pergunta.
Agora pode ser usado mencionando diretamente um dos aplicativos parceiros que já foram lançados (como Canva), ou para uma determinada solicitação, o modelo também pode sugerir um aplicativo para usar.
É muito fácil construir seu próprio aplicativo para ChatGPT, eles construíram o SDK em cima do protocolo MCP, se você tiver um servidor MCP existente, tudo que você precisa é de uma ferramenta que retorne uma UI e ela deve funcionar no ChatGPT.
No entanto, conseguir que seu aplicativo seja publicado é uma questão totalmente diferente, já que a OpenAI parece estar permitindo apenas que empresas selecionadas adicionem seus aplicativos ao site do ChatGPT. Agora existem 7, com mais 11 a caminho. A OpenAI diz que avaliará mais perto do final do ano, mas eu não ficaria prendendo a respiração em antecipação se você é uma startup pequena.
AgentKit
O próximo grande lançamento é sua plataforma de construção de agentes. Esta plataforma é semelhante ao N8N ou ComfyUI, onde possui um conjunto de nós que você pode conectar a outros nós para poder criar um fluxo de trabalho personalizado para seus agentes.

A equipe da OpenAI afirma que foi principalmente vibe-coded usando seus modelos Codex ao longo de seis semanas.
Isso não é necessariamente uma coisa boa, pois muitos usuários mencionaram falta de refinamento no aplicativo, bem como UI complicada e confusa.
Pessoalmente, não acho que esses construtores visuais sejam tão úteis. Acho que se você é um usuário não técnico, não quer ter que se preocupar com nenhuma lógica. E você só quer poder dar uma descrição da tarefa e ter um agente que vá e construa o fluxo de trabalho ou código real para você. E se você é um usuário mais técnico, vai querer o controle adicional que escrever o código você mesmo lhe dá. Acho que os editores de fluxo de trabalho visual são bons para depuração e compreensão do fluxo geral do que seu agente está fazendo. Mas não acho que sejam o caminho a seguir e realmente construir esses agentes.
CodexSDK
Claude Code e o Codex CLI são as melhores plataformas agênticas disponíveis agora, já que foram feitas pelos criadores dos modelos, e continuarão a ser no futuro, pois poderão treinar seus modelos especificamente nesses frameworks.
Claude Code tem o Claude Agent SDK (recentemente renomeado de Claude Code SDK), que permite usar programaticamente o Claude Code e construir seus próprios fluxos de trabalho com ele. O CodexCLI estava sem seu próprio SDK para usar (algo que pensei em construir eu mesmo), mas agora existe.
Isso desbloqueia um conjunto totalmente novo de problemas que você pode conquistar, já que o GPT-5 não fica travado ou alucina quase tanto quanto o Claude, e também tem uma atenção aos detalhes muito maior.
A biblioteca está apenas em typescript por enquanto, infelizmente, mas espero que uma versão em python seja lançada em um futuro próximo também. Se você quiser brincar com ela agora, pode conferir no github do Codex.
Diversos
- Sora 2 via API
- Bom preço, restrições muito mais severas do que no aplicativo
- Acesso à API do GPT 5 Pro
- Não é um modelo que a maioria das pessoas conhece, já que você só podia usá-lo no plano de $200/mês. Você ainda não deveria usá-lo, pois é apenas alguns por cento melhor que o GPT-5 high normal enquanto é 12x mais caro.
- GPT realtime mini e GPT image mini
- versões menores, mais rápidas e mais baratas de suas contrapartes normais. Espere que a qualidade sofra um pouco, mas se você puder aguentar o golpe, esses modelos serão muito mais econômicos.
Lançamentos
Qwen3 VL 30B
Duas semanas atrás, reclamei sobre como o Qwen3-VL tinha apenas 235B de parâmetros e como eu gostaria de ter uma versão de 30B também.
Bem, meu desejo se tornou realidade, já que esta semana eles lançaram o modelo Qwen3-VL-30B.

O modelo se sai muito bem em benchmarks de imagem e vídeo para seu tamanho, e também mostra diminuições insignificantes em suas habilidades apenas de texto também.
Por causa de sua capacidade multimodal e forte desempenho em texto, juntamente com sua velocidade rápida de inferência (é um modelo MoE com apenas 3B de parâmetros ativos), estou mudando para ele como meu LLM local do dia a dia.
Liquid AI 8B
A Liquid AI tem recentemente investido pesadamente no espaço de modelos pequenos e eficientes, que foi ignorado por praticamente todos os grandes laboratórios até este ponto, apesar de ser desejado por muitos consumidores e empresas.
Esta semana, eles continuaram essa tendência, lançando LFM2-8B-A1B, que, como o nome sugere, tem 8B de parâmetros com 1B ativo, tornando-o muito rápido, mesmo em dispositivos edge.
Ele faz benchmarks em torno do nível Qwen3 4B, enquanto é 3x mais rápido.

Este é um modelo extremamente atraente para implantação em telefones, já que eles têm a memória disponível para carregar o modelo em 4bit (~4GB) e o modelo pode rodar a 50 tokens por segundo muito respeitáveis em um iPhone 17, enquanto também é inteligente o suficiente para ser utilizável para tarefas do mundo real.
NeuTTS
Existe um novo modelo pequeno e de alta qualidade de texto para fala que pode fazer clonagem de voz. É um modelo de 600 milhões de parâmetros chamado NeuTTS Air.
Existem vários modelos como este que são lançados toda semana, mas este se destacou, pois tem uma clonagem de voz de som muito natural, algo com o qual a maioria dos modelos luta muito. Normalmente tendem a ser robóticos, ruidosos ou entrecortados, mas o NeuTTS não tem nenhum desses problemas.
Você não precisa acreditar na minha palavra, no entanto, você pode testá-lo agora gratuitamente no Huggingface.
Quick Hits
Os LLMs também gostam de apostar demais?
Os LLMs internalizam vieses cognitivos semelhantes aos humanos, como vícios em jogos de azar? A resposta parece ser sim, como pesquisadores descobriram recentemente.

Conclusão
Espero que você tenha gostado das notícias desta semana. Se você quiser receber as notícias toda semana, certifique-se de se juntar à nossa lista de e-mails abaixo.
Dançando através do vazio — por mim (Andrew) usando Fluxmania Legacy e o SynthWave Lora Nota: Este artículo fue traducido automáticamente con Claude Sonnet 4.5; la calidad puede verse degradada, especialmente en la terminología técnica.
resumen
- El plan GLM Coding tiene un 10% de descuento si usas el código de registro de Vector Lab
- OpenAI lanza Chat with Apps, Agentkit y un montón de otras cosas en el Dev Day
- Qwen3 VL obtiene una variante pequeña
- ¿Se le puede dar una adicción al juego a un LLM?
- ¡Y más en las noticias de esta semana!
Noticias
Oferta Especial del Plan GLM Coding
Hemos hablado bastante las últimas semanas sobre Z.ai y su serie de modelos GLM y cómo es la mejor oferta para codificación agéntica en este momento a solo $3 al mes.
Ahora ese trato se vuelve aún mejor; los nuevos usuarios pueden usar el código de invitación de Vector Lab para obtener un 10% de descuento en cualquier plan GLM Coding.
GLM-4.6 supera a claude-4-5-sonnet mientras es ~8x más barato — de gum1hox en Twitter (nota, este es un benchmark de matemáticas)
Dev Day de OpenAI
Chat with Apps
El primer anuncio del Dev Day fue la capacidad de Chat with Apps. Esta función te permite incrustar tu sitio web en la aplicación ChatGPT, permitiendo a los usuarios interactuar con la aplicación y también usar ChatGPT para controlar la aplicación y responder cualquier pregunta que el usuario pueda tener, tomando el contexto actual de la aplicación para responder mejor la pregunta.
Ahora mismo se puede usar mencionando directamente una de las aplicaciones asociadas que ya han sido lanzadas (como Canva), o para una solicitud dada el modelo también puede sugerir una aplicación para usar.
Es muy fácil construir tu propia aplicación para ChatGPT, han construido el SDK sobre el protocolo MCP, si tienes un servidor MCP existente, todo lo que necesitas es una herramienta que devuelva una UI y debería funcionar en ChatGPT.
Sin embargo, lograr que tu aplicación sea publicada es un asunto completamente diferente, ya que OpenAI parece estar permitiendo solo que negocios selectos agreguen sus aplicaciones al sitio web de ChatGPT. Ahora mismo hay 7, con 11 más en camino. OpenAI dice que evaluarán más cerca del fin de año, pero no estaría esperando ansiosamente si eres una startup pequeña.
AgentKit
El siguiente lanzamiento importante es su plataforma de construcción de agentes. Esta plataforma es similar a N8N o ComfyUI, donde tiene un conjunto de nodos que puedes encadenar en otros nodos para poder crear un flujo de trabajo personalizado para tus agentes.

El equipo de OpenAI afirma que fue principalmente programado por vibras usando sus modelos Codex durante el transcurso de seis semanas.
Esto no es necesariamente algo bueno, ya que muchos usuarios han mencionado una falta de pulido en la aplicación, así como una UI complicada y confusa.
Personalmente no creo que estos constructores visuales sean tan útiles. Creo que si eres un usuario no técnico, no quieres tener que preocuparte por ninguna lógica en absoluto. Y solo quieres poder dar una descripción de la tarea y hacer que un agente vaya y construya el flujo de trabajo o código real por ti. Y si eres un usuario más técnico, vas a querer el control adicional que te da escribir el código tú mismo. Creo que los editores de flujo de trabajo visuales son buenos para depurar y entender el flujo general de lo que tu agente está haciendo. Pero no creo que sean la forma de construir realmente estos agentes.
CodexSDK
Claude Code y el Codex CLI son las mejores plataformas agénticas que existen en este momento, ya que fueron hechas por los creadores de los modelos, y seguirán siéndolo en el futuro ya que podrán entrenar sus modelos específicamente en estos frameworks.
Claude Code tiene el Claude Agent SDK (recientemente renombrado desde el Claude Code SDK), que te permite usar Claude Code programáticamente y construir tus propios flujos de trabajo con él. El CodexCLI carecía de su propio SDK para usar (algo que pensé en construir yo mismo), pero ahora existe.
Esto desbloquea un conjunto completamente nuevo de problemas que puedes conquistar, ya que GPT-5 no se atasca ni alucina tanto como Claude, y también tiene una atención al detalle mucho mayor.
La librería está solo en typescript por ahora desafortunadamente, pero espero que una versión en python sea lanzada en el futuro cercano también. Si quieres jugar con ella ahora, puedes verla en el github de Codex.
Miscelánea
- Sora 2 vía la api
- Buenos precios, restricciones mucho más severas que en la aplicación
- Acceso a la API de GPT 5 Pro
- No es un modelo que la mayoría de la gente conozca, ya que solo podías usarlo en el plan de $200/mes. Todavía no deberías usarlo, ya que es solo unos pocos puntos porcentuales mejor que el GPT-5 high normal mientras es 12x más caro.
- GPT realtime mini y GPT image mini
- versiones más pequeñas, rápidas y baratas de sus contrapartes normales. Espera que la calidad reciba un golpe, pero si puedes manejar el impacto, estos modelos serán mucho más rentables.
Lanzamientos
Qwen3 VL 30B
Hace dos semanas me quejé de cómo Qwen3-VL tenía solo 235B parámetros y cómo me gustaría tener una versión de 30B también.
Bueno, mi deseo se hizo realidad, ya que esta semana lanzaron el modelo Qwen3-VL-30B.

El modelo funciona muy bien en benchmarks de imagen y video para su tamaño, y también muestra disminuciones insignificantes en sus habilidades solo de texto también.
Debido a su capacidad multimodal y fuerte rendimiento de texto, junto con su velocidad de inferencia rápida (es un modelo MoE con solo 3B parámetros activos), estoy cambiando a él como mi LLM local de uso diario.
Liquid AI 8B
Liquid AI se ha estado especializando recientemente mucho en el espacio de modelos pequeños y eficientes, que ha sido ignorado por prácticamente todos los laboratorios importantes hasta este punto, a pesar de ser deseado por muchos consumidores y negocios por igual.
Esta semana continuaron esta tendencia, lanzando LFM2-8B-A1B, que, como sugiere el nombre, tiene 8B parámetros con 1B activo, haciéndolo muy rápido, incluso en dispositivos edge.
Su benchmark está alrededor del nivel de Qwen3 4B, mientras es 3x más rápido.

Este es un modelo extremadamente atractivo para el despliegue en teléfonos, ya que tienen la memoria disponible para cargar el modelo en 4bit (~4GB) y el modelo puede ejecutarse a unos muy respetables 50 tokens por segundo en un iPhone 17, mientras también es lo suficientemente inteligente para ser utilizable en tareas del mundo real.
NeuTTS
Hay un nuevo modelo pequeño y de alta calidad de texto a voz que puede hacer clonación de voz. Es un modelo de 600 millones de parámetros llamado NeuTTS Air.
Hay un montón de modelos como este que se lanzan cada semana, pero este destacó, ya que tiene clonación de voz que suena muy natural, algo con lo que la mayoría de los modelos luchan mucho. Normalmente tienden a ser robóticos, ruidosos o entrecortados, pero NeuTTS no tiene ninguno de estos problemas.
Sin embargo, no tienes que creer en mi palabra, puedes probarlo ahora mismo gratis en Huggingface.
Resumen Rápido
¿A los LLM también les gusta apostar demasiado?
¿Los LLM internalizan sesgos cognitivos similares a los humanos, como adicciones al juego? La respuesta parece ser sí, como los investigadores han descubierto recientemente.

Final
Espero que hayas disfrutado las noticias de esta semana. Si quieres recibir las noticias cada semana, asegúrate de unirte a nuestra lista de correo abajo.
Bailando a través del vacío — por mí (Andrew) usando Fluxmania Legacy y el SynthWave Lora