I often get asked what the best models are right now for a given task, and what models and tools I am using right now myself. This is meant to be a living document to keep track of what models are at the top of my mind right now.
Coding
Coding is by far my number 1 use case for AI, and I try all of the new models that show promise in the agentic coding space.
Agentic coding is when models perform autonomous software engineering, navigating your code base to understand where to make changes, editing the files, and then optionally running the code or tests that you have to verify its changes. This differs from regular coding ability, as non agentic coding is just how well a model can write a script one shot (usually).
For instance Claude Code, Cursor, Codex-cli are all agentic coding tools, while using the ChatGPT website is a more normal coding use case.
My coding style with these models is not the typical vibe coding that most other people use.
I am a software engineer from the pre-LLM takeover world, so I tend to be a bit more opinionated about how I want my codebase to be structured. I also like to have nontrivial control over the design of the product that I am building.
Because of this, my coding setup has a lot of documentation about the specific project that I am working on in CLAUDE.md, cursorrules, or AGENTS.md files. I have templates for webapps to guide LLM’s on the frameworks that I want to use and the rules for how and where to add code to it. My prompts also tend to be very involved as well, especially for newer projects or larger features. I have had many prompts that are thousands of words long, describing in detail the pages and interactions that I want my app to have.
Another major thing I do with the agent before it starts coding is go through a design phase where it can ask questions and then outline how it will be building the features that I requested. That way I can see where the LLM is not understanding what I am asking from it and potentially tweak features based on feedback from the LLM.
In my mind, there are 3 major players in the agentic coding framework space to consider:
The rest of the companies are derivative of these 3 and may have a slightly different user experience, but will be around the same performance of the three I listed above.
In my mind AI “wrappers” like Cursor will end up losing long term, since OpenAI and Anthropic will be able to train their models specifically to their frameworks (Claude Code and Codex), making the framework fit like a glove for the model.
With all that being said, what are my recommendations for what to use?
The best model and framework out there by far is GPT-5 codex in OpenAI’s Codex platform. It has an unprecedented level of attention to detail, and is also very thorough with the work that it does. It has the best bug fixing ability, and very rarely introduces any new bugs to the codebase. The one downside of it is that you can run into rate limit issues if you are on the $20 plan (this is the same plan that you would have for the ChatGPT website, so you probably already have one!)and are using it heavily. It is not as bad as Anthropic’s rate limits on their $20 plan, and if you step up to the $200 OpenAI plan, then the rate limits are basically non-existent.
The GPT-5-codex model is a finetune of GPT-5 meant specifically for agentic coding in Codex.
Another benefit of Codex is that it is available everywhere. They have a CLI extension similar to Claude Code, a VSCode extension, and you can also use it from the ChatGPT website and mobile app, allowing you to code on the go.
With these rate limits though, you will often need another LLM to fall back on, which is where the second model I use, GLM 4.6, comes in.
GLM 4.6 is from the Z.ai lab in China, and is the best open source coding model right now.
Z.ai offers a $3/month plan that gives you 4x the usage limits as the Anthropic $20/month plan, while being almost 10x cheaper.
It also integrates directly into Claude Code instead of needing another separate framework, so you get all the niceties and integration that Anthropic has added to their product.
I use GPT-5 for building out large features and initial mockups using the large prompts that I write, and then I will open 4 instances of Claude Code using GLM 4.6 and have each model address a separate bug fix, tweak, or small feature for the app.
If GLM is unable to fulfill my request (usually weird bugs) then I escalate the issue to Codex to fix. I have yet to run into an issue GPT-5 was unable to solve.
Many of you are probably thinking “What about Claude? Where does it stack up against GPT-5 and GLM 4.6?”.
My opinion (and also the popular consensus from what I’ve seen) give the following rankings:
- Gpt-5 Codex
- Claude Sonnet 4.5 and Opus 4.1 (use Sonnet please, Opus will chew through credits/money much faster and isn’t any better)
- GLM 4.6
- Claude Sonnet 4
GPT-5 is a noticeable, nontrivial bump in quality vs Sonnet 4.5, and GLM 4.5 is good enough, especially considering the much better rate limits. Because of this Sonnet sits in no man’s land, where it is noticeably worse than GPT-5, and not a better value than GLM 4.6.
Monthly cost breakdown:
- $20 for ChatGPT Plus
- $3 for GLM Coding Plan
Day to day use
General
For most of my other, non-coding queries, I need the AI to do some form of research or comparison, and for that I turn to GPT-5 on the ChatGPT website.
I am not the biggest OpenAI fan, but GPT-5 for both coding and general use is the best model out there by far. The experience on ChatGPT is seamless, and is what I would build if I were to do it myself.
For pretty much any use case, GPT-5 will be the best model. What makes it so great, outside of its raw intelligence, is its very low hallucination rate. Hallucinations are a killer for most AI systems, especially in live production environments, and with GPT-5 they are finally at a low enough rate where I feel comfortable using it for customer facing applications. There have been numerous queries that I have given where I would expect any other LLM to hallucinate an answer, but GPT-5 does not. It is the only model that I have used where it told me it didn’t know the answer to my question, without my having to prompt it to do so.
Multimodal
The one place that GPT-5 falls short is image and video understanding. For image understanding you can look at Gemini 2.5 Pro and Qwen3 VL (the big one, not the 30B one).
For any other modalities (video and audio) Gemini 2.5 Pro is the go to, nothing else is close (for an LLM).
Local
At home, I run Qwen3 VL 30B. This model is a mixture of experts model with 3B active parameters, making it very fast (>150 tokens per second on my 3090). It is the best small model right now that can do both image and text inputs.
Usually, especially with these smaller models, the regular text performance is degraded nontrivially when finetuning the model for image understanding, but the Qwen team has managed to maintain most of the model’s text abilities. For its size, it is the best image and text model out there right now.
The one downside with Qwen3 VL 30B however is that it uses all of the available VRAM on my system when I have it loaded, so I am unable to run any other models at the same time, like automatic speech recognition or text to speech model.
For this case, I run Qwen3 4B, giving a good balance of size and quality.
For the Qwen models, be sure you are using the 2507 versions, they are the updated versions and have a much better chat post training. Only the 4B, 30B, and 235B variants have been updated.
Image generation
Overall
The best image generation model out there right now by a decent margin is Seedream 4. It can generate images up to 4k, and only costs 3 cents per image on sites like Fal or Replicate.
To see the benchmarks for the best image generation models, check out Artificial Analysis.
Local
For myself, I prefer to generate images locally using ComfyUI, using loras to control the style. Also at the scale I generate images at (over 12k so far) it saves me a bunch of money to do so at home instead of paying to use a model.
I have switched back and forth between Qwen Image and Flux for my local setup, and have settled (for now) on using Flux for the majority of my workflows.
I think Qwen is the better base image generation model, but it just doesn’t have the community support that Flux has (very few loras) and also is about 25% slower to run as well.
Also with large finetunes that make a better Flux base model like FluxMania and PixelWave, I am able to close the gap in terms of performance compared to Qwen.
Current base model:
FluxMania Legacy
Some of my favorite loras:
Synthwave
Retro Anime
Daubrez Style
Luminous Shadowscape
Illustration Concept
Video generation
Closed Source
For video generation, Sora 2 from OpenAI is the best out there right now. It has some of the best physics understanding, native audio generation, and competitive pricing at $0.10 per second. The one downside is that it is rather restrictive to use via the API, for instance you can use an image of a person as the first frame for the video.
Other notable models to check out if the Sora restrictions are too harsh for you: Veo3 and Kling 2.5 Turbo.
Once again, similar to the image models, Artificial Analysis has a leaderboard to check out the models and their rankings. Of note, Sora 2 is not a part of the models evaluated on the Artificial Analysis site.
Open Source
For open source models, the Wan 2.2 series of models from Alibaba is the king. There are many different variants, including speech to video, camera control models, and also animation.
Most of them, while being the best we have, are a bit lacking compared to the closed source models. The only one that isn’t is the Wan 2.2 Animate model.
This model allows you to take an input video and a reference image, and add the reference image to the video. It is very good at doing this, giving extremely realistic and detailed outputs.
Automatic Speech Recognition
There are not really any closed source models per say for the ASR space, mostly just companies selling systems that have ASR models. Two of these companies you can check out are Deepgram and Assembly AI. They can do ASR, and speaker identification (diarization), amongst many other audio related tasks.
Diarization is the main selling point of these systems when compared to the open source landscape, since we have many strong ASR models, but our diarization models are very poor in comparison.
For local models you have Whisper and Nvidia Parakeet and Canary. I personally think the Whisper models are a bit silly, using a poor architecture and a brute force training scheme. It is, however, very well supported in the open source community making it easy to use.
Parakeet and Canary are both much faster, and more accurate models from Nvidia, but they do lack the large number of languages that Whisper supports.
I personally run the Parakeet 0.6b model, which is 15x faster than the fastest Whisper variant, while also having 15% lower WER.
Text to Speech
ElevenLab is the King for closed source models.
For open source, there are a ton of options, with more being added every week. The ones that have stood out to me tend to be the small and fast ones, since they are the most practical for real world deployments where latency matters.
Because of this, I use Kokoro for voice generation on the edge and NeuTTS for voice cloning and cases where high quality audio is needed.
Nota: Este artigo foi traduzido automaticamente com Claude Sonnet 4.5; a qualidade pode estar reduzida, especialmente na terminologia técnica.
Frequentemente me perguntam quais são os melhores modelos atualmente para uma determinada tarefa, e quais modelos e ferramentas estou usando no momento. Este documento tem como objetivo ser um registro atualizado dos modelos que estão em destaque para mim agora.
Programação
Programação é de longe meu caso de uso número 1 para IA, e eu experimento todos os novos modelos que mostram potencial no espaço de codificação agêntica.
Codificação agêntica é quando modelos realizam engenharia de software autônoma, navegando em sua base de código para entender onde fazer alterações, editando os arquivos e, em seguida, opcionalmente executando o código ou testes que você possui para verificar suas mudanças. Isso difere da capacidade de codificação regular, pois a codificação não agêntica é apenas o quão bem um modelo pode escrever um script de uma só vez (geralmente).
Por exemplo, Claude Code, Cursor, Codex-cli são todas ferramentas de codificação agêntica, enquanto usar o site ChatGPT é um caso de uso de codificação mais normal.
Meu estilo de codificação com esses modelos não é a codificação típica por vibração que a maioria das outras pessoas usa.
Sou um engenheiro de software do mundo pré-dominação dos LLMs, então tendo a ser um pouco mais opinativo sobre como quero que minha base de código seja estruturada. Também gosto de ter controle não trivial sobre o design do produto que estou construindo.
Por causa disso, minha configuração de codificação tem muita documentação sobre o projeto específico em que estou trabalhando em arquivos CLAUDE.md, cursorrules ou AGENTS.md. Tenho templates para webapps para guiar os LLMs sobre os frameworks que quero usar e as regras de como e onde adicionar código. Meus prompts também tendem a ser muito elaborados, especialmente para projetos mais novos ou recursos maiores. Já tive muitos prompts com milhares de palavras, descrevendo em detalhes as páginas e interações que quero que meu app tenha.
Outra coisa importante que faço com o agente antes de começar a codificar é passar por uma fase de design onde ele pode fazer perguntas e depois delinear como construirá os recursos que solicitei. Dessa forma, posso ver onde o LLM não está entendendo o que estou pedindo e potencialmente ajustar recursos com base no feedback do LLM.
Na minha opinião, existem 3 grandes players no espaço de frameworks de codificação agêntica a considerar:
O restante das empresas são derivativas dessas 3 e podem ter uma experiência de usuário ligeiramente diferente, mas terão aproximadamente o mesmo desempenho das três que listei acima.
Na minha opinião, “wrappers” de IA como Cursor acabarão perdendo a longo prazo, já que OpenAI e Anthropic serão capazes de treinar seus modelos especificamente para seus frameworks (Claude Code e Codex), fazendo o framework se encaixar perfeitamente ao modelo.
Dito tudo isso, quais são minhas recomendações sobre o que usar?
O melhor modelo e framework disponível de longe é o GPT-5 codex na plataforma Codex da OpenAI. Ele tem um nível sem precedentes de atenção aos detalhes e também é muito minucioso com o trabalho que faz. Tem a melhor capacidade de correção de bugs e muito raramente introduz novos bugs na base de código. A única desvantagem é que você pode encontrar problemas de limite de taxa se estiver no plano de $20 (este é o mesmo plano que você teria para o site ChatGPT, então provavelmente você já tem um!) e estiver usando muito. Não é tão ruim quanto os limites de taxa da Anthropic em seu plano de $20, e se você avançar para o plano OpenAI de $200, então os limites de taxa são basicamente inexistentes.
O modelo GPT-5-codex é um ajuste fino do GPT-5 feito especificamente para codificação agêntica no Codex.
Outro benefício do Codex é que está disponível em todos os lugares. Eles têm uma extensão CLI similar ao Claude Code, uma extensão VSCode, e você também pode usá-lo no site ChatGPT e aplicativo móvel, permitindo que você codifique em movimento.
Com esses limites de taxa, no entanto, você frequentemente precisará de outro LLM como alternativa, que é onde entra o segundo modelo que uso, GLM 4.6.
GLM 4.6 é do laboratório Z.ai na China, e é o melhor modelo de codificação open source atualmente.
Z.ai oferece um plano de $3/mês que dá 4x os limites de uso do plano Anthropic de $20/mês, enquanto é quase 10x mais barato.
Ele também se integra diretamente ao Claude Code em vez de precisar de outro framework separado, então você obtém todas as facilidades e integração que a Anthropic adicionou ao seu produto.
Uso GPT-5 para construir recursos grandes e mockups iniciais usando os prompts grandes que escrevo, e então abro 4 instâncias do Claude Code usando GLM 4.6 e faço cada modelo abordar uma correção de bug separada, ajuste ou pequeno recurso para o app.
Se GLM não conseguir atender minha solicitação (geralmente bugs estranhos), então escalo o problema para o Codex corrigir. Ainda não encontrei um problema que o GPT-5 não conseguisse resolver.
Muitos de vocês provavelmente estão pensando “E quanto ao Claude? Onde ele se compara ao GPT-5 e GLM 4.6?”.
Minha opinião (e também o consenso popular do que vi) dá as seguintes classificações:
- Gpt-5 Codex
- Claude Sonnet 4.5 e Opus 4.1 (use Sonnet por favor, Opus consumirá créditos/dinheiro muito mais rápido e não é melhor)
- GLM 4.6
- Claude Sonnet 4
GPT-5 é um aumento notável e não trivial em qualidade vs Sonnet 4.5, e GLM 4.5 é bom o suficiente, especialmente considerando os limites de taxa muito melhores. Por causa disso, Sonnet fica em terra de ninguém, onde é visivelmente pior que GPT-5, e não é um melhor custo-benefício que GLM 4.6.
Detalhamento de custo mensal:
- $20 para ChatGPT Plus
- $3 para GLM Coding Plan
Uso diário
Geral
Para a maioria das minhas outras consultas, não relacionadas a codificação, preciso que a IA faça alguma forma de pesquisa ou comparação, e para isso recorro ao GPT-5 no site ChatGPT.
Não sou o maior fã da OpenAI, mas GPT-5 tanto para codificação quanto para uso geral é o melhor modelo disponível de longe. A experiência no ChatGPT é perfeita, e é o que eu construiria se fosse fazer eu mesmo.
Para praticamente qualquer caso de uso, GPT-5 será o melhor modelo. O que o torna tão ótimo, além de sua inteligência bruta, é sua taxa de alucinação muito baixa. Alucinações são fatais para a maioria dos sistemas de IA, especialmente em ambientes de produção ao vivo, e com o GPT-5 elas estão finalmente em uma taxa baixa o suficiente onde me sinto confortável usando-o para aplicações voltadas ao cliente. Houve inúmeras consultas que fiz onde eu esperaria que qualquer outro LLM alucinasse uma resposta, mas o GPT-5 não faz isso. É o único modelo que usei onde ele me disse que não sabia a resposta para minha pergunta, sem eu ter que induzi-lo a fazer isso.
Multimodal
O único lugar onde o GPT-5 fica aquém é o entendimento de imagem e vídeo. Para entendimento de imagem, você pode olhar para Gemini 2.5 Pro e Qwen3 VL (o grande, não o de 30B).
Para quaisquer outras modalidades (vídeo e áudio) Gemini 2.5 Pro é a escolha, nada mais chega perto (para um LLM).
Local
Em casa, executo Qwen3 VL 30B. Este modelo é um modelo de mistura de especialistas com 3B de parâmetros ativos, tornando-o muito rápido (>150 tokens por segundo na minha 3090). É o melhor modelo pequeno atualmente que pode fazer entradas de imagem e texto.
Geralmente, especialmente com esses modelos menores, o desempenho de texto regular é degradado de forma não trivial ao fazer o ajuste fino do modelo para entendimento de imagem, mas a equipe Qwen conseguiu manter a maioria das habilidades de texto do modelo. Para seu tamanho, é o melhor modelo de imagem e texto disponível atualmente.
A única desvantagem do Qwen3 VL 30B, no entanto, é que ele usa toda a VRAM disponível no meu sistema quando está carregado, então não consigo executar outros modelos ao mesmo tempo, como reconhecimento automático de fala ou modelo de texto para fala.
Para este caso, executo Qwen3 4B, oferecendo um bom equilíbrio de tamanho e qualidade.
Para os modelos Qwen, certifique-se de estar usando as versões 2507, elas são as versões atualizadas e têm um pós-treinamento de chat muito melhor. Apenas as variantes 4B, 30B e 235B foram atualizadas.
Geração de imagens
Geral
O melhor modelo de geração de imagens disponível atualmente por uma margem decente é o Seedream 4. Ele pode gerar imagens de até 4k, e custa apenas 3 centavos por imagem em sites como Fal ou Replicate.
Para ver os benchmarks dos melhores modelos de geração de imagens, confira Artificial Analysis.
Local
Para mim, prefiro gerar imagens localmente usando ComfyUI, usando loras para controlar o estilo. Também na escala em que gero imagens (mais de 12k até agora) economizo muito dinheiro fazendo isso em casa em vez de pagar para usar um modelo.
Alternei entre Qwen Image e Flux para minha configuração local, e me decidi (por enquanto) em usar Flux para a maioria dos meus workflows.
Acho que Qwen é o melhor modelo base de geração de imagens, mas simplesmente não tem o suporte da comunidade que Flux tem (muito poucos loras) e também é cerca de 25% mais lento para executar.
Também com grandes ajustes finos que fazem um melhor modelo base Flux como FluxMania e PixelWave, consigo fechar a lacuna em termos de desempenho comparado ao Qwen.
Modelo base atual:
FluxMania Legacy
Alguns dos meus loras favoritos:
Synthwave
Retro Anime
Daubrez Style
Luminous Shadowscape
Illustration Concept
Geração de vídeo
Código Fechado
Para geração de vídeo, Sora 2 da OpenAI é o melhor disponível atualmente. Tem um dos melhores entendimentos de física, geração de áudio nativa, e preços competitivos a $0,10 por segundo. A única desvantagem é que é bastante restritivo de usar via API, por exemplo, você pode usar uma imagem de uma pessoa como o primeiro quadro do vídeo.
Outros modelos notáveis para conferir se as restrições do Sora forem muito severas para você: Veo3 e Kling 2.5 Turbo.
Mais uma vez, similar aos modelos de imagem, Artificial Analysis tem um ranking para conferir os modelos e suas classificações. Vale notar que Sora 2 não faz parte dos modelos avaliados no site Artificial Analysis.
Open Source
Para modelos open source, a série Wan 2.2 de modelos da Alibaba é a rei. Existem muitas variantes diferentes, incluindo fala para vídeo, modelos de controle de câmera, e também animação.
A maioria deles, embora sejam os melhores que temos, são um pouco deficientes comparados aos modelos de código fechado. O único que não é assim é o modelo Wan 2.2 Animate.
Este modelo permite que você pegue um vídeo de entrada e uma imagem de referência, e adicione a imagem de referência ao vídeo. É muito bom em fazer isso, fornecendo saídas extremamente realistas e detalhadas.
Reconhecimento Automático de Fala
Não existem realmente modelos de código fechado propriamente ditos para o espaço ASR, principalmente apenas empresas vendendo sistemas que têm modelos ASR. Duas dessas empresas que você pode conferir são Deepgram e Assembly AI. Eles podem fazer ASR e identificação de falantes (diarização), entre muitas outras tarefas relacionadas a áudio.
Diarização é o principal ponto de venda desses sistemas quando comparados ao cenário open source, já que temos muitos modelos ASR fortes, mas nossos modelos de diarização são muito ruins em comparação.
Para modelos locais você tem Whisper e Nvidia Parakeet e Canary. Pessoalmente acho os modelos Whisper um pouco bobos, usando uma arquitetura pobre e um esquema de treinamento de força bruta. É, no entanto, muito bem suportado na comunidade open source tornando-o fácil de usar.
Parakeet e Canary são ambos muito mais rápidos e modelos mais precisos da Nvidia, mas carecem do grande número de idiomas que Whisper suporta.
Pessoalmente executo o modelo Parakeet 0.6b, que é 15x mais rápido que a variante Whisper mais rápida, enquanto também tem 15% menor WER.
Texto para Fala
ElevenLab é o Rei para modelos de código fechado.
Para open source, há uma tonelada de opções, com mais sendo adicionadas toda semana. As que se destacaram para mim tendem a ser as pequenas e rápidas, já que são as mais práticas para implantações no mundo real onde latência importa.
Por causa disso, uso Kokoro para geração de voz na borda e NeuTTS para clonagem de voz e casos onde áudio de alta qualidade é necessário.
Nota: Este artículo fue traducido automáticamente con Claude Sonnet 4.5; la calidad puede verse degradada, especialmente en la terminología técnica.
A menudo me preguntan cuáles son los mejores modelos en este momento para una tarea determinada, y qué modelos y herramientas estoy usando yo mismo ahora. Este documento está pensado para ser un documento vivo que haga seguimiento de qué modelos están en la cima de mi mente en este momento.
Programación
La programación es, por mucho, mi caso de uso número 1 para IA, y pruebo todos los nuevos modelos que muestran promesa en el espacio de programación agéntica.
La programación agéntica es cuando los modelos realizan ingeniería de software autónoma, navegando tu base de código para entender dónde hacer cambios, editando los archivos, y luego opcionalmente ejecutando el código o las pruebas que tienes para verificar sus cambios. Esto difiere de la capacidad de programación regular, ya que la programación no agéntica es simplemente qué tan bien un modelo puede escribir un script de una sola vez (usualmente).
Por ejemplo, Claude Code, Cursor, Codex-cli son todas herramientas de programación agéntica, mientras que usar el sitio web de ChatGPT es un caso de uso de programación más normal.
Mi estilo de programación con estos modelos no es la típica programación vibe que la mayoría de las otras personas usan.
Soy un ingeniero de software del mundo previo a la toma de control de los LLM, así que tiendo a ser un poco más obstinado sobre cómo quiero que esté estructurada mi base de código. También me gusta tener un control no trivial sobre el diseño del producto que estoy construyendo.
Debido a esto, mi configuración de programación tiene mucha documentación sobre el proyecto específico en el que estoy trabajando en archivos CLAUDE.md, cursorrules, o AGENTS.md. Tengo plantillas para aplicaciones web para guiar a los LLM sobre los frameworks que quiero usar y las reglas sobre cómo y dónde agregar código. Mis prompts también tienden a ser muy elaborados, especialmente para proyectos nuevos o características más grandes. He tenido muchos prompts de miles de palabras de largo, describiendo en detalle las páginas e interacciones que quiero que tenga mi aplicación.
Otra cosa importante que hago con el agente antes de que comience a programar es pasar por una fase de diseño donde puede hacer preguntas y luego delinear cómo construirá las características que solicité. De esa manera puedo ver dónde el LLM no está entendiendo lo que le estoy pidiendo y potencialmente ajustar características basándome en la retroalimentación del LLM.
En mi mente, hay 3 jugadores principales en el espacio de frameworks de programación agéntica a considerar:
El resto de las compañías son derivadas de estas 3 y pueden tener una experiencia de usuario ligeramente diferente, pero tendrán aproximadamente el mismo rendimiento de las tres que mencioné arriba.
En mi mente, los “wrappers” de IA como Cursor terminarán perdiendo a largo plazo, ya que OpenAI y Anthropic podrán entrenar sus modelos específicamente para sus frameworks (Claude Code y Codex), haciendo que el framework encaje como un guante para el modelo.
Dicho todo esto, ¿cuáles son mis recomendaciones sobre qué usar?
El mejor modelo y framework que existe por mucho es GPT-5 codex en la plataforma Codex de OpenAI. Tiene un nivel sin precedentes de atención al detalle, y también es muy minucioso con el trabajo que hace. Tiene la mejor capacidad de corrección de errores, y muy raramente introduce nuevos bugs a la base de código. La única desventaja es que puedes encontrarte con problemas de límite de tasa si estás en el plan de $20 (este es el mismo plan que tendrías para el sitio web de ChatGPT, ¡así que probablemente ya tienes uno!) y lo estás usando intensivamente. No es tan malo como los límites de tasa de Anthropic en su plan de $20, y si subes al plan de $200 de OpenAI, entonces los límites de tasa son básicamente inexistentes.
El modelo GPT-5-codex es un ajuste fino de GPT-5 destinado específicamente para programación agéntica en Codex.
Otro beneficio de Codex es que está disponible en todas partes. Tienen una extensión CLI similar a Claude Code, una extensión de VSCode, y también puedes usarla desde el sitio web y la aplicación móvil de ChatGPT, permitiéndote programar sobre la marcha.
Sin embargo, con estos límites de tasa, a menudo necesitarás otro LLM como respaldo, que es donde entra el segundo modelo que uso, GLM 4.6.
GLM 4.6 es del laboratorio Z.ai en China, y es el mejor modelo de programación de código abierto en este momento.
Z.ai ofrece un plan de $3/mes que te da 4x los límites de uso que el plan de $20/mes de Anthropic, mientras que es casi 10x más barato.
También se integra directamente en Claude Code en lugar de necesitar otro framework separado, así que obtienes todas las comodidades e integración que Anthropic ha agregado a su producto.
Uso GPT-5 para construir características grandes y maquetas iniciales usando los prompts largos que escribo, y luego abriré 4 instancias de Claude Code usando GLM 4.6 y haré que cada modelo aborde una corrección de error, ajuste o característica pequeña separada para la aplicación.
Si GLM no puede cumplir mi solicitud (usualmente bugs raros) entonces escalo el problema a Codex para arreglarlo. Todavía no me he encontrado con un problema que GPT-5 no pudiera resolver.
Muchos de ustedes probablemente estén pensando “¿Qué hay de Claude? ¿Dónde se compara contra GPT-5 y GLM 4.6?”.
Mi opinión (y también el consenso popular por lo que he visto) da las siguientes clasificaciones:
- Gpt-5 Codex
- Claude Sonnet 4.5 y Opus 4.1 (usa Sonnet por favor, Opus consumirá créditos/dinero mucho más rápido y no es mejor)
- GLM 4.6
- Claude Sonnet 4
GPT-5 es un aumento notable y no trivial en calidad vs Sonnet 4.5, y GLM 4.5 es lo suficientemente bueno, especialmente considerando los límites de tasa mucho mejores. Debido a esto, Sonnet se sienta en tierra de nadie, donde es notablemente peor que GPT-5, y no es un mejor valor que GLM 4.6.
Desglose de costos mensuales:
- $20 para ChatGPT Plus
- $3 para GLM Coding Plan
Uso del día a día
General
Para la mayoría de mis otras consultas, no relacionadas con programación, necesito que la IA haga alguna forma de investigación o comparación, y para eso recurro a GPT-5 en el sitio web de ChatGPT.
No soy el mayor fan de OpenAI, pero GPT-5 tanto para programación como para uso general es el mejor modelo que existe por mucho. La experiencia en ChatGPT es fluida, y es lo que yo construiría si lo hiciera yo mismo.
Para prácticamente cualquier caso de uso, GPT-5 será el mejor modelo. Lo que lo hace tan genial, aparte de su inteligencia bruta, es su tasa de alucinaciones muy baja. Las alucinaciones son un asesino para la mayoría de los sistemas de IA, especialmente en entornos de producción en vivo, y con GPT-5 finalmente están a una tasa lo suficientemente baja donde me siento cómodo usándolo para aplicaciones de cara al cliente. Ha habido numerosas consultas que he dado donde esperaría que cualquier otro LLM alucinara una respuesta, pero GPT-5 no lo hace. Es el único modelo que he usado donde me dijo que no sabía la respuesta a mi pregunta, sin que yo tuviera que indicarle que lo hiciera.
Multimodal
El único lugar donde GPT-5 se queda corto es en la comprensión de imágenes y video. Para la comprensión de imágenes puedes mirar Gemini 2.5 Pro y Qwen3 VL (el grande, no el de 30B).
Para cualquier otra modalidad (video y audio) Gemini 2.5 Pro es la opción a seguir, nada más está cerca (para un LLM).
Local
En casa, ejecuto Qwen3 VL 30B. Este modelo es un modelo de mezcla de expertos con 3B parámetros activos, haciéndolo muy rápido (>150 tokens por segundo en mi 3090). Es el mejor modelo pequeño en este momento que puede hacer tanto entradas de imagen como de texto.
Usualmente, especialmente con estos modelos más pequeños, el rendimiento de texto regular se degrada de manera no trivial al hacer ajuste fino del modelo para comprensión de imágenes, pero el equipo de Qwen ha logrado mantener la mayoría de las habilidades de texto del modelo. Para su tamaño, es el mejor modelo de imagen y texto que existe en este momento.
La única desventaja con Qwen3 VL 30B sin embargo es que usa toda la VRAM disponible en mi sistema cuando lo tengo cargado, así que no puedo ejecutar ningún otro modelo al mismo tiempo, como reconocimiento automático de voz o modelo de texto a voz.
Para este caso, ejecuto Qwen3 4B, dando un buen balance de tamaño y calidad.
Para los modelos Qwen, asegúrate de estar usando las versiones 2507, son las versiones actualizadas y tienen un post-entrenamiento de chat mucho mejor. Solo las variantes de 4B, 30B y 235B han sido actualizadas.
Generación de imágenes
General
El mejor modelo de generación de imágenes que existe en este momento por un margen decente es Seedream 4. Puede generar imágenes de hasta 4k, y solo cuesta 3 centavos por imagen en sitios como Fal o Replicate.
Para ver los benchmarks de los mejores modelos de generación de imágenes, consulta Artificial Analysis.
Local
Para mí, prefiero generar imágenes localmente usando ComfyUI, usando loras para controlar el estilo. También a la escala en que genero imágenes (más de 12k hasta ahora) me ahorra un montón de dinero hacerlo en casa en lugar de pagar por usar un modelo.
He cambiado de ida y vuelta entre Qwen Image y Flux para mi configuración local, y me he decidido (por ahora) por usar Flux para la mayoría de mis flujos de trabajo.
Creo que Qwen es el mejor modelo base de generación de imágenes, pero simplemente no tiene el soporte de la comunidad que tiene Flux (muy pocos loras) y también es aproximadamente 25% más lento para ejecutar.
También con grandes ajustes finos que hacen un mejor modelo base de Flux como FluxMania y PixelWave, puedo cerrar la brecha en términos de rendimiento comparado con Qwen.
Modelo base actual:
FluxMania Legacy
Algunos de mis loras favoritos:
Synthwave
Retro Anime
Daubrez Style
Luminous Shadowscape
Illustration Concept
Generación de video
Código cerrado
Para generación de video, Sora 2 de OpenAI es lo mejor que existe en este momento. Tiene una de las mejores comprensiones de física, generación de audio nativa, y precios competitivos a $0.10 por segundo. La única desventaja es que es bastante restrictivo de usar vía la API, por ejemplo, puedes usar una imagen de una persona como el primer cuadro del video.
Otros modelos notables para revisar si las restricciones de Sora son demasiado duras para ti: Veo3 y Kling 2.5 Turbo.
Una vez más, similar a los modelos de imagen, Artificial Analysis tiene una tabla de clasificación para revisar los modelos y sus rankings. Cabe destacar que Sora 2 no es parte de los modelos evaluados en el sitio de Artificial Analysis.
Código abierto
Para modelos de código abierto, la serie Wan 2.2 de modelos de Alibaba es el rey. Hay muchas variantes diferentes, incluyendo voz a video, modelos de control de cámara, y también animación.
La mayoría de ellos, aunque siendo lo mejor que tenemos, están un poco faltos comparados con los modelos de código cerrado. El único que no lo está es el modelo Wan 2.2 Animate.
Este modelo te permite tomar un video de entrada y una imagen de referencia, y agregar la imagen de referencia al video. Es muy bueno haciendo esto, dando salidas extremadamente realistas y detalladas.
Reconocimiento Automático de Voz
Realmente no hay modelos de código cerrado per se para el espacio ASR, principalmente solo compañías vendiendo sistemas que tienen modelos ASR. Dos de estas compañías que puedes revisar son Deepgram y Assembly AI. Pueden hacer ASR, e identificación de hablantes (diarización), entre muchas otras tareas relacionadas con audio.
La diarización es el principal punto de venta de estos sistemas cuando se comparan con el panorama de código abierto, ya que tenemos muchos modelos ASR fuertes, pero nuestros modelos de diarización son muy pobres en comparación.
Para modelos locales tienes Whisper y Nvidia Parakeet y Canary. Personalmente pienso que los modelos Whisper son un poco tontos, usando una arquitectura pobre y un esquema de entrenamiento de fuerza bruta. Sin embargo, está muy bien soportado en la comunidad de código abierto, haciéndolo fácil de usar.
Parakeet y Canary son ambos modelos mucho más rápidos y más precisos de Nvidia, pero les falta el gran número de idiomas que Whisper soporta.
Personalmente ejecuto el modelo Parakeet 0.6b, que es 15x más rápido que la variante más rápida de Whisper, mientras también tiene 15% menor WER.
Texto a Voz
ElevenLab es el Rey para modelos de código cerrado.
Para código abierto, hay un montón de opciones, con más siendo agregadas cada semana. Las que me han destacado tienden a ser las pequeñas y rápidas, ya que son las más prácticas para despliegues del mundo real donde la latencia importa.
Debido a esto, uso Kokoro para generación de voz en el borde y NeuTTS para clonación de voz y casos donde se necesita audio de alta calidad.