Written in collaboration with Harvard Business School, INSEAD Univeristy, and Sundai Club
When looking at the AI space right now, it can be intimidating to keep up with all the models being released and keeping track of which is the best for what.
In this article we want to demystify the AI ecosystem a bit, and give you picks for the top models across a variety of use cases.
If you want to try these models, we suggest using the LMArena or OpenRouter to access the wide variety of models that are available today.
If you are reading this in the future and want to know what the current best models are, I would recommend checking Artificial Analysis, as they have most of the major models benchmarked there and are very up to date. Note that high benchmarks don’t always ways translate to stellar real world performance, so be sure to test the model on your use case before deploying it to production.
Day to Day Use
For day-to-day use, we’re going to be looking at the models in terms of how good they are to use given the provider’s UI.
Imagine this as the best general use AI product out there right now.
There is one clear winner here, which is OpenAI.
The experience using GPT-5 in the browser on the ChatGPT website is one of the cleanest experiences you will get right now.
The automatic enabling of web search and other tools like image generation and also the ability to directly connect to different services like the Microsoft 365 or any of the GSuite products makes this the best service to use.
You can make custom GPTs so that you can cater them to your specific context or understanding. You also get code agents with the codex functionality and also image generation using GPT Image and video generation with Sora as well, all available from the comfort of your own browser.
If you had $20 and only could only pay for one service, I would recommend getting a ChatGPT account (if you are using for general use, if you are looking to primarily code, Cursor would be my weapon of choice, but you will learn more about that in the coming weeks).
Api Pricing
See full pricing here
| Model | $ per million input tokens | $ per million output tokens |
|---|
| GPT5 | $1.25 | $10 |
Multimodal
For multimodal models, there’s one clear winner here as well. Google’s Gemini family of models.
The Gemini models are the only mainstream models that can handle text, image, video, and audio inputs.
With their extremely long 1 million context length, they are able to process up to 45 minute long videos with audio included, and over 8 hours for audio only.
They also top pretty much all the benchmarks for image and video understanding.
They also happen to be some of the best price to performance models out there as well, especially the Gemini 2.5 Flash model, which is priced at only $2.50 per million tokens (4x cheaper than GPT 5).
You can test these models now for free on the Google AI Studio, which gives you large amounts of control to tinker with the models and see what they can do.
Api Pricing
See full pricing here
| Model | $ per million input tokens | $ per million output tokens |
|---|
| Gemini 2.5 Flash | $0.3 | $2.50 |
| Gemini 2.5 Pro | $1.25 | $10 |
Coding and agentic tasks
Once again, we have a pretty clear winner here for code writing and other agentic tasks, which is Claude 4.
Claude has been the number one name in the game when it has come to coding and agentic tasks for over a year now. And that has not stopped with their Claude 4 Sonnet and Opus.
It is the de facto model used by Cursor and also used in the top CLI coding tool, Claude Code.
I recommend using Sonnet for most tasks, as it will be good enough and is 5x cheaper than Opus. If money doesn’t matter or if you have a particularly hard task, then you can try Opus, which has been bumped up to version 4.1 recently, and is a small improvement
One notable mention here is from the open source community represented by Z.ai’s GLM 4.5 model. This is one of the first models that is able to go blow for blow with Sonnet 4 in my testing and also has the added benefit of being almost 10 times cheaper than Sonnet. It sometimes falls a little bit behind on more complicated tasks, but for day-to-day use, I see little difference.
Api Pricing
See full pricing Claude pricing here.
GLM 4.5 model pricing taken from OpenRouter.
OpenRouter is a platform that allows you to use both closed and open source models all from one place (one url and api key to access all of them). The open source models are hosted by various inference provider companies like TogetherAI and Chutes, as well as first party providers like Z.ai.
OpenRouter also provides information about each provider like reliability, latency (time to first token), and throughput (how fast the model is).
For this chart, we are using the pricing directly from Z.ai.
| Model | $ per million input tokens | $ per million output tokens |
|---|
| GLM 4.5 | $0.60 | $2.20 |
| Claude Sonnet 4 | $3 | $15 |
| Claude Opus 4.1 | $15 | $75 |
Hosted AI (Bedrock, Azure, etc.)
AWS Bedrock allows you to run Claude (Sonnet 4, Opus 4.1), and a variety of other open source models in your own VPC and pay per token. The pricing for Amazon Nova is VERY competitive if the model quality is good enough for you (and it’s pretty good). Claude token prices are exactly the same as going via Anthropic directly. The catch is that all the models aren’t available in every AWS region.
Azure AI Foundry gives you per token access to GPT 5, but at a higher price than OpenAI directly. Other models are compute based, which means depending on your use case could be very cost effective vs. AWS (batched runs where you can shut the system down after) or much more expensive (intermittent queries where the compute needs to be on constantly).
Open Source
If privacy is of utmost concern to you, then you could self-host your own open source models.
There are two different paths you could go down for open source models. You could either host one of the larger open source models on something like an 8xH100 node (not cheap, ~$15/hr), which would be easy to set up, but pricey to run in the long term. Or you could go and take a smaller open source model and fine-tune it yourself on your particular task (although you would still need to spend $2/hr in compute to host it once you are done training).
I don’t recommend either of these paths if you could avoid it, instead using something like OpenAI’s secure Azure Endpoint if security is a concern.
Fine-tuning also tends to be a massive time sink as fine-tuning models is very difficult. So you should expect to spend at least a couple months and thousands of dollars before you have a model and dataset that you are satisfied with. Usually, I say you should spend more time working on prompt engineering a pre-existing LLM like GPT-5, or adding/ improving your RAG pipeline instead.
That being said, if you do want to use open source models, here are your options.
Ready to go out of the box
The two best open source options right now are Kimi K2 and GLM 4.5. These models are both made by Chinese labs and perform highly across most benchmarks, trading blows with the likes of OpenAI and Anthropic for the top.
For finetuning
For fine-tuning models, the Qwen3 series of models is definitely the best right now. They have a wide variety of sizes to choose from, ranging from 600 million parameters all the way up to 235 billion, and are very receptive to fine-tuning with most of the top research papers right now using them as their base for their finetuning and reinforcement learning experiments.
Other models to consider
Here are some additional models that didn’t make the list, but you could also potentially consider for your deployments. They do not stand out in any way versus the competition, but also there isn’t necessarily anything wrong with them.
-
Mistral Medium and Large
-
XAi’s Grok 4
-
DeepSeek V3.1
-
Amazon Nova
Not worth it
You may be wondering why some models that you’ve heard of haven’t been mentioned, and so we will list them here and the reasons why we don’t recommend them.
Llama
Meta’s Llama series of models have been completely outdone by the Qwen3 series and are no longer near the top and have very limited support now in the open source community, especially the latest Llama 4 models.
GPT-oss
Trained on only synthetic data, causing it to have very little world knowledge and high hallucination rates. This causes it to be very brittle to use, especially outside math, science, and general reasoning domains.
Nota: Este artigo foi traduzido automaticamente com Claude Sonnet 4.5; a qualidade pode estar reduzida, especialmente na terminologia técnica.
Escrito em colaboração com a Harvard Business School, INSEAD Univeristy, e Sundai Club
Ao observar o espaço de IA neste momento, pode ser intimidante acompanhar todos os modelos sendo lançados e manter o controle de qual é o melhor para cada finalidade.
Neste artigo, queremos desmistificar um pouco o ecossistema de IA e dar nossas escolhas para os principais modelos em uma variedade de casos de uso.
Se você quiser experimentar esses modelos, sugerimos usar o LMArena ou OpenRouter para acessar a ampla variedade de modelos disponíveis hoje.
Se você está lendo isso no futuro e quer saber quais são os melhores modelos atuais, eu recomendaria verificar o Artificial Analysis, pois eles têm a maioria dos principais modelos avaliados lá e estão muito atualizados. Note que benchmarks altos nem sempre se traduzem em desempenho estelar no mundo real, então certifique-se de testar o modelo no seu caso de uso antes de implantá-lo em produção.
Uso do Dia a Dia
Para uso diário, vamos avaliar os modelos em termos de quão bons eles são de usar considerando a interface do provedor.
Imagine isso como o melhor produto de IA de uso geral disponível agora.
Há um vencedor claro aqui, que é OpenAI.
A experiência de usar GPT-5 no navegador no site ChatGPT é uma das experiências mais refinadas que você terá agora.
A ativação automática de busca na web e outras ferramentas como geração de imagens e também a capacidade de se conectar diretamente a diferentes serviços como Microsoft 365 ou qualquer um dos produtos GSuite fazem deste o melhor serviço para usar.
Você pode criar GPTs personalizados para que possa adaptá-los ao seu contexto ou entendimento específico. Você também obtém agentes de código com a funcionalidade codex e também geração de imagens usando GPT Image e geração de vídeo com Sora, tudo disponível no conforto do seu próprio navegador.
Se você tivesse $20 e só pudesse pagar por um serviço, eu recomendaria obter uma conta ChatGPT (se você está usando para uso geral; se você está procurando principalmente programar, Cursor seria minha arma de escolha, mas você aprenderá mais sobre isso nas próximas semanas).
Preços da API
Veja os preços completos aqui
| Modelo | $ por milhão de tokens de entrada | $ por milhão de tokens de saída |
|---|
| GPT5 | $1.25 | $10 |
Multimodal
Para modelos multimodais, há um vencedor claro aqui também. A família de modelos Gemini do Google.
Os modelos Gemini são os únicos modelos mainstream que podem lidar com entradas de texto, imagem, vídeo e áudio.
Com seu contexto extremamente longo de 1 milhão de comprimento, eles são capazes de processar vídeos de até 45 minutos de duração com áudio incluído, e mais de 8 horas para apenas áudio.
Eles também lideram praticamente todos os benchmarks para compreensão de imagem e vídeo.
Eles também são alguns dos melhores modelos em termos de relação preço-desempenho disponíveis, especialmente o modelo Gemini 2.5 Flash, que tem o preço de apenas $2,50 por milhão de tokens (4x mais barato que GPT 5).
Você pode testar esses modelos agora gratuitamente no Google AI Studio, que lhe dá grande controle para experimentar os modelos e ver o que eles podem fazer.
Preços da API
Veja os preços completos aqui
| Modelo | $ por milhão de tokens de entrada | $ por milhão de tokens de saída |
|---|
| Gemini 2.5 Flash | $0.3 | $2.50 |
| Gemini 2.5 Pro | $1.25 | $10 |
Codificação e tarefas agênticas
Mais uma vez, temos um vencedor bastante claro aqui para escrita de código e outras tarefas agênticas, que é Claude 4.
Claude tem sido o nome número um no jogo quando se trata de codificação e tarefas agênticas por mais de um ano. E isso não parou com seu Claude 4 Sonnet e Opus.
É o modelo de facto usado pelo Cursor e também usado na principal ferramenta CLI de codificação, Claude Code.
Eu recomendo usar Sonnet para a maioria das tarefas, pois será bom o suficiente e é 5x mais barato que Opus. Se dinheiro não importa ou se você tem uma tarefa particularmente difícil, então você pode tentar Opus, que foi atualizado para a versão 4.1 recentemente, e é uma pequena melhoria.
Uma menção notável aqui é da comunidade open source representada pelo modelo GLM 4.5 da Z.ai. Este é um dos primeiros modelos que é capaz de competir de igual para igual com Sonnet 4 nos meus testes e também tem o benefício adicional de ser quase 10 vezes mais barato que Sonnet. Às vezes fica um pouco atrás em tarefas mais complicadas, mas para uso diário, vejo pouca diferença.
Preços da API
Veja os preços completos do Claude aqui.
Preços do modelo GLM 4.5 obtidos do OpenRouter.
OpenRouter é uma plataforma que permite usar modelos fechados e open source de um só lugar (uma url e chave de api para acessar todos eles). Os modelos open source são hospedados por várias empresas provedoras de inferência como TogetherAI e Chutes, bem como provedores de primeira parte como Z.ai.
OpenRouter também fornece informações sobre cada provedor como confiabilidade, latência (tempo até o primeiro token) e throughput (quão rápido é o modelo).
Para esta tabela, estamos usando os preços diretamente da Z.ai.
| Modelo | $ por milhão de tokens de entrada | $ por milhão de tokens de saída |
|---|
| GLM 4.5 | $0.60 | $2.20 |
| Claude Sonnet 4 | $3 | $15 |
| Claude Opus 4.1 | $15 | $75 |
IA Hospedada (Bedrock, Azure, etc.)
AWS Bedrock permite executar Claude (Sonnet 4, Opus 4.1) e uma variedade de outros modelos open source em seu próprio VPC e pagar por token. O preço do Amazon Nova é MUITO competitivo se a qualidade do modelo for boa o suficiente para você (e é muito boa). Os preços de token do Claude são exatamente os mesmos que ir diretamente pela Anthropic. O problema é que todos os modelos não estão disponíveis em todas as regiões AWS.
Azure AI Foundry oferece acesso por token ao GPT 5, mas a um preço mais alto que OpenAI diretamente. Outros modelos são baseados em computação, o que significa que, dependendo do seu caso de uso, podem ser muito econômicos vs. AWS (execuções em lote onde você pode desligar o sistema depois) ou muito mais caros (consultas intermitentes onde a computação precisa estar ligada constantemente).
Open Source
Se privacidade é de extrema importância para você, então você poderia auto-hospedar seus próprios modelos open source.
Existem dois caminhos diferentes que você poderia seguir para modelos open source. Você poderia hospedar um dos maiores modelos open source em algo como um nó 8xH100 (não barato, ~$15/hora), que seria fácil de configurar, mas caro para executar no longo prazo. Ou você poderia pegar um modelo open source menor e fazer fine-tune você mesmo na sua tarefa específica (embora você ainda precisasse gastar $2/hora em computação para hospedá-lo uma vez terminado o treinamento).
Não recomendo nenhum desses caminhos se você puder evitá-lo, em vez disso usando algo como o Azure Endpoint seguro da OpenAI se segurança for uma preocupação.
Fine-tuning também tende a ser um enorme consumidor de tempo, pois fazer fine-tune de modelos é muito difícil. Então você deve esperar gastar pelo menos alguns meses e milhares de dólares antes de ter um modelo e conjunto de dados com os quais esteja satisfeito. Geralmente, eu digo que você deveria gastar mais tempo trabalhando em engenharia de prompt de um LLM pré-existente como GPT-5, ou adicionando/melhorando seu pipeline RAG em vez disso.
Dito isso, se você realmente quer usar modelos open source, aqui estão suas opções.
As duas melhores opções open source agora são Kimi K2 e GLM 4.5. Esses modelos são ambos feitos por laboratórios chineses e têm alto desempenho na maioria dos benchmarks, competindo com os gostos de OpenAI e Anthropic pelo topo.
Para fine-tuning
Para modelos de fine-tuning, a série Qwen3 de modelos é definitivamente a melhor agora. Eles têm uma ampla variedade de tamanhos para escolher, variando de 600 milhões de parâmetros até 235 bilhões, e são muito receptivos ao fine-tuning com a maioria dos principais artigos de pesquisa agora usando-os como base para seus experimentos de fine-tuning e aprendizado por reforço.
Outros modelos a considerar
Aqui estão alguns modelos adicionais que não entraram na lista, mas você também poderia considerar para suas implantações. Eles não se destacam de nenhuma forma em relação à concorrência, mas também não há necessariamente nada de errado com eles.
-
Mistral Medium e Large
-
Grok 4 da XAi
-
DeepSeek V3.1
-
Amazon Nova
Não vale a pena
Você pode estar se perguntando por que alguns modelos dos quais você ouviu falar não foram mencionados, então vamos listá-los aqui e as razões pelas quais não os recomendamos.
Llama
A série de modelos Llama da Meta foi completamente superada pela série Qwen3 e não está mais perto do topo e tem suporte muito limitado agora na comunidade open source, especialmente os últimos modelos Llama 4.
GPT-oss
Treinado apenas em dados sintéticos, fazendo com que tenha muito pouco conhecimento do mundo e altas taxas de alucinação. Isso faz com que seja muito frágil de usar, especialmente fora dos domínios de matemática, ciência e raciocínio geral.
Nota: Este artículo fue traducido automáticamente con Claude Sonnet 4.5; la calidad puede verse degradada, especialmente en la terminología técnica.
Escrito en colaboración con Harvard Business School, INSEAD Univeristy, y Sundai Club
Al observar el espacio de la IA en este momento, puede ser intimidante mantenerse al día con todos los modelos que se están lanzando y hacer un seguimiento de cuál es el mejor para qué.
En este artículo queremos desmitificar un poco el ecosistema de IA y darte nuestras recomendaciones de los mejores modelos en una variedad de casos de uso.
Si quieres probar estos modelos, te sugerimos usar LMArena u OpenRouter para acceder a la amplia variedad de modelos que están disponibles hoy en día.
Si estás leyendo esto en el futuro y quieres saber cuáles son los mejores modelos actuales, te recomendaría revisar Artificial Analysis, ya que tienen la mayoría de los modelos principales evaluados allí y están muy actualizados. Ten en cuenta que los puntos altos en los benchmarks no siempre se traducen en un rendimiento estelar en el mundo real, así que asegúrate de probar el modelo en tu caso de uso antes de desplegarlo en producción.
Uso Diario
Para el uso diario, vamos a evaluar los modelos en términos de qué tan buenos son de usar dada la interfaz del proveedor.
Imagina esto como el mejor producto de IA de uso general que existe en este momento.
Hay un ganador claro aquí, que es OpenAI.
La experiencia de usar GPT-5 en el navegador en el sitio web de ChatGPT es una de las experiencias más limpias que obtendrás en este momento.
La habilitación automática de búsqueda web y otras herramientas como generación de imágenes, y también la capacidad de conectarse directamente a diferentes servicios como Microsoft 365 o cualquiera de los productos de GSuite hacen de este el mejor servicio para usar.
Puedes crear GPTs personalizados para que puedas adaptarlos a tu contexto o comprensión específica. También obtienes agentes de código con la funcionalidad codex y también generación de imágenes usando GPT Image y generación de video con Sora, todo disponible desde la comodidad de tu propio navegador.
Si tuvieras $20 y solo pudieras pagar por un servicio, te recomendaría obtener una cuenta de ChatGPT (si la usas para uso general; si buscas principalmente programar, Cursor sería mi arma de elección, pero aprenderás más sobre eso en las próximas semanas).
Precios de API
Ver precios completos aquí
| Modelo | $ por millón de tokens de entrada | $ por millón de tokens de salida |
|---|
| GPT5 | $1.25 | $10 |
Multimodal
Para modelos multimodales, también hay un ganador claro aquí. La familia de modelos Gemini de Google.
Los modelos Gemini son los únicos modelos principales que pueden manejar entradas de texto, imagen, video y audio.
Con su contexto extremadamente largo de 1 millón, pueden procesar videos de hasta 45 minutos de duración con audio incluido, y más de 8 horas solo para audio.
También encabezan prácticamente todos los benchmarks para comprensión de imagen y video.
También resultan ser algunos de los modelos con mejor relación precio-rendimiento que existen, especialmente el modelo Gemini 2.5 Flash, que tiene un precio de solo $2.50 por millón de tokens (4 veces más barato que GPT 5).
Puedes probar estos modelos ahora gratis en Google AI Studio, que te da grandes cantidades de control para experimentar con los modelos y ver qué pueden hacer.
Precios de API
Ver precios completos aquí
| Modelo | $ por millón de tokens de entrada | $ por millón de tokens de salida |
|---|
| Gemini 2.5 Flash | $0.3 | $2.50 |
| Gemini 2.5 Pro | $1.25 | $10 |
Programación y tareas agénticas
Una vez más, tenemos un ganador bastante claro aquí para escritura de código y otras tareas agénticas, que es Claude 4.
Claude ha sido el nombre número uno en el juego cuando se trata de programación y tareas agénticas durante más de un año. Y eso no se ha detenido con su Claude 4 Sonnet y Opus.
Es el modelo de facto utilizado por Cursor y también se usa en la mejor herramienta de programación CLI, Claude Code.
Recomiendo usar Sonnet para la mayoría de las tareas, ya que será lo suficientemente bueno y es 5 veces más barato que Opus. Si el dinero no importa o si tienes una tarea particularmente difícil, entonces puedes probar Opus, que recientemente ha sido actualizado a la versión 4.1, y es una pequeña mejora.
Una mención notable aquí es de la comunidad de código abierto representada por el modelo GLM 4.5 de Z.ai. Este es uno de los primeros modelos que puede competir mano a mano con Sonnet 4 en mis pruebas y también tiene el beneficio añadido de ser casi 10 veces más barato que Sonnet. A veces se queda un poco atrás en tareas más complicadas, pero para el uso diario, veo poca diferencia.
Precios de API
Ver precios completos de Claude aquí.
Los precios del modelo GLM 4.5 tomados de OpenRouter.
OpenRouter es una plataforma que te permite usar tanto modelos cerrados como de código abierto, todo desde un solo lugar (una url y clave api para acceder a todos ellos). Los modelos de código abierto están alojados por varias empresas proveedoras de inferencia como TogetherAI y Chutes, así como proveedores de primera parte como Z.ai.
OpenRouter también proporciona información sobre cada proveedor como confiabilidad, latencia (tiempo hasta el primer token) y rendimiento (qué tan rápido es el modelo).
Para esta tabla, estamos usando los precios directamente de Z.ai.
| Modelo | $ por millón de tokens de entrada | $ por millón de tokens de salida |
|---|
| GLM 4.5 | $0.60 | $2.20 |
| Claude Sonnet 4 | $3 | $15 |
| Claude Opus 4.1 | $15 | $75 |
IA Alojada (Bedrock, Azure, etc.)
AWS Bedrock te permite ejecutar Claude (Sonnet 4, Opus 4.1), y una variedad de otros modelos de código abierto en tu propio VPC y pagar por token. Los precios de Amazon Nova son MUY competitivos si la calidad del modelo es lo suficientemente buena para ti (y es bastante buena). Los precios de los tokens de Claude son exactamente los mismos que ir directamente a través de Anthropic. El inconveniente es que no todos los modelos están disponibles en todas las regiones de AWS.
Azure AI Foundry te da acceso por token a GPT 5, pero a un precio más alto que OpenAI directamente. Otros modelos se basan en cómputo, lo que significa que dependiendo de tu caso de uso podría ser muy rentable versus AWS (ejecuciones por lotes donde puedes apagar el sistema después) o mucho más caro (consultas intermitentes donde el cómputo necesita estar encendido constantemente).
Código Abierto
Si la privacidad es de suma importancia para ti, entonces podrías alojar tus propios modelos de código abierto.
Hay dos caminos diferentes que podrías seguir para modelos de código abierto. Podrías alojar uno de los modelos de código abierto más grandes en algo como un nodo 8xH100 (no es barato, ~$15/hr), que sería fácil de configurar, pero costoso de ejecutar a largo plazo. O podrías tomar un modelo de código abierto más pequeño y afinarlo tú mismo en tu tarea particular (aunque aún necesitarías gastar $2/hr en cómputo para alojarlo una vez que hayas terminado el entrenamiento).
No recomiendo ninguno de estos caminos si puedes evitarlo, en su lugar usa algo como el Endpoint Seguro de Azure de OpenAI si la seguridad es una preocupación.
El ajuste fino también tiende a ser un enorme consumidor de tiempo, ya que ajustar modelos es muy difícil. Por lo tanto, deberías esperar pasar al menos un par de meses y miles de dólares antes de tener un modelo y conjunto de datos con el que estés satisfecho. Por lo general, digo que deberías pasar más tiempo trabajando en la ingeniería de prompts de un LLM preexistente como GPT-5, o agregando/mejorando tu pipeline de RAG en su lugar.
Dicho esto, si quieres usar modelos de código abierto, aquí están tus opciones.
Listos para usar
Las dos mejores opciones de código abierto en este momento son Kimi K2 y GLM 4.5. Estos modelos están hechos por laboratorios chinos y tienen un alto rendimiento en la mayoría de los benchmarks, compitiendo con los de OpenAI y Anthropic por el primer lugar.
Para ajuste fino
Para modelos de ajuste fino, la serie Qwen3 de modelos es definitivamente la mejor en este momento. Tienen una amplia variedad de tamaños para elegir, que van desde 600 millones de parámetros hasta 235 mil millones, y son muy receptivos al ajuste fino, con la mayoría de los trabajos de investigación principales en este momento usándolos como base para sus experimentos de ajuste fino y aprendizaje por refuerzo.
Otros modelos a considerar
Aquí hay algunos modelos adicionales que no hicieron la lista, pero que también podrías considerar potencialmente para tus despliegues. No se destacan de ninguna manera frente a la competencia, pero tampoco hay necesariamente nada malo con ellos.
-
Mistral Medium y Large
-
Grok 4 de XAi
-
DeepSeek V3.1
-
Amazon Nova
No vale la pena
Puede que te estés preguntando por qué algunos modelos de los que has oído hablar no han sido mencionados, así que los enumeraremos aquí y las razones por las que no los recomendamos.
Llama
La serie de modelos Llama de Meta ha sido completamente superada por la serie Qwen3 y ya no están cerca de la cima y tienen un soporte muy limitado ahora en la comunidad de código abierto, especialmente los últimos modelos Llama 4.
GPT-oss
Entrenado solo con datos sintéticos, lo que hace que tenga muy poco conocimiento del mundo y altas tasas de alucinación. Esto hace que sea muy frágil de usar, especialmente fuera de los dominios de matemáticas, ciencia y razonamiento general.