Ranking completo de modelos de IA por categoría, con puntuaciones reales basadas en millones de votos humanos. Desde los frontier propietarios (Claude, GPT, Gemini) hasta los locales open-source que puedes correr en tu propio hardware. Complete AI model ranking by category, with real scores based on millions of human votes. From proprietary frontier models (Claude, GPT, Gemini) to open-source local models you can run on your own hardware.
Overall te da la visión general. Cada categoría mide una habilidad distinta: matemáticas, código, escritura creativa, prompts difíciles, seguimiento de instrucciones, etc. Un modelo bueno en "Coding" no necesariamente es el mejor en "Creative Writing".
Overall gives you the general view. Each category measures a distinct skill: math, code, creative writing, hard prompts, instruction following, etc. A model great at Coding isn't necessarily the best at Creative Writing.
Los frontier son propietarios y solo accesibles vía API paga. Los locales tienen pesos abiertos (MIT, Apache, Llama License): los descargas, los corres en tu hardware, con total privacidad — filosofía Bitcoin aplicada a la IA.
Frontier models are proprietary and only accessible via paid APIs. Local models have open weights (MIT, Apache, Llama License) — download them, run on your own hardware, full privacy. Bitcoin philosophy applied to AI.
Arena AI mide calidad de chat con votos humanos ciegos. PinchBench mide si el modelo realmente puede ejecutar tareas como agente de OpenClaw (calendario, email, código, archivos). Un modelo top en Arena puede fallar en PinchBench si no usa tools bien — es lo que te importa para OpenClaw.
Arena AI measures chat quality through blind human votes. PinchBench measures whether the model can actually execute tasks as an OpenClaw agent (calendar, email, code, files). A top Arena model can flop on PinchBench if it's bad at tool-use — that's what matters for OpenClaw.
Los rankings se actualizan todos los días. Cuando un modelo nuevo recibe suficientes votos, aparece automáticamente. Si un modelo baja por nueva competencia, se ve reflejado. Cero mantenimiento de nuestra parte.
Rankings are updated daily. When a new model gets enough votes, it appears automatically. If a model drops due to new competition, that's reflected too. Zero maintenance on our end.