Résultats du Test Mensa 2025 - Intelligence Artificielle
| Rang | Modèle d'IA | Créateur | Score IQ Mensa |
|---|---|---|---|
| 1 | OpenAI o3 | OpenAI | 135 |
| 2 | Claude-4 Sonnet | Anthropic | 127 |
| 3 | Gemini 2.0 Flash Thinking Exp. | 126 | |
| 4 | Gemini 2.5 Pro Exp. | 124 | |
| 5 | OpenAI o4 mini | OpenAI | 122 |
| 6 | Claude-4 Opus | Anthropic | 120 |
| 7 | Grok-3 Think | xAI | 112 |
| 8 | DeepSeek R1 | DeepSeek | 106 |
| 9 | Llama 4 Maverick | Meta | 105 |
| 10 | OpenAI o1 Pro | OpenAI | 102 |
| 11 | DeepSeek V3 | DeepSeek | 100 |
| 12 | GPT4.5 Preview | OpenAI | 99 |
| 13 | Grok-3 | xAI | 97 |
| 14 | Gemini 2.5 Pro Exp. (Vision) | 96 | |
| 15 | GPT-4o | OpenAI | 93 |
| 16 | OpenAI o4 mini high | OpenAI | 92 |
| 17 | Claude-3.7 (Vision) | Anthropic | 91 |
| 18 | Bing Copilot | Microsoft | 86 |
| 19 | Mistral | Mistral AI | 85 |
| 20 | OpenAI o1 Pro (Vision) | OpenAI | 83 |
| 21 | OpenAI o3 (Vision) | OpenAI | 72 |
OpenAI o3 trône au sommet avec un score exceptionnel de 135 points, soit un niveau de "génie" selon les standards Mensa. Cette performance remarquable démontre l'avancée significative des modèles de raisonnement d'OpenAI, particulièrement dans les tâches cognitives complexes.
Claude-4 Sonnet se positionne brillamment en 2ème place avec 127 points, confirmant la qualité exceptionnelle des modèles Anthropic. La proximité avec le leader (seulement 8 points d'écart) témoigne d'une compétition serrée au plus haut niveau.
Google démontre sa polyvalence avec 3 modèles dans le top 5 : Gemini 2.0 Flash Thinking (126), Gemini 2.5 Pro (124), et Gemini 2.5 Pro Vision (96). Cette diversité d'approches révèle une stratégie R&D robuste.
L'analyse révèle un fossé notable entre les modèles de pointe (120-135) et les versions antérieures (72-100). Cette progression exponentielle illustre l'accélération du développement en IA ces derniers mois.
Paradoxalement, les modèles spécialisés vision obtiennent des scores inférieurs (OpenAI o3 Vision: 72 vs o3: 135). Cela suggère que l'intégration multimodale représente encore un défi technique majeur.
DeepSeek (R1: 106, V3: 100) et xAI (Grok-3: 97-112) s'imposent comme des concurrents sérieux, démontrant que l'innovation en IA ne se limite plus aux géants technologiques traditionnels.
Avec 6 modèles dépassant les 120 points IQ (seuil du "très supérieur"), cette nouvelle génération d'IA atteint des niveaux cognitifs comparables aux 10% les plus intelligents de la population humaine selon les standards psychométriques.