AARENA

Duels anonymes en tête-à-tête pour tester et comparer les modèles d'IA en temps réel.

4.8 (4)

Évalué par Daniel Nikulshyn·Mis à jour mai 2026

Research LLM Community Model Evaluation Comparison Leaderboard Benchmarking

Aperçu

AARENA est une plateforme qui permet aux utilisateurs de confronter des modèles d'IA dans des affrontements anonymes en temps réel. En masquant l'identité des modèles pendant l'évaluation, elle favorise des jugements impartiaux fondés uniquement sur la qualité des réponses plutôt que sur la notoriété de la marque. Les utilisateurs soumettent des prompts et reçoivent côte à côte les réponses de deux modèles concurrents, puis votent pour celui qui a le mieux performé. Les résultats agrégés permettent de faire émerger des classements issus de la communauté et de révéler la manière dont les différents modèles gèrent une grande variété de tâches. Cet outil s'adresse aux chercheurs, aux développeurs et aux utilisateurs curieux qui souhaitent évaluer les capacités des modèles, explorer des alternatives ou tout simplement découvrir quelle IA répond le mieux à leurs besoins.

Fonctionnalités clés

Anonymous model battles
Side-by-side response comparison
User voting system
Aggregated leaderboards
Support for multiple AI models
Real-time prompt evaluation

Cas d’usage

Blind-Test Competing LLMs

Submit a prompt and compare two anonymized model responses side by side, voting on the better output to evaluate quality without brand bias.

Benchmark Models for Research

Researchers can aggregate voting data across many prompts to study how different AI models perform on diverse tasks and generate community-driven rankings.

Discover the Best Model for Your Needs

Curious users and developers can explore alternatives to mainstream AIs by testing models head-to-head and identifying which best handles their use cases.

Validate Model Choice Before Integration

Developers evaluating LLMs for a product can run real prompts through AARENA to see comparative outputs and inform purchasing or integration decisions.

Pour & contre

Pour

Blind testing reduces brand bias
Real-time side-by-side comparisons
Community-driven rankings
Useful for benchmarking multiple models
Accessible to non-technical users

Contre

Results depend on subjective voting
Limited insight into model internals
Quality varies by prompt type

Avis

4.8

Moyenne sur 4 avis.

Connecte-toi pour laisser un avis.

Robert Ainsworth

Does the job

Pretty happy overall. Aggregated leaderboards just works and blind testing reduces brand bias. Limited insight into model internals can be annoying, but no dealbreakers — I'd recommend it to a friend without hesitating.

Omar Haddad

Use it every day

Honestly didn't expect to like it this much. Real-time prompt evaluation is exactly what I needed, and useful for benchmarking multiple models. but I reach for it almost every day now and it just clicks.

Diego Fernández

Skeptical, then convinced

I went in skeptical — most tools in this space overpromise. It actually delivers on side-by-side response comparison, and community-driven rankings caught me off guard. Quality varies by prompt type is why this isn't a perfect score, still, I'd recommend giving it a real trial.

Beatriz Costa

Years in this space

I've evaluated a lot of these over the years. What stands out here is side-by-side response comparison — handled better than most — and accessible to non-technical users. Worth the time if this is your use case.