JE
AliciaBench
Descripción
He creado un benchmark que mide la capacidad que tienen los LLMs para resolver una tarea concreta: escapar de un laberinto. Para que cualquiera pueda ver los resultados y sacar sus propias conclusiones he creado una web con Cursor.