JE

AliciaBench

Juan Echeverria
Publicado el 8 de abril de 2025

Descripción

He creado un benchmark que mide la capacidad que tienen los LLMs para resolver una tarea concreta: escapar de un laberinto. Para que cualquiera pueda ver los resultados y sacar sus propias conclusiones he creado una web con Cursor.

Video