Límites a la IA generativa?

Este estudio de Apple revela limitaciones fundamentales en los Large Reasoning Models (LRMs) como Claude 3.7 y DeepSeek-R1 al evaluarlos en entornos de puzzles controlados. Demuestra un colapso total de la precisión más allá de ciertas complejidades, sin desarrollar capacidades de resolución generalizables. Sorprendentemente, su esfuerzo de razonamiento (tokens de pensamiento) disminuye a medida que los problemas se vuelven más difíciles, sugiriendo un límite inherente de escalado. Se identifican tres regímenes de rendimiento: modelos estándar en baja complejidad, LRMs en media, y ambos fallan en alta. Esto cuestiona sus capacidades de razonamiento generalizable.

Recuperado en: https://ml-site.cdn-apple.com/papers/the-illusion-of-thinking.pdf