Tecnologia
Preguntas de investigación de Apple Modelos de razonamiento de IA pocos días antes de WWDC

Un estudio de investigación de aprendizaje de Apple Machine de Apple recientemente publicado ha desafiado la narrativa prevaleciente en torno a los modelos de IA “razonamiento” de gran lenguaje como Openi’s O1 y las variantes de pensamiento de Claude, revelando limitaciones fundamentales que sugieren que estos sistemas no son realmente razonados.
Para el estudio, en lugar de utilizar puntos de referencia de matemáticas estándar que son propensas a la contaminación de datos, los investigadores de Apple diseñaron entornos de rompecabezas controlables, incluidos Tower of Hanoi y River Crossing. Esto permitió un análisis preciso de las respuestas finales y el razonamiento interno en los niveles de complejidad variables, según los investigadores.
Los resultados son sorprendentes, por decir lo menos. Todos los modelos de razonamiento probados, incluidos O3-Mini, Deepseek-R1 y Claude 3.7 Sonnet, experimentaron un colapso de precisión completo más allá de ciertos umbrales de complejidad, y cayeron a cero tasas de éxito a pesar de tener recursos computacionales adecuados. Contraintuitivamente, los modelos realmente reducen su esfuerzo de pensamiento a medida que los problemas se vuelven más complejos, lo que sugiere limitaciones de escala fundamentales en lugar de limitaciones de recursos.
Quizás la más condenada, incluso cuando los investigadores proporcionaron algoritmos de solución completos, los modelos aún fallaron en los mismos puntos de complejidad. Los investigadores dicen que esto indica que la limitación no está en la estrategia de resolución de problemas, sino en la ejecución de pasos lógicos básicos.
Los modelos también mostraron inconsistencias desconcertantes, lo que tiene éxito en problemas que requieren más de 100 movimientos al tiempo que falla en rompecabezas más simples que necesitan solo 11 movimientos.
La investigación destaca tres regímenes de rendimiento distintos: los modelos estándar sorprendentemente superan a los modelos de razonamiento a baja complejidad, los modelos de razonamiento muestran ventajas en la complejidad media y ambos enfoques fallan completamente en alta complejidad. El análisis de los investigadores de las huellas de razonamiento mostró patrones ineficientes de “pensamiento demasiado”, donde los modelos encontraron soluciones correctas temprano pero desperdiciado presupuesto computacional que exploraba alternativas incorrectas.
El hogar de los hallazgos de Apple es que los modelos actuales de “razonamiento” se basan en una coincidencia sofisticada de patrones en lugar de capacidades de razonamiento genuinas. Sugiere que los LLM no escalan el razonamiento como lo hacen los humanos, pensan demasiado los problemas fáciles y piensan menos para los más difíciles.
El momento de la publicación es notable, ya que surgió unos días antes de WWDC 2025, donde se espera que Apple limite su enfoque en la IA a favor de los nuevos diseños y características de software, según Bloomberg.