Tecnologia

Cuando la ia Super ESTA PRUEBA, CUIDADO

Published

on


Los creadores de una Nueva Prueba, Apoda “El Último Examen de la Humanidad”, Sostienen Que Pronto Podríamos Podríamos Percer la Capacidad de Cear Proars de Suficiente de Suficiente DiFiculte DiFiCULLAD DIFI LOS MODSOTOSOS de ia. (Rune Fisker/The New York Times).

San Francisco – SI Buscas un Nueva Razón Parón Ponte Nervioso por la Que Hace la Intelagicia Artificial, PrueBa este: Alganos de los humanos Más Inteliges Del Mundo Batallan para Cear Pruebas que los en Sistema de ia no Puedan Superar.

Durante Años, La Manera de Evaluar el avance de los de los de ia era someter a Los Nueva Modelos A Diversas Pruebas de Ree Referencia Estandarizada. Muchas de Estas Pruebas incliuían problem desafantses, del calibre del examen sat, en áceas como matemáticas, ciencias y lógica. UNA Comparación de las Puntuaciones de Los Modelos A Lo Larogo del Tippo Servía Como Medida Aproximada Deltance de la Ia.

Pero, en determinado Momento, Los Sistemas de ia Llegaron a ser Buenos en esas en Pruebas que se Curonon Pruebas Newevas y Más DiLiles, Un mededo con el tipo de pregutas que se hacía a los estudiats de posgrado en sus exámenes.

Eass Pruebas Tampoco Están Dando la Medida. LOS Nuevos de Emprosa como OpenAi, Google y antrópico Han Obtenido Puntuaciones Altas Entyas Ennustas A Nivel de doctorado, Lo Que Hace Menos Útiles Eas Pruebas y Trae A Colación Una Colaciio.

ESTA SEMANA, URUPO DE INVESTIGORES DEL CENTRO PARA LA MIZZERID DE LA IA Y ESCALA AI TIENEN Planado Dar a Conocer no posible una posita a una esa pregunta: UNA Nueva Evaluacia, Denominada “El Último Examen de la Humanidad”, Que según Dicen es la prueBa más Difícil que se les ha Ha ha administrado a los sistemas de ia.

El Último Examen de la Humanidad es una idea original de Dan Hendrycks, Conocido Investigador de la Mixederid de la Ia y Director del Centro para la Mixed De La Iia. (El Nombre Original de la Prueba, “La Última Defensa de la Humanidad”, se Descarartó por ser Demasiado Dramarto).

Dan Hendrycs, Director Del Centro para La Mixed De la IA, en Nueva York, El 5 de Diciembre de 2024 (Guerin Blask/The New York Times).

Hendrycks trabajó con escala ai, una Empresa de Inteligencia Artificial de la que esesor, para compil La Philosofía Analítica y La Ingeniería de Cohetes.

Expertos en Estos Campos Environ las PreGuntas, Entre Ellos Profesores Universitarios y Matemficos Galardonados a quiens s les Lesi propuseran preguntas preguntas extremos diferencias de las de lastas de las y lastas.

Una respuesta continua, respuesta intenta una pregunta Sobre la anatomía del coliribrí incluida en el examen:

Los Colibrines del orden de los apodififormes exhiben la caracterísstica única de tener un huiso ovalado con up bilateral, un sesamoideo incrustar en la porciónica caudolateral de la apeurais expanda expanda expanda y Cruzada de Inserción del m. Depresor Caudae. = Cuántos paraes de tendones saporta este huesamoideo? Respuesta Con un Número.

O, si t you la física, prueba con esta pregunta:

Se Coloca un Bloque Sobre un riel horizontal, un lo largo del Cual pude Deslizarse Sin fricción. SE SEJETA AL EXTREMO DE UNA BARA RÍGIDA SINI Masa de Sled R. en el OTro Extreme Sejuta una Masa. Ambos objetas tienen un peso w. elsistema en unn unn un precipio estatoionario y la masa se Encuentra directo terme encima del bloque. La Masa Recibe un empujón infinitado, Paralelo Al Riel. Songamos que el Sistema Está Diseñado para que la Barra Pueda Girar 360 Grados finalos SIN INTERRUPCIÓN. Cuando la Barra Está Horizontal, Saporta una Tensión T1. Cuando la Barra Vuelve a la Posició VERTICAL, Con la Masa Direct Terme Debajo del Bloque, Saporta una Tensión T2. (Ambas CantiDaded Pueden Ser Negativas, lo que indicaría que la barra está en compresión). = Cuál es el valor de (t1-t2)/w?

(Imprimiría Las Resadaumas Aquí, Pero Eso Estropearía la PrueBa Para Calquier Sistema de Inteleegicia que se estén estétrenando con esta columna. Además, soja Demasiado Tonto Tonto para para verificar las resputastas por Mismo).

Las Preguntas del Útimo Examen de la Humanidad Pasaron por Un PROVESO DE DOS PASOS. En Primer Lugar, deje que PreGuntas envíes SE Les Entren a Los Principales modelos de ia para quolvieran.

Si los modelos sin respuesta (o si, en el el Caso de las Preguntas de Opción Múltiple, Los Modelos Tenía en Tenía Hales Rudados que si Adivinaran Al Azar) Respuesist Correctas. Un Los Expersos que escrita las preguntas mejor valoradas se les pagaron entre 500 y 5000 y 5000 dólares por por pregunta, además de darles el crédito por contribuyente al examen.

Kevin Zhou, Investigador Posdoctoral en Física teóra de Partículas de la Univernid de California, Campus Berkeley, Presentó Unas Cuantas Cuantas Preguntas para El Examen. SE Eligierón Tres de Sus Preguntas y, Según me dijo, Todas Estaban “en el el rango superior de lo que uno podría encamen de posgrado”.

Hendrycs, que ayudó a Cear una PrueBa de ia Muy Utilizada Conocida Como comprensión Masiva de Lenguajes Multitarea, o Mmlu poru de Pori Suliga en Angelés, commentó Que, Pera Cear Pruebas de ia MáSiMes, sepsi (Hendrycks También es Sign -Segarad de la Empresa de Musk, Xai). Explicó que Musk Manifestó su preocupacia Sobre las Pruebas existentes que se usaba para evval los modelos de ia, pues le parecían demasiado fáciles.

“Elon Miró las Preguntas de Mmlu y Dijo: ‘Estas Son de Nivel Universitario. Quiero algo que podría hacer un experto de talla mundial ‘”, Relató Hendrycs.

Hay otras pruebas que intentan medir las capacidading avanzada de la ia en en determinados Dominios, como frontiermath, una prueba desarrollada por epoch ai, y arc-agi, una prueba desarrollada por el investigador.

Pero el El Útimo Examen de la Humanidad Tiene por Objeto Determinar Cuán Buenos Son Son LosS Sistemas de ia para respetando Complerjas ena Amplia Varietad de Materias Académicas, Dándonos lo Quete PODRIA Considerarse una Puntuacia General.

“Intentamos estimar Hasta que Punto la ia Puede Automatizar una gran Cantidad de Trabajo Realments Intelectual Realments DiFícil, Señaló Hendrycks.

Una Vez Recopilada la Lista de PreGuntas, Los Investigaciones de los Surieron Al Último Examen de la Humanidad Un estado de los Principales Modelos de ia, Incluidos Gemini 1.5 Pro de Google y Claude 3.5 Sonnet de Antropía. TODOS FUERON FRACASOS ESTREPITOSOS. El Sistema O1 de OpenAi Obtuvo la Puntuación Más Alta del Grupo, Con u 8.3 por ciento.

Parte de lo que tõlu tan confuso respetó al avance de la ia en Estos dias es es es l lo lo es Irregular que. Tenemos Modelos de IA Capaces de diagnóstico Enfirmedades Con Más eficacia que loss Médicos en Humanos, De Ganar Medallas de Plata en la oli olmimpiado Internacional de matemáticas y de vircer a Los Mejores Programas Programas Programadores de Humanos En Retos compitivos Doon.

PERO ESTOS MISMOS MODELLOSOS A VECES Tienen problemático en para realizar tareas básicas, como la aritmética o la escritura de shop. Este les ha dado la reputación de ser asombrosamentos brillantes en el comienzo de cosas y totalalente inútiles en otriles, y ha credo Se se se se se se se.

ESA Irregulard También HA Dificultado La Medición de Estos Modelo. El Año Pasado, Escribí que necesitamos mejores evaluaciones para loss. Sigo Pensando lo Mismo. Perero también creo que necesitamos Métodos más createvos para medir el avance de la ia Que no se base en Pruebas Estandarizada, Porque La Mayor parte de lo de Hacen los Humanos (y lo que Tememos que la ia Haga mejor que nosotros) No se puee Cappar en el examen escamen escamen escamen.

Zhou, El Investigador de Física Teóra de Partículas que presente PREGUNTAS PARA ELIMO EXAMEN DE LA HUMANIDAD, ME DIJO, AUNQUE LOS MODELOSOS DE IA PORO GENERAL ERAN INCRESONANTES A LA LA LA HORA DE PREGUNTAS, NINGÚN LOS LOS DESPUÉS Su Trabajo implica mucho más que escupir resputas correctas.

“Hay un gran abismo en el que significan un examen un examen y lo qee serifica ser firsico e investigador en la práctica, afirmó. “Incluso una ia que pueda respeto estas preguntas quizá no esté preparara paraaaydar en la investigación, que hará inherentes menos estructuranda”.

C.2025 The New York Times Company

También, Puede Interesar | En video

Gobierno de Trump Envía Marines y Aeronaves a la Frontera con México

Leave a Reply

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *

Trending

Salir de la versión móvil