Yoshua Bengio is redesigning AI safety at LawZero

El autor de ciencia ficción Isaac Asimov una vez presentó un conjunto de leyes que los humanos deberíamos programar en nuestros robots. Además de una primera, segunda y tercera ley, Hey también introdujeron una “Ley Zeroth”, lo cual es tan importante que precede a todos los éteres: “Un robot puede no dañar a la humanidad o inacción, permitir que la humanidad se dañe”.

Este mes, el científico informático Yoshua Bengio, conocido como el “Padrino de AI” debido a su trabajo pionero en el campo, lanzó una nueva organización Callero. Como puede suponer probable, su misión principal es asegurarse de que AI no dañe la humanidad.

Solo pensé que ayudó a sentar las bases para la IA avanzada de hoy, Bengio está cada vez más preocupado por la tecnología en los últimos años. En 2023, firmó una carta abierta instando a las compañías de IA a presionar elase en el desarrollo de IA de última generación. Los daños actuales de Bothe Hene o AI (como el sesgo contra los grupos marginados) y los riesgos futuros de la IA (como las biowapons de ingeniería), hay razones muy fuertes para pensar que la desaceleración tiene algo bueno.

Pero las empresas son empresas. No disminuyeron la velocidad. De hecho, crearon AIS autónomos conocidos como agentes de IA, que pueden ver la pantalla de su computadora, seleccionar botones y tareas de rendimiento, tal como puede. Mientras que ChatGPT debe ser solicitado por un humano en cada paso del camino, un agente puede lograr objetivos de varios pasos con una mínima solicitación, similar a un asistente personal. En este momento, esos objetivos son simples (crean un sitio web, por ejemplo, y los agentes aún no funcionan tan bien. Pero a Bengio le preocupa que dar la agencia AIS sea un movimiento inherentemente arriesgado: posiblemente, podrían escapar del control humano y ir “pícaros”.

Entonces, ahora, Bengio está girando a un plan de respaldo. Si oye, ¿puede hacer que los compañeros dejaran de construir una IA que coincida con la inteligencia humana (inteligencia general artificial, o AGI) o incluso supere la inteligencia humana (superinteligencia artificial o ASI), entonces oye construir algunos que bloqueen esas haranidad. Lo llama “científico ai”.

El científico AI Won será como un agente de IA: no tendrá autonomía ni objetivos propios. En cambio, su trabajo principal será calcular la probabilidad de que la acción de alguna otra IA cause daño y, si la acción es demasiado arriesgada, la bloquee. Las compotaciones de IA podrían ser científicas AI en sus modelos para evitar que hagan algo peligroso, similar a la forma en que ponemos Guardraails a lo largo de las carreteras para evitar que los autos se desvanezcan.

Hablé con Bengio sobre por qué está tan perturbado por los sistemas de IA de hoy, si lamenta haber hecho la investigación que llevó a su creación, y si cree que lanzar aún más IA en el problema será suficiente para resolverla. Sigue una transcripción de nuestra inusual conversación sincera, editada por longitud y claridad.

Cuando las personas expresan preocupación por la IA, lo expresan o lo expresan como una preocupación por la inteligencia general artificial o la superinteligencia. ¿Crees que eso es lo incorrecto de lo que preocuparse? ¿Deberíamos solo preocuparnos por AGI o ASI en la medida en que incluye la agencia?

SÍ. Podrías tener una IA súper inteligente que no “no” quiere nada, y no es totalmente peligroso porque no posee objetivos. Es como una enciclopedia muy inteligente.

Los investigadores han estado advirtiendo durante años sobre los riesgos de los sistemas de inteligencia artificial, sistemas especiales con sus propios objetivos e inteligencia general. ¿Puede explicar qué hace que la situación sea cada vez más aterradora para usted ahora?

En los últimos seis meses, tenemos evidencia de AIS que están tan desalineadas que irían en contra de nuestras instrucciones morales. Planearían y harían estas cosas malas: mentir, hacer trampa, intentar persuadirnos con engaños y, lo peor de todo, intentando escapar de nuestro control y no querer ser cerrados, y hacer nada [to avoid shutdown]incluido el chantaje. Estos no son un peligro inmediato porque todos son experimentos controlados … pero no sabemos cómo lidiar realmente con esto.

¿Y estos aumentan el mal comportamiento, más agencia tiene el sistema de IA?

SÍ. Los sistemas que tuvimos el año pasado, antes de entrar en modelos de razonamiento, eran mucho menos propensos a esto. Está empeorando cada vez más. Eso tiene sentido porque vemos que su capacidad de planificación está mejorando exponentialmente. Y [the AIs] Necesito una buena planificación para estrategias sobre cosas como “¿Cómo voy a convencer a estas personas para que hagan lo que quiero?” o “¿Cómo escapo de su control?” Entonces, si no solucionamos estos problemas rápidamente, podemos terminar, inicialmente, accidentes divertidos, y más tarde, un accidente no divertido.

Eso es motivar lo que estamos tratando de hacer en Lawzero. Estamos tratando de pensar en cómo diseñamos AI con más precisión, de modo que, por construcción, ni siquiera tendrá ningún incentivo o referencia para hacer tales cosas. De hecho, no va a querer nada.

Cuéntame cómo el científico AI podría usarse como una barandilla contra las malas acciones de un agente de IA. Me estoy imaginando al científico IA como la niñera de la IA agente, verificando dos veces lo que está haciendo.

Entonces, para hacer el trabajo de una barandilla, no necesita ser el agente usted mismo. Lo único que debe hacer es hacer una buena predicción. Y la predicción es esta: ¿es esta acción que mi agente sería gallinas para hacer aceptable, moralmente hablando? ¿Satisface las especificaciones de seguridad que los humanos tienen proporcionados? ¿O va a dañar a alguien? Y si la respuesta es sí, con cierta probabilidad que no es muy pequeña, entonces la barandilla dice: No, esta es una mala acción. Y el agente tiene que [try a different] Acción.

Pero incluso si construimos la IA científica, el dominio o “¿Qué es moral o inmoral?” Es famoso contencioso. Simplemente no hay consenso. Entonces, ¿cómo aprendería el científico AI qué clasificar como una mala acción?

No es para ningún niño o IA decidir qué está bien o mal. Deberíamos establecer que el uso de la democracia. La ley debe tratarse de tratar de ser clara sobre lo que es aceptable o no.

Ahora, o por supuesto, podría haber ambigüedad en la ley. Por lo tanto, puede obtener un abogado corporativo que pueda encontrar lagunas en la ley. Pero hay una forma de evitar esto: el científico IA está planeado para que vea la ambigüedad. Verá que hay diferentes interpretaciones, digamos, o una regla particular. Y luego puede ser conservador sobre la interpretación, como en, si alguna de las interpretaciones plausibles juzgaría esta acción como realmente mala, entonces la acción es rechazada.

Creo que un problema sería que casi cualquier elección moral posiblemente tenga ambigüedad. Tenemos algunos de los problemas morales más polémicos, piense en el control de armas o el aborto en los Estados Unidos, donde, incluso democráticamente, podría una proporción significativa de la población que dice que se oponen. ¿Cómo te propones lidiar con eso?

No. Excepto por tener la honestidad y racionalidad más sólida en las respuestas, lo que, en mi opinión, ya sería una gran ganancia en comparación con el tipo de discusiones democráticas que están sucediendo. Una de las características del científico IA, como un buen científico humano, es que puedes preguntar: ¿por qué estás diciendo esto? Y se le ocurriría, no “oye”, lo siento! – él se le ocurrió una justificación.

La IA estaría involucrada en el diálogo para tratar de ayudarnos a racionalizar cuáles son los pros y los contras, etc. Así que creo que este tipo de máquinas podrían convertirse en herramientas para ayudar a los debates democráticos. Es un poco más que verificación de hechos, también es como la verificación de razones.

Esta idea de desarrollar la voz del científico AI a partir de su desilusión con la IA que hemos desarrollado las piernas hasta ahora. Y su investigación fue muy fundamental para sentar las bases para ese hijo de IA. A nivel personal, ¿sientes algún sentido del conflicto interno o te arrepientes de haber hecho la investigación que estableció ese trabajo basado en las bases?

Sin embargo, debería haber pensado o esto hace 10 años. De hecho, podría haberlo hecho, porque leí algunos de los primeros trabajos en seguridad de IA. Pero creo que hay defensas psicológicas muy fuertes que tuve, y que la mayoría de los investigadores de IA tienen. Quieres sentirte bien con tu trabajo, y quieres sentir que eres el buen tipo, no haces algo que pueda causar en el futuro mucho daño y muerte. Así que nosotros, o miramos para otro lado.

Y para mí, estaba pensando: ¡esto está tan lejos en el futuro! Antes de llegar a la ciencia ficción que suena cosas, vamos a tener una IA que puede ayudarnos con la medicina, el clima y la educación, y será genial. Así que nos preocupemos por estas cosas cuando llegamos allí.

Pero eso fue antes de que llegara Chatgpt. Cuando llegó Chatgpt, no pude seguir viviendo con esta mentira interna, porque, bueno, nos estamos acercando mucho al nivel humano.

La razón por la que pregunto esto es que me sorprendió al leer su plan para la IA científica que usted dice que está modelado después de la idea platónica de un científico, una persona desinteresada e ideal que solo está tratando de entender el mundo. Pensé: ¿Estás tratando de construir la versión ideal de ti mismo, este “él” que mencionaste, el ideal científico? ¿Es como lo que desearías poder tener la pierna?

¡Deberías hacer psicoterapia en el periodismo! Sí, estás bastante cerca de la marca. En cierto modo, es un ideal que tengo una pierna mirando hacia mí mismo. Creo que es un ideal que los científicos deberían considerar como modelo. Porque en su mayor parte en la ciencia, debemos alejarnos de nuestras emociones para evitar prejuicios e ideas preconcebidas y ego.

Hace un par de años, usted era uno de los firmantes de la carta que instaba a las compañías de IA a falsificar el trabajo de vanguardia. Obviamente, la pausa no sucedió. Para mí, una de las tomas de ese momento fue que estamos en un punto en el que este no es predominantemente un problema tecnológico. Es político. Realmente se trata de poder y quién obtiene el poder de dar forma a la estructura de incentivos.

Sabemos que los incentivos en la industria de la IA están terriblemente desalineados. Hay una presión comercial masiva para construir IA de vanguardia. Para hacer eso, necesita una tonelada de cómputo para que necesite miles de millones de dólares, por lo que se ve obligado a colocar en la cama con un Microsoft o un Amazon. ¿Cómo te propones evitar ese destino?

Es por eso que estamos haciendo esto como una no fines de lucro. Queremos evitar la presión del mercado que forzaría usar la carrera de capacidad y, en cambio, centrarnos en los aspectos científicos de la seguridad.

Creo que podríamos hacer mucho bien sin tener que entrenar modelos de frontera. Si se nos ocurrió una metodología para capacitar a la IA que es convincentemente más segura, al menos en algunos aspectos como la pérdida de control, y la entregamos casi gratis a los compañeros que están construyendo IA, bueno, nadie en estas compañías en realidad las gallinas. ¡Es solo que no tienen el incentivo para hacer el trabajo! Así que creo que solo saber cómo solucionar el problema reduciría considerablemente los riesgos.

También creo que los gobiernos con suerte tomarán estas preguntas cada vez más enérgicamente. En este momento, sé que es de acuerdo, pero cuando comenzamos a ver más evidencia del niño que hemos visto en los últimos seis meses, pero la opinión pública más fuerte y más aterradora podría impulsar lo suficiente como para que la regulación o la regulación. Podría suceder solo por razones del mercado, como, como, [AI companies] Podría ser sed. Entonces, en algún momento, podrían razonar que deberían estar dispuestos a pagar algo de dinero para reducir los riesgos de los accidentes.

Me alegró ver que Lawyero no solo está hablando de reducir los riesgos de los accidentes, sino que también está hablando de “proteger la alegría humana y el esfuerzo”. Mucha gente teme que si la IA se vuelve mejor que ellos en las cosas, bueno, ¿cuál es el significado de su vida? ¿Cómo aconsejaría a las personas que piensen en el significado de su vida humana si entramos en una era en la que las máquinas tienen la agencia y la inteligencia extrema?

Entiendo que sería fácil desanimarse y sentirse impotente. Pero las decisiones que los seres humanos tomarán en los próximos años a medida que la IA se vuelve más poderosa: las decisiones de tesis son increíbles. ¡Así que hay un sentido en el que es difícil tener más significado que eso! Si quieres hacer algo al respecto, sé parte del pensamiento, sé parte del debate democrático.

Nos aconsejaría a todos que les recordemos a Ourelves que tenemos agencia. Y tenemos una tarea increíble frente a nosotros: dar forma al futuro.

]

Yoshua Bengio is redesigning AI safety at LawZero

IRS unveils proposed regulations for new Trump Accounts savings program

Uber expands its program that helps pair women riders and drivers

Oren Nissim, Brook-ai – Figuring out RPM

When Artificial Intelligence Starts Rewriting Reality

Lauren Ranalli, Town Square Health

Manfaat Planking Sport untuk Kekuatan Inti Tubuh

USA

Business

Health

Sports