Ciencia y tecnologia

OpenAI afirma que su último modelo GPT-4o tiene un riesgo ‘medio’

OpenAI ha lanzado su Tarjeta del Sistema GPT-4o, un documento de investigación que detalla las medidas de seguridad y las evaluaciones de riesgo que la startup realizó antes de lanzar su último modelo.

GPT-4o se lanzó públicamente en mayo de este año. Antes de su debut, OpenAI utilizó un grupo externo de red teamers, o expertos en seguridad que intentan encontrar debilidades en un sistema, para identificar los principales riesgos en el modelo (lo cual es una práctica bastante estándar). Examinaron riesgos como la posibilidad de que GPT-4o creara clones no autorizados de la voz de alguien, contenido erótico y violento, o fragmentos de audio con derechos de autor reproducidos. Ahora, se están publicando los resultados.

Según el propio marco de OpenAI, los investigadores encontraron que GPT-4o tiene un riesgo “medio”. El nivel de riesgo general se tomó de la calificación de riesgo más alta de cuatro categorías generales: ciberseguridad, amenazas biológicas, persuasión y autonomía del modelo. Todas estas se consideraron de bajo riesgo, excepto la persuasión, donde los investigadores encontraron que algunas muestras de escritura de GPT-4o podrían ser mejores para influir en las opiniones de los lectores que los textos escritos por humanos, aunque las muestras del modelo no fueron más persuasivas en general.

Una portavoz de OpenAI, Lindsay McCallum Rémy, dijo a The Verge que la tarjeta del sistema incluye evaluaciones de preparación creadas por un equipo interno, junto con evaluadores externos listados en el sitio web de OpenAI como Evaluación de Modelos e Investigación de Amenazas (METR) y Apollo Research, ambos los cuales construyen evaluaciones para sistemas de IA.

Esta no es la primera tarjeta del sistema que OpenAI ha lanzado; GPT-4, GPT-4 con visión y DALL-E 3 también fueron probados de manera similar y la investigación fue publicada. Pero OpenAI está lanzando esta tarjeta del sistema en un momento crucial. La empresa ha estado recibiendo críticas constantes sobre sus estándares de seguridad, desde sus propios empleados hasta senadores estatales. Solo unos minutos antes del lanzamiento de la tarjeta del sistema de GPT-4o, The Verge informó en exclusiva sobre una carta abierta de la senadora Elizabeth Warren (D-MA) y la representante Lori Trahan (D-MA) que pedía respuestas sobre cómo OpenAI maneja a los denunciantes y las revisiones de seguridad. Esa carta detalla los muchos problemas de seguridad que se han señalado públicamente, incluido el breve despido del CEO Sam Altman de la empresa en 2023 como resultado de las preocupaciones de la junta y la salida de un ejecutivo de seguridad, quien afirmó que “la cultura de seguridad y los procesos han pasado a un segundo plano frente a productos brillantes”.

Además, la empresa está lanzando un modelo multimodal altamente capaz justo antes de una elección presidencial en los EE.UU. Existe un claro riesgo potencial de que el modelo difunda accidentalmente desinformación o sea secuestrado por actores maliciosos, incluso si OpenAI espera resaltar que la empresa está probando escenarios del mundo real para prevenir el uso indebido.

Ha habido muchas llamadas para que OpenAI sea más transparente, no solo con los datos de entrenamiento del modelo (¿está entrenado en YouTube?), sino con sus pruebas de seguridad. En California, donde OpenAI y muchos otros laboratorios líderes de IA tienen su sede, el senador estatal Scott Wiener está trabajando para aprobar un proyecto de ley para regular los grandes modelos de lenguaje, incluidas restricciones que harían a las empresas legalmente responsables si su IA se usa de manera perjudicial. Si se aprueba ese proyecto de ley, los modelos avanzados de OpenAI tendrían que cumplir con evaluaciones de riesgo estatales antes de poner los modelos a disposición del público. Pero la conclusión más importante de la Tarjeta del Sistema GPT-4o es que, a pesar del grupo de red teamers y evaluadores externos, gran parte de esto depende de que OpenAI se evalúe a sí mismo.