OpenAI lanza la tercera versión de DALL-E, su generador de imágenes por inteligencia artificial

OpenAI ha anunciado la tercera versión de su plataforma de arte visual de inteligencia artificial (IA) generativa DALL-E, que ahora permite a los usuarios utilizar ChatGPT para convertir texto e incluye más opciones de seguridad.

DALL-E convierte mensajes de texto en imágenes. Pero incluso DALL-E 2 se equivocaba, ignorando a menudo palabras concretas. Según los investigadores de OpenAI, la última versión entiende mucho mejor el contexto.

Una novedad de DALL-E 3 es la integración con ChatGPT. Al utilizar ChatGPT, no es necesario que el usuario elabore sus propias instrucciones detalladas para guiar a DALL-E 3; basta con pedir a ChatGPT que elabore una instrucción y el chatbot escribirá un párrafo (DALL-E funciona mejor con frases más largas) para que DALL-E 3 lo siga. Otros usuarios pueden utilizar sus propias instrucciones si tienen ideas específicas para DALL-E.

En una demostración para The Verge, Aditya Ramesh, investigador principal y jefe del equipo de DALL-E, pidió a ChatGPT que le ayudara a idear un logotipo para un restaurante de ramen en las montañas. A continuación, ChatGPT escribió una pregunta más larga y DALL-E propuso cuatro opciones. Una de ellas era la representación de una montaña con casquetes de nieve de ramen, con el caldo cayendo como una cascada y huevos en vinagre en el suelo como piedras de jardín, aunque parecía más una ilustración para una bonita tienda que el logotipo de un restaurante convencional.

Según OpenAI, esta conexión con el chatbot permite a más personas crear arte con IA, ya que no tienen que ser muy buenos a la hora de idear una idea.

DALL-E, lanzado por primera vez en enero de 2021, llegó antes que otras plataformas artísticas de IA generativa de texto a imagen, como Stability AI y Midjourney. Cuando se lanzó DALL-E 2 en 2022, OpenAI abrió una lista de espera para controlar quién podía utilizar la plataforma tras las críticas de que DALL-E podía generar imágenes explícitas fotorrealistas y mostraba sesgos al generar fotos. La empresa retiró la lista de espera en septiembre del año pasado y abrió DALL-E 2 al público.

Esta nueva versión de DALL-E se lanzará primero a los usuarios de ChatGPT Plus y ChatGPT Enterprise en octubre, seguidos por los laboratorios de investigación y su servicio API en otoño. OpenAI tiene previsto escalonar el lanzamiento de DALL-E 3, pero no se ha comprometido a decir cuándo saldrá una versión pública gratuita.

OpenAI afirma que centró gran parte de su trabajo en DALL-E 3 en la creación de sólidas medidas de seguridad para evitar la creación de imágenes lascivas o potencialmente odiosas. OpenAI afirma que trabajó con «red teamers» externos -un grupo que intenta intencionadamente romper un sistema para probar su seguridad- y se basó en clasificadores de entrada, una forma de enseñar a los modelos lingüísticos a ignorar ciertas palabras para evitar indicaciones explícitas o violentas. DALL-E 3 tampoco podrá recrear imágenes de personajes públicos, siempre que el mensaje mencione específicamente un nombre.

Sandhini Agarwal, investigadora de políticas de la empresa, afirmó tener «gran confianza» en sus medidas de seguridad, pero aclaró que el modelo mejora continuamente y no es perfecto. Representantes de OpenAI dijeron en un correo electrónico que DALL-E 3 ha sido entrenado para declinar generar imágenes al estilo de artistas vivos. A diferencia de DALL-E 2 que, cuando se le pide, puede imitar en cierto modo el arte al estilo de ciertos artistas.

OpenAI, posiblemente para evitar demandas, también permitirá a los artistas excluir su arte de las futuras versiones de los modelos de IA de texto a imagen. Los creadores pueden enviar una imagen de la que posean los derechos y solicitar su eliminación en un formulario de su sitio web. Una futura versión de DALL-E podrá bloquear los resultados que se parezcan a la imagen y el estilo del artista. Los artistas demandaron a los competidores de DALL-E, Stability AI y Midjourney, así como al sitio web de arte DeviantArt, por utilizar supuestamente sus obras protegidas por derechos de autor para entrenar sus modelos de conversión de texto en imagen.

(Fuente: The Verge)

LA REGION

NACIONALES

INTERNACIONALES

ULTIMAS NOTICIAS

Newsletter

Columnas