Durante el evento AWS re:Invent 2023 en Las Vegas, RPP Noticias conversó con Jachin Bhasme, COO de ‘Leonardo AI’ y líder en operaciones y tecnologías disruptivas, quien comparte su visión sobre la revolución tecnológica en la producción de contenido con IA.
La creación de contenido gráfico ha experimentado una transformación revolucionaria con la adopción generalizada de herramientas de inteligencia artificial generativa (IA). En este contexto, líderes como Jachin Bhasme, COO de Leonardo AI, destacan el impacto significativo de la IA en la producción de contenido, empoderando a creadores a nivel mundial. La capacidad de estas herramientas para transformar los procesos de diseño convencionales es evidente, abriendo nuevas posibilidades creativas y eficiencias operativas. RPP Noticias conversó con Bhasme durante el AWS re:Invent 2023 en Las Vegas, y el entusiasta emprendedor ofrece una visión valiosa sobre cómo la IA está dando forma al panorama de la creación de contenido gráfico.
Antes, un poco de contexto. Jachin es graduado de la University of Technology Sydney, obteniendo su título de Bachelor of Business Bachelor of Science in Information Technology, Finance & Data Analytics en el periodo 2017-2020, con distinción. Antes de unirse a Leonardo AI, Jachin ocupó el cargo de Business & Process Analyst durante nueve meses en Zetland, New South Wales, Australia, desde enero de 2021 hasta septiembre de 2021. Además, trabajó como Junior Analyst en Surry Hills, New South Wales, Australia, durante un año y nueve meses, desde abril de 2019 hasta diciembre de 2020.
Su diversa experiencia profesional y su enfoque en tecnología y análisis de datos se suman a su papel clave como COO en Leonardo AI, donde continúa impulsando la innovación en la producción de contenido con inteligencia artificial.
El prompt, la clave de la imagen
RPP: Mi primera experiencia usando Leonardo.AI ha sido un poco abrumadora debido a la enorme cantidad de opciones disponibles en la interfaz. Sin embargo, entiendo que el prompt – NR: la secuencia de texto que desencadena una respuesta en inteligencia artificial – es el tema central para empujar un buen resultado. ¿Qué recomendaciones das para un recién iniciado en el tema de prompts para imágenes en IA?
Jachin Bhasme (JB): Una de las cosas que nos dimos cuenta fue que el prompt era solo una parte del proceso. Queríamos introducir el mayor control adicional posible. Por lo tanto, hay otros factores involucrados en obtener la imagen que deseas, y depende de tu caso de uso específico y el nivel de control que desees.
Por ejemplo, el ajuste fino es una excelente opción si tienes un estilo específico en mente, especialmente para estudios de juegos. En lugar de tratar de descifrar un prompt elaborado para describir el estilo deseado, puedes ajustar un modelo usando solo 10-15 imágenes y un prompt simple para lograr el mismo resultado en menos de cinco minutos.
Sin embargo, creemos que aprender a dar prompts efectivos será cada vez menos importante con el tiempo. Si bien actualmente es un proceso importante de exploración, la plataforma en sí es muy capaz y permite una amplia variedad de usos creativos. Entendemos que esto requiere tiempo y exploración, que no todos tienen. Por eso, uno de nuestros principales focos es mejorar la experiencia del usuario.
Una de las otras fortalezas de la plataforma es su comunidad. Creemos que una parte significativa del aprendizaje de cómo escribir mejores prompts es interactuar con la comunidad. Cada vez que se genera una imagen, los usuarios comparten sus prompts, lo que permite a otros aprender de ellos. También tenemos grupos dedicados como el grupo "Prompt Plastic" donde las personas discuten cómo abordar diferentes prompts, ofrecen sugerencias y brindan comentarios. Además, recientemente lanzamos una herramienta que utiliza la IA para tomar un prompt básico y mejorarlo, lo que hace que sea más probable que genere imágenes potentes.
RPP: Sin embargo, la interfaz es un poco confusa y hay muchas herramientas. ¿Podrías detallarnos qué funciones tiene la plataforma?
JB: Se trata de flujos de trabajo personalizados que ha desarrollado el equipo de aprendizaje automático de IA. Estoy seguro de que pueden hablar más sobre eso en detalle, pero en esencia, están diseñados como flujos de trabajo de varios pasos para lograr resultados específicos. Por ejemplo, Alchemy se puede apilar sobre cualquier modelo que use para cualquier imagen que genere. Es una función que está bloqueada detrás del nivel de pago, pero le permite lograr salidas de alta fidelidad, específicamente imágenes fotorrealistas.
Prompt Magic es un flujo de trabajo diseñado para mejorar los resultados solicitados. Estos flujos de trabajo son opcionales y se pueden apilar sobre modelos afinados. Su uso ofrece un mayor control sobre sus salidas, pero requiere alguna exploración del usuario para encontrar el estilo que busca. Sin embargo, una vez que aprenda a usarlos de manera efectiva, pueden ser muy poderosos.
El mercado de la IA de imagen, cada vez más competitivo
Leonardo.AI es una plataforma de generación de imágenes impulsada por IA que permite a los usuarios crear imágenes de alta calidad a partir de instrucciones escritas. El proceso de creación de imágenes en se puede dividir en tres pasos principales:
Instrucción: El usuario proporciona una instrucción escrita a la plataforma. Esta instrucción puede ser tan simple como "un perro corriendo por un campo" o tan compleja como "una pintura abstracta de colores vibrantes".
Generación: La plataforma utiliza un modelo de aprendizaje automático para generar una imagen que coincida con la instrucción. El modelo está entrenado en una gran cantidad de datos de imágenes, lo que le permite aprender a crear imágenes que sean realistas y atractivas.
Editado: El usuario puede editar la imagen generada para obtener el resultado deseado. Esto se puede hacer mediante herramientas de edición básicas, como el recorte y el cambio de tamaño, o mediante herramientas más avanzadas, como la adición de efectos o el cambio de estilo.
Más allá de estas condiciones, hay elementos que hacen única a la plataforma frente a soluciones como MidJourney o Dall-e de OpenAI. Ante estos productos, Jachin comenta:
“Creo que lo que nos diferencia es que nos centramos de manera intencional en ofrecer el mayor control posible. En lugar de ofrecer un solo modelo, ofrecemos varios modelos afinados, algunos de uso general y otros adaptados a estilos o looks específicos. Incluso puedes entrenar modelos sobre temas muy matizados como la estética, la composición o la teoría del color.
Este enfoque nos permite afinar los modelos nosotros mismos, así como empoderar a los usuarios para que afinen los suyos propios. Esto va más allá de herramientas como "midjourney" y "dall-e" donde los usuarios están limitados a interactuar con los modelos a través de los prompts. En esos casos, si llegas al 80% del camino, pero quieres llegar al 100%, tus opciones suelen ser regenerar la imagen repetidamente o llevarla a Photoshop.
Queríamos crear una experiencia de principio a fin, por lo que construimos una herramienta de lienzo. Aquí, puedes tomar imágenes, enmascarar las áreas que quieres editar y perfeccionarlas aún más. Incluso puedes extender y ampliar tus imágenes dentro de la herramienta.
Por último, hemos centrado nuestros esfuerzos en construir una comunidad fuerte en torno a la plataforma. Ha sido increíble ver lo colaborativos que son todos. Es como... siempre uso el ejemplo de ser músico. Mi esposa podría preguntarme: "¿Puedes tocar esta canción de Taylor Swift en la batería?" y yo diría: "Por supuesto, es un reto fácil".
Lo genial es que, después de dar a los usuarios tanto control y permitirles convertirse en expertos en la plataforma, casi sienten que tienen superpoderes. Cuando les desafiamos, ya sea a través de una competición o simplemente preguntando si algo es posible, la comunidad se apresura a intervenir y a intentar resolverlo. Esto es un resultado directo de empoderar a los usuarios y darles la oportunidad de explorar lo que es posible.
La idea detrás de todo esto es que no queremos eliminar el elemento humano del proceso creativo. Creemos que es importante. En lugar de intentar automatizar todo, queremos dar a los usuarios el mayor control posible.
Te recomendamos
Comparte esta noticia