Generative Artificial Intelligence in the Creative Process and Design Concept Development
Universidad Nacional Autónoma de México (UNAM), México.
Resumen
La presencia de la Inteligencia Artificial se ha vuelto cada vez más común en el ámbito profesional de los diseñadores. Esta tecnología destaca por su eficiencia y capacidad, superando las expectativas de los especialistas durante su proceso creativo. En este artículo hacemos una revisión de los alcances obtenidos durante la generación de conceptos para proyectos académicos de diseño, utilizando distintas plataformas generativas, de texto e imagen, por inteligencia artificial. En el Centro de Investigaciones de Diseño Industrial (CIDI) de la Universidad Nacional Autónoma de México, se utilizaron en dos asignaturas, sistemas generativos de imágenes, con los cuales se lograron resultados básicos favorables en la configuración formal y estética. Dichos resultados sirvieron como base en el desarrollo de una metodología, los alcances y las directrices para lograr la generación de imágenes mediante el entrenamiento automático de una inteligencia artificial basada en modelos de lenguaje y de conversación.
Palabras Clave: Inteligencia artificial generativa, Instrucciones / palabras clave (prompts), Diseño de producto, Algoritmo de aprendizaje, Proceso creativo.
Abstract
The presence of Artificial Intelligence has become increasingly common in the professional field of designers. This technology stands out for its efficiency and capability, surpassing specialists expectations during their creative process. In this article, we review the achievements obtained during the concept generation for academic design projects using different generative platforms for text and image by artificial intelligence. At the Center for Industrial Design Research (CIDI) of the National Autonomous University of Mexico, these generative image systems were used in two courses, yielding favorable basic results in formal and aesthetic configuration. These results served as the foundation for developing a methodology, scope, and guidelines to achieve image generation through the automatic training of an artificial intelligence based on language and conversation models.
Key Words: Generative artificial intelligence, Instructions - keywords (prompts), Product design, Learning algorithm, Creative process.
Summary – Sumario
1.1. La creatividad y el proceso creativo
1.2. La Inteligencia Artificial en el proceso creativo
3.4. Entrenamiento de modelo de lenguaje y generación de prompts.
cómo citar este trabajo / how to cite this paper
Sattele, V., Reyes, M., & Fonseca, A. (2023). La Inteligencia Artificial Generativa en el Proceso Creativo y en el Desarrollo de Conceptos de Diseño. Umática. Revista sobre Creación y Análisis de la Imagen, 6.
https://doi.org/10.24310/Umatica.2022.v5i6.17153
La Inteligencia Artificial (IA) es una tecnología que posee la capacidad de interpretar el entorno y tomar decisiones basándose en ello. Desde su surgimiento en 1956, ha experimentado una evolución considerable, convirtiéndose en un campo de estudio que abarca diversas disciplinas, entre las que se incluyen la modelización computacional del cerebro humano y el reconocimiento de patrones sociales complejos en diferentes contextos. De acuerdo a Norving y Russell, (2021), la argumentación gira sobre cuatro enfoques o categorías de estudio en los que se basan los desarrollos en IA: a) Sistemas que actúan como humano, b) Sistemas que piensan como humano, c) Sistemas que actúan racionalmente, y d) Sistemas que piensan racionalmente (pp. 2) (Tabla 1.). En esencia, la IA no solo busca comprender el funcionamiento de la mente humana, sino también predecir y reconocer patrones de comportamiento en la sociedad. Cada enfoque se centra en un aspecto específico, ya sea la emulación de la forma de pensar o actuar de los seres humanos, o la adopción de una estrategia racional. Estos enfoques amplían nuestra comprensión de las capacidades y limitaciones de las máquinas inteligentes.
Enfoque Racional |
|
Sistemas que actúan como humano |
Sistemas que actúan racionalmente |
Sistemas que piensan como humano |
Sistemas que piensan racionalmente |
Tabla 1: Enfoques y/o categorías generales de la implementación de los sistemas de Inteligencia Artificial (Russell y Norving, 2021)
La intervención de la IA ha transformado el campo del diseño industrial (DI) en múltiples aspectos, brindando soluciones eficientes, innovadoras y personalizadas. Algunas de las aplicaciones de la IA en este campo incluyen: a) La generación de ideas con algoritmos de IA o Inteligencia Artificial Generativa (IAG) que analizan grandes conjuntos de datos para identificar patrones, tendencias y preferencias del mercado, lo que facilita la generación de conceptos innovadores en la creación de productos (Nozaki et al., 2017), b) El diseño generativo que permite explorar automáticamente diversas variaciones del diseño, optimizando aspectos como forma, estructura y materiales, según los requisitos de rendimiento y las limitaciones de fabricación (Aso et al., 2022), y c) La personalización basada en el análisis de las preferencias de los usuarios, para ofrecer productos individualizados, permitiendo a las empresas destacarse en el mercado y brindar experiencias únicas (Oosthuizen et al., 2021).
Actualmente, el DI utiliza sistemas basados en IA de varias maneras, una de las principales contribuciones es el diseño generativo, tal recurso se encuentra embebido en los software para modelado 3D y tiene la capacidad de generar múltiples propuestas digitales automáticamente. La IA puede ser utilizada para simular digitalmente el comportamiento de un producto en diferentes condiciones, lo que ayuda a identificar posibles problemas y realizar mejoras antes de la fabricación física, permite además la personalización masiva de productos, interviene en la logística y la cadena de suministros, tiene presencia en el comercio electrónico (e-commerce) entre otras actividades esenciales en el DI (Tsang et al., 2022).
El uso de la Inteligencia Artificial en el DI presenta tanto ventajas como desventajas. Una de las ventajas principales es que los sistemas basados en IA tienen la capacidad de analizar grandes cantidades de datos y extraer de ellos patrones para generar ideas innovadoras y soluciones de diseño. Además, la IA facilita la personalización de productos, adaptándose estos a las preferencias de los usuarios y a sus necesidades. Por otra parte, una de las desventajas principales en el uso de la IA, puede ser la significativa inversión inicial y la necesaria capacitación de los colaboradores, estudiantes y el personal involucrado. Por último, el exceso de dependencia en la tecnología puede llevar a la pérdida de creatividad humana (Nadimpalli, 2017).
1.1. La creatividad y el proceso creativo
En el año 1901 del siglo pasado, el francés Théodule Ribot (1901) escribió ”Ensayo acerca de la imaginación creadora” donde decía que “en efecto, la imaginación es subjetiva, personal y antropocéntrica; su movimiento va de dentro a afuera, hacia la objetivación”, señalando además que “la imaginación creadora es de una complejidad suma”; asentando con esto, las bases de un primer acercamiento a lo que 50 años después, J. P. Guilford (1950) en su “Teoría de la inteligencia” denominaría creatividad. En esta teoría se enumeran tres dimensiones que componen la inteligencia: contenidos o percepciones (datos), transformación (procesos) y resultados (productos). Estas dimensiones al incorporar el pensamiento divergente generan respuestas alternativas, más eficientes y flexibles, permitiendo mejores resultados ante cualquier problema. La creatividad entonces, involucra diversos procesos cognitivos, emocionales y sociales al integrar de forma aleatoria conocimientos, experiencias y perspectivas en una interacción intrincada entre la imaginación, la intuición, las habilidades para la resolución de problemas y el pensamiento tanto consciente como inconsciente. Esta es la razón por la cual se denomina como una capacidad compleja, ya que la diversidad de datos recibidos es procesada, sintetizando elementos aparentemente no relacionados para generar, tras el procesamiento, una o varias alternativas posibles como resolución al problema planteado.
1.2. La Inteligencia Artificial en el proceso creativo
El uso de la IA en la etapa de concepto puede impactar el desarrollo de ideas; Figoli et al (2022) agrupan las aplicaciones de IA para esta fase en cinco categorías, que se distinguen por las tareas que desarrollan: generador de imágenes, asistente de bocetaje, generador y modificador de modelos, y facilitador y evaluador de conceptos. En particular, se han estudiado los aspectos de la creatividad humana en la generación de texto a imágenes, con nuevos términos como prompt engineering (ingeniería de palabras clave) (Oppenlaender, 2022) guías o directrices de diseño para su ejecución (Liu y Chilton, 2022) y su uso en la educación del diseño (Vartiainen y Tedre, 2023).
La creatividad dentro del proceso de diseño, al igual que cualquier capacidad compleja, necesita bases de datos y referencias que potencialicen los alcances durante el desarrollo de conceptos. Mientras, por un lado, se argumenta que la dependencia hacia la tecnología puede incidir negativamente en la creatividad humana, por otro lado, se ha hablado sobre la interacción entre humanos y agentes de IA diseñados para apoyar o exponenciar la creatividad humana, o sistemas co-creativos (Guzdial y Riedl, 2019; Wei Xu et al., 2023). Rezwana y Maher (2023) argumentan que la creatividad que emerge de esta colaboración es distinta de la individual, ya que involucra una interacción y el resultado puede ser más creativo; sin embargo, estos sistemas co-creativos presentan retos importantes, pues los humanos usan diferentes estrategias y razonamientos a lo largo del proceso creativo, que evolucionan dinámicamente con el tiempo, lo cual requiere de adaptabilidad de parte del agente, y por esto, no queda tan claro cómo la IA debería interactuar. La IA puede funcionar como interlocutor pasivo (donde el humano dirige y la IA asiste) o activo (donde la IA podría dirigir, buscando posibilidades o trabajando de forma independiente), lo qué representa un desafío en el transcurso del proceso. La IA podría potencialmente convertirse en una herramienta de asistencia, llegando a tener una contribución importante dentro de un rol colaborativo con personal capacitado, lo cual también se ha llamado “trabajo en equipo humano-máquina” (Wei Xu et al., 2023).
Finalmente, se argumenta que la interacción con la IA debería estar centrada en el humano (human-centered AI), donde las decisiones finales sean tomadas por humanos y la IA no sea una caja negra, sino que sea explicativa (explainable IA) o transparente en cuanto a cómo funciona (Wei Xu et al., 2023; Zhang y Yu, 2023). Flick y Worrall (2022) proponen enfocarse en las virtudes tecno-morales propuestas por Vallor (2016) que pretenden configurar una IA con características inherentes a las cualidades éticas humanas referidas a la creatividad. Se menciona que el uso, en general, de la IA considerada como creativa, debe verse como un complemento o amplificador del proceso creativo.
Actualmente encontramos diversos softwares de plataforma abierta que generan imágenes a través de prompts (palabras clave - instrucciones). El software Midjourney define un prompt como una frase corta que el software interpreta para producir una imagen; en este, las palabras y frases se separan en unidades más pequeñas o tokens, los cuales se comparan con los datos utilizados, durante su entrenamiento, para generar una imagen. Los prompts van desde imágenes opcionales pre cargadas por el usuario o encontradas en internet (URLs), pasando por el texto principal, hasta poner al final, los parámetros que cambian el aspecto general de la imagen. En la página del software se recomienda ser específico, si se sabe exactamente lo que se desea, ya que los prompts vagos generarán imágenes sorpresivas que quizá se desvíen de la idea inicial. Se recomienda igual, pensar en el sujeto (objeto, lugar, etc.), en el entorno (interior, exterior o un lugar específico), en el medio de salida deseado (fotografía, ilustración, etc.), en la iluminación, el color, la sensación que se quiere crear, y, en la composición o punto de vista que se desea para la imagen. (Midjourney, 2023)
El programa en línea Craiyon, es otro sistema de inteligencia artificial generativa, en donde a partir de texto y palabras clave se crean imágenes con un sesgo artístico. Los usuarios tienen la opción de introducir texto en una casilla, y el modelo de IA, a partir de la base de conocimientos que posee y su capacidad para fusionar conceptos, produce varias imágenes exclusivas. Entre sus ventajas se destaca la flexibilidad del sistema, la capacidad de ser personalizable de manera básica, el poco tiempo de generación de las imágenes (alrededor de un minuto por serie de nueve imágenes) y el no requerir de una alta demanda de recursos computacionales. Craiyon proporciona una amplia variedad de recursos en su biblioteca, entre los que se encuentra una infinidad de imágenes, patrones, texturas y objetos predefinidos. Este desarrollo fue uno de los primeros en hacer su aparición en medios comerciales, como producto de la evolución de sistemas como DALL-E mini (Craiyon, 2023).
Uno de los modelos de inteligencia artificial generativa que ha tomado relevancia en la actualidad es ChatGPT (OpenAI. 2023), desarrollado por OpenAI, el cual utiliza un sistema base denominado GPT (Generative Pre-trained Transformer) (Zhu y Luo, 2022). Su objetivo es generar respuestas contextualmente relevantes basadas en las entradas de texto proporcionadas por los usuarios. Mediante el procesamiento y la comprensión del lenguaje natural, este modelo es capaz de participar en conversaciones y brindar información, respuestas y asistencia en una amplia gama de temas. Gracias a su entrenamiento con una gran cantidad de datos, ChatGPT puede aprender patrones y contextos lingüísticos para entregar contestaciones lógicas y útiles. Tiene un amplio rango de aplicaciones, incluyendo la generación de texto creativo, la traducción automática y la capacidad de responder preguntas. Además, se puede adaptar a tareas específicas mediante un proceso de ajuste fino (fine-tuning), que permite refinar y adaptar el modelo para mejorar su desempeño en trabajos precisos. ChatGPT puede configurarse (entrenarse) para interactuar como diseñador, usuario o producto (Kocaballi, 2023) en diferentes situaciones, y, a través de conversaciones con el usuario, poder contribuir al proceso de diseño, aportando al desarrollo un sentido de implementación, o bien explorando situaciones de usabilidad dentro de contextos definidos. Como desventajas, existen algunos sesgos, además de que su base de datos y otras capacidades son limitadas, en su versión gratuita.
Los sistemas anteriormente mencionados, se han implementado en áreas de diseño que involucran un alto proceso creativo, tales como la arquitectura, el urbanismo, el diseño de interiores, el diseño gráfico, el diseño multimedia, el diseño de producto y el diseño industrial, en conjunto con la manufactura digital y otras disciplinas que requieren de propuestas exploratorias diversas.
A continuación se presentan tres casos de estudio realizados con alumnos del CIDI.
El uso de sistemas de Inteligencia Artificial Generativa (IAG) en diferentes asignaturas del CIDI, fue relevante para visualizar los alcances y posibilidades de esta tecnología durante el proceso de conceptualización de un diseño. Durante el semestre 2023-2 se realizaron dos ejercicios de exploración (casos de estudio) con duración de un día, dentro de la asignatura Modelos (con 68 alumnos, 40 mujeres y 28 hombres de tercer semestre de la licenciatura) y Taller de Diseño ocho (con 14 alumnos, 8 mujeres y 6 hombres de octavo semestre de la licenciatura). Se establecieron métricas específicas, acordes a los alcances de las asignaturas referidas. A partir de los resultados obtenidos, y ya en un tercer caso de estudio, se incorporaron otros sistemas de IAG, para conseguir indicaciones (prompts) automatizadas y personalizadas, de acuerdo al perfil de producto deseado, a los parámetros específicos, a la diversidad de propuestas deseadas y a la calidad esperada en las imágenes y estilos. Con esto se podrían sentar las bases para la consecución de un formato personalizado y orientado en cada estudiante, al momento de imaginar un objeto.
La asignatura de Modelos, dentro del Plan de Estudios del CIDI, está dirigida al desarrollo de habilidades técnicas y tecnológicas para la manufactura de maquetas, simuladores y prototipos. A partir de un proyecto que involucra criterios estéticos y formales para la elaboración de modelos físicos tridimensionales, los estudiantes determinan las estrategias y desarrollan sus capacidades de ejecución, para alcanzar resultados satisfactorios. Con el fin de lograr una propuesta estética básica combinando dos estilos particulares (robot de animación japonesa y cultura prehispánica), los estudiantes se apoyaron en una IAG; el programa Craiyon. Con este, lograron desarrollar diversos conceptos, que luego fueron utilizados para fabricar una versión aproximada en formato físico. En la figura 1 se especifica el diagrama general de trabajo, y en la figura 2 se muestran las propuestas obtenidas, donde se destaca la fusión de los conceptos, que sirvieron de base para la fabricación de los modelos de trabajo a escala.
Figura 1. Proceso de diseño y momento de implementación de la IA. Caso de estudio A. Figura de los autores.
La descripción de las imágenes solicitadas a Craiyon fue únicamente de 4 a 6 palabras clave en inglés; de estas, se destacan las siguientes: diseño industrial, robot (robot mecha / vehículo de gran tamaño controlado por uno o más pilotos), cultura prehispánica (Mayan, Aztec, Olmec, etcétera), y algún rasgo extra definido por cada alumno. La comunidad estudiantil modificó los conceptos para adecuarlos al formato físico y a los materiales disponibles para su ejecución.
Figura 2. Imágenes generadas en el sistema Craiyon (arriba izquierda) y modelos de trabajo físicos basados en conceptos generados por la IA (abajo y derecha). Figura de los autores.
En la asignatura Taller de diseño de 8º semestre, se explora en particular el aspecto de la estética de los objetos y su expresión a través de formas en tres dimensiones, usando principios configurativos como: geometría principal, simetría, ritmo, proporción, composición, colores, materiales y acabados. La temática del proyecto consistió en explorar soluciones para el objetivo 6 (Agua limpia y saneamiento), de acuerdo a los objetivos y metas de desarrollo sostenible de la agenda 2030 de la ONU (Programa de las Naciones Unidas para el Desarrollo, 2023), el cual se encuentra en la lista de los siete objetivos particularmente relevantes para el diseño industrial (World Design Organization, 2023). El enfoque del proyecto fue para un futuro cercano y dentro de un contexto local: la Ciudad de México. El proyecto se dividió en una etapa de investigación de problema, en donde se incluyó trabajo de campo con entrevistas a usuarios y observación en viviendas, a partir de lo cual se detectaron problemáticas relevantes como la contaminación de agua por disposición incorrecta de aceite de cocina en el drenaje, o prácticas de los habitantes, como reciclaje de aguas grises de la lavadora para un segundo uso. Posteriormente, se llevó a cabo una etapa creativa de conceptualización y una etapa final de desarrollo de diseño. La IA se aplicó durante la etapa creativa, cuando ya se habían generado tableros de imágenes de inspiración, bocetos y diagramas por parte de los alumnos. En la figura 3 se especifica el diagrama general de trabajo y proceso de diseño.
Figura 3. Proceso de diseño y momento en donde se usó la IA. Caso de estudio B. Figura de los autores.
Los alumnos debían definir los prompts con los cuales alimentar a la IA, en este caso, generadores de imágenes gratuitos como Bing, Craiyon, Midjourney y DALL-E. El objetivo principal era explorar, para este ejercicio, la expresión estética de un nuevo objeto que no existiese actualmente. Se escribieron frases como “unidad de reciclaje de aguas grises para lavadora” o “estación pública para retorno de aceite usado”, entre otras. Los primeros resultados no fueron de utilidad porque las ideas se redactaron de forma abstracta o con pocas palabras. Por ejemplo, en una exploración solo se utilizaron los descriptores para la finalidad o utilidad del producto y para su ubicación dentro de un contexto, pero no se describió el estilo estético ni los elementos específicos que debía contener (Figura 4).
Figura 4. imágenes generadas por IA con prompts de los alumnos (2 izquierda) vs. imagen generada por los alumnos sin uso de la IA, a través de modelado 3d y renderización (derecha). (Gervacio y Hernández, 2023).
Para lograr mejores resultados, se solicitó a los alumnos elaborar una tabla (ver tabla 2) donde trataran de ordenar las palabras descriptivas con más detalle, partiendo de lo general a lo particular. Así, se les pidió que buscaran describir el objeto por niveles, primero especificando su función, su contexto, después la forma o geometría principal, los elementos que contiene, con la distribución o acomodo de los mismos, el lenguaje formal, y finalmente, el estilo de la imagen (Figuras 5 a 7).
Con esta descripción detallada los resultados tuvieron mayor relevancia para los alumnos. Uno de los hallazgos fue que al dar el prompt “product design”, la IA genera formas propias del diseño industrial, que los alumnos no especificaron. Si comparamos los resultados del ejercicio de la estación de retorno de aceite (Fig. 4) con la unidad de reciclaje de agua (Fig. 5), vemos que en la primera la IA sugiere una “auto construcción” con elementos de bajo costo, mientras que al especificar la palabra product design, se generan formas propias de moldes de inyección en plástico y otros procesos de producción más avanzados. También es interesante notar, que en el primer caso de la estación de retorno, la IA “sugiere” integrar elementos como un techo, lo cual los alumnos no habían contemplado, y que en este caso, el docente también les había sugerido.
Posteriormente al ejercicio, se realizó una descripción más detallada en la versión de paga de Midjourney (Fig. 6), en la cual la IA arrojó opciones “diseñadas” que incluían procesos tales como termoformado o doblado en lámina y tubular. En este caso no se especificó el país ni el tipo de usuarios y la IA sugirió un contexto de un nivel socioeconómico alto y un usuario predominantemente blanco, lo cual puede indicar cierto sesgo del sistema. Al añadir después el prompt “located in Mexico City”, se notó de inmediato el cambio en la apariencia de los usuarios y el entorno.
Que es, para qué sirve. |
contexto. |
forma principal, geometría. |
elementos que tiene y su distribución. |
lenguaje formal. |
estilo de la imagen.. |
unidad de reciclaje de aguas grises para lavadora |
para cuarto de lavado |
forma rectangular |
con tres contenedores circulares alineados con manija con indicadores de calidad de agua |
con esquinas boleadas |
diseño de producto realista |
Tabla 2. elementos que describen la propuesta
Figura 5. Imágenes generadas por IA con prompts de los alumnos. Vemos que la IA sugiere varias formas de solucionar el objeto. Imagen generada por IA con prompts de los alumnos (izquierda) vs. imagen generada por los alumnos sin uso de la IA, a través de modelado 3d y renderización (derecha) (Arceo y Hernández, 2023)
Figura 6. Imágenes generadas por IA con prompts con el software de pago Midjourney. Figura de los autores.
El caso de estudio final, surge a partir de las consideraciones de los casos anteriores, destacando la interacción mínima con el sistema y la generación de prompts con mayor precisión, de acuerdo a los alcances del proyecto. Entendiendo la capacidad del software Midjourney, es posible desarrollar imágenes de mayor precisión que puedan satisfacer el criterio del diseñador. En este sentido, y aprovechando las propiedades del sistema generativo ChatGPT, se propuso implementar el entrenamiento de un modelo generador de prompts personalizados, con parámetros conceptuales determinados por las preferencias, estilos, formatos, escalas, proporciones, ambientes y cualidades fotográficas de cada diseñador. Este sistema se desarrolló para solicitar, de forma indistinta, cualquier producto de diseño. En la figura 9 se presenta el proceso de implementación para este caso de estudio.
Figura 7. Proceso de desarrollo y momento de implementación de la IA en caso de estudio C. Figura de los autores.
3.4. Entrenamiento de modelo de lenguaje y generación de prompts.
El entrenamiento de un modelo de lenguaje para la generación de prompts en el sistema ChatGPT, se desarrolla a partir de la creación de una descripción general que contenga los alcances y perfiles deseados. Esto empieza, con la solicitud textual dentro de la casilla de mensajes, cuando la sesión tenga conectividad en línea activa. Al ingresar el texto y presionar la tecla de -enter- en el ordenador, el sistema iniciará el entrenamiento. Luego de esto, el sistema ya estará listo y cualquier solicitud realizada a través de la casilla de mensajes tendrá un tratamiento similar al inicial. Por esta razón, es importante que una vez entrenado el sistema se evite hacer una solicitud con un tema diferente. Así, a partir de una descripción mínima proporcionada por el diseñador, el sistema podrá, explorando la inmensa información en su base de datos, desarrollar ampliamente la petición. Un ejemplo de esto es: al ingresar en la casilla de la interfaz el nombre de un objeto en particular, el sistema nos dará una descripción amplia, redactada a modo de prompts para su uso en el sistema generativo Midjourney. Los parámetros de entrenamiento a desarrollar consideran las siguientes especificaciones que configurarán el argumento final para su colocación:
Especificaciones operativas de lenguaje
Solicitar al sistema: responde siempre en inglés, aunque el texto que coloque sea en español (o en otro idioma en el que se genera), da descripciones cortas con diferentes conceptos separados por comas, termina cada frase con tres puntos seguidos…
Especificaciones de concepto (identidad personal e intenciones del diseñador)
Solicitar al sistema: explora los estilos, ambientes, colores, iluminaciones y relaciones de aspecto, para crear una gama de imágenes visualmente atractivas, la frase “- estilo de diseño deseado1- ”estará adjetivando al objeto propuesto.
Especificaciones descriptivas
Solicitar al sistema: describe cada aspecto de la imagen, incluyendo al sujeto, estilo, color, profundidad de campo, texturas, escala, proporciones, perspectiva, expresiones, usuarios, dirección de luz, elementos contrastantes, interior, exterior, y contexto.
Especificaciones técnicas de la fotografía
Solicitar al sistema: proporciona detalles mínimos para capturar la esencia de la foto incorporando siempre el término “photo of” al comenzar, especifica siempre la longitud focal, incorpora siempre la apertura en f/2.8 desenfocando el primer plano y el fondo de la fotografía a fin de obtener un agradable efecto bokeh, agrega sin modificar las indicaciones lentes como Sony G Master, Canon L Series, Zeiss Otus series, para imágenes de calidad.
Finalmente, los parámetros de imagen deberán añadirse manualmente ya que, el sistema de entrenamiento de ChatGPT puede generar información innecesaria y causar un error dentro del sistema de Midjourney. Tales parámetros pueden modificarse y ajustarse según el criterio del diseñador, la base de parámetros es: Parameters: --ar 4:3 --c 3 --q .5 --s 500. Su significado es el siguiente:
–ar : aspect ratio
El parámetro --aspect ratio o --ar, cambia la relación de aspecto de la imagen generada. La relación de aspecto es la proporción entre el ancho y la altura de una imagen. Normalmente, se expresa como dos números separados por dos puntos, como 1:1, 2:3, 3:2, 4:3, 10:9, 16:9 (Figura 10)
Figura 8. Relación de aspecto de las imágenes o tamaños de acuerdo a proporciones verticales y horizontales. Figura de los autores.
–c : Chaos
El parámetro --chaos o --c influye en la diversidad de las cuadrículas de imagen inicial. Valores altos de --chaos producirán resultados y composiciones más inusuales e inesperadas. Los valores bajos ofrecen resultados más confiables y repetibles. El rango es de 0 a 100.
–q : Quality
El parámetro --quality o --q cambia la cantidad de tiempo que se dedica a generar una imagen. Configuraciones de mayor calidad requieren más tiempo de procesamiento y producen más detalles. Valores más altos también implican un mayor consumo de minutos de GPU por trabajo. La configuración de calidad no afecta la resolución. En este caso solo es posible ingresar los valores .25, .5 y 1
–s : Stylize
El parámetro --stylize o --s afecta la intensidad con la que se aplica tal entrenamiento. Valores bajos de estilización producen imágenes que se asemejan mucho a la indicación, pero son menos artísticas. Valores altos crean imágenes muy artísticas pero menos relacionadas con la indicación. Midjourney proporciona con cada petición cuatro imágenes cuadradas. Los rangos son 0 a 1000, siendo 100 el valor por defecto.
En la tabla 3 se ejemplifica el argumento para entrenamiento del modelo de lenguaje dentro de la casilla de mensajes del sistema ChatGPT. Una vez entrenado, el siguiente mensaje a ingresar será únicamente el del producto a desarrollar (uno a la vez). El resultado se pega en Midjourney seguido del comando “/imagine [prompt]”, sin olvidar colocar los parámetros “--ar 4:3 --c 3 --q .5 --s 500” al final del mensaje (considerando que tal parámetro puede ser modificado según el criterio y necesidades del diseñador).
En la tabla 4, se presentan las instrucciones (prompts) resultantes en ChatGPT incluyendo los parámetros de imagen. En este caso se entrenaron un par de sistemas independientes (en líneas de mensajes separadas dentro de ChatGPT). El primero de ellos se especificó un estilo geométrico minimalista y en el otro un estilo geométrico futurista, se especificó el objeto, - escritorio de trabajo - (Figura 9). El sistema se utilizó también para el producto - aspiradora - (Figura 10).
Entrenamiento en ChatGPT y desarrollo de prompts para Midourney |
Responde siempre en inglés, aunque el texto que coloque sea en español, da descripciones cortas con diferentes conceptos separados por comas. Termina cada frase con tres puntos seguidos…, explora los estilos, ambientes, colores, iluminaciones y relaciones de aspecto para crear una gama de imágenes visualmente atractivas. La frase “diseño geométrico minimalista” estará adjetivando al objeto propuesto. Describe cada aspecto de la imagen, incluyendo al sujeto, estilo, color, profundidad de campo, texturas, escala, proporciones, perspectiva, profundidad de campo, expresiones, usuarios, dirección de luz, elementos contrastantes, interior, exterior y contexto. Proporciona detalles mínimos para capturar la esencia de la foto Incorpora siempre el término “photo of” al comenzar. Especifica siempre la longitud focal. Incorpora siempre la apertura en f/2.8 para poder desenfocar el primer plano y el fondo de la fotografía y obtener un agradable efecto bokeh. Agrega sin modificar las indicaciones: lentes como Sony G Master, Canon L Series, Zeiss Otus series para imágenes de calidad. |
Tabla 3. Argumento de entrenamiento para ChatGPT enfocado a la generación de prompts en el sistema generativo Midjourney.
Argumento generado en ChatGPT con el objeto: Escritorio de trabajo. |
|
Estilo: geométrico minimalista |
Estilo: geométrico futurista |
Photo of a minimalistic geometric design: The subject of the photo is a sleek, black work desk with clean lines and a minimalist aesthetic. The style is contemporary and functional, with a focus on efficiency and organization. The color palette consists of monochromatic tones, primarily blacks and grays, creating a sleek and professional look. The lighting is bright and even, providing ample illumination for a productive work environment. The aspect ratio is landscape, capturing the spaciousness and functionality of the desk. The photo is taken with a Canon L Series lens, ensuring high-quality images. The focal length is 35mm, providing a wider perspective to showcase the entire desk setup. The aperture is set at f/2.8, allowing for a shallow depth of field to softly blur the foreground and background, creating a pleasing bokeh effect. The textures in the photo range from smooth surfaces to matte finishes, adding visual interest and tactile appeal. The scale and proportions of the desk are carefully designed to optimize workspace and ergonomic comfort. The photo is taken in an interior setting, with a clean and uncluttered background to emphasize the functionality of the desk. The photo captures the essence of a productive work desk, highlighting its sleek design, practicality, and suitability for a professional environment. (añadido manualmente: Parameters: --ar 4:3 --c 3 --q .5 --s 500.) |
Photo of a futuristic geometric design workspace: The subject is a sleek, futuristic desk with clean lines and angular edges. The style is a fusion of modern minimalism and high-tech aesthetics, featuring a clutter-free and organized setup. The color palette is predominantly monochromatic, with shades of white, black, and metallic accents. The lighting is even and bright, creating a well-lit and efficient workspace. The depth of field is shallow, with the desk in sharp focus and the background slightly blurred, adding a subtle bokeh effect. The textures on the desk are smooth and sleek, enhancing the futuristic appeal. The scale and proportions of the desk are designed for functionality, providing ample space for work materials and equipment. The perspective is slightly elevated, capturing the entire workspace from a bird's-eye view. The expressions of the users working at the desk are focused and determined. The light source is natural daylight, streaming in from a large window, creating a fresh and inviting atmosphere. There are contrasting elements in the background, such as plants and decorative items, to add a touch of warmth and personalization to the futuristic workspace. The photo is taken in an interior setting, with a clean and contemporary backdrop, emphasizing the modern and cutting-edge design. The context of the image suggests a high-tech office or creative workspace. Shot with high-quality lenses like Sony G Master, Canon L Series, or Zeiss Otus series, ensuring exceptional image quality and sharpness. (añadido manualmente: Parameters: --ar 4:3 --c 3 --q .5 --s 500.) |
Tabla 4. Argumento de instrucciones (prompts) resultantes en el entrenamiento en ChatGPT.
Figura 9. Resultado de imágenes generadas en Midjourney con los prompts generados en ChatGPT. Escritorio de Trabajo, estilos: geométrico minimalista (ocho imágenes superiores) y geométrico futurista (ocho imágenes inferiores). Figura de los autores.
Figura 10. Resultado de imágenes generadas en Midjourney con los prompts generados en ChatGPT. Aspiradora, estilos: geométrico minimalista (ocho imágenes superiores) y geométrico futurista (ocho imágenes inferiores). Figura de los autores.
El entrenamiento para ChatGPT a fin de generar imágenes en Midjourney ha sido explorado previamente, a través de videos, tutoriales o ejemplos en línea; sin embargo, en este caso se propone un método específicamente aplicado a estudiantes de diseño industrial.
Después de analizar los alcances de los ejercicios implementados en los casos expuestos, es posible destacar algunos datos significativos que aportan claridad sobre la utilidad de los sistemas generativos en el desarrollo de conceptos de diseño. Los resultados del primer ejercicio dejan ver que la IA puede potencializar la creatividad y el resultado final de los alumnos, logrando con facilidad una mezcla de conceptos (cultura antigua prehispánica, estilo tradicional de animación japonesa y conceptos tecnológicos basados en la robótica), acortando el tiempo de ejecución de la propuesta y diversificando resultados. Aquí, la funcionalidad del objeto era decorativa o lúdica, las condicionantes eran que la figura tuviera articulaciones móviles y pudiera fabricarse en impresión 3D. Una dificultad que encontraron los alumnos al generar varias opciones visuales, fue en el momento de tomar decisiones para establecer un equilibrio en los estilos involucrados: que fuera posible destacar los conceptos sin tener una preponderancia particular de alguno de ellos, y provocar, por esto, ambigüedad en los resultados.
En el segundo ejercicio, se trataron objetos que incluyeran en su interior un sistema funcional (motores, baterías, bombas, contenedores, y componentes electrónicos, entre otros) lo cual era difícil de explorar ampliamente a través de la IA, y generó, en algunos casos, resultados imprecisos o inverosímiles que no tenían una utilidad potencial de acuerdo a los objetivos funcionales; sin embargo, desde un punto de vista estético fue posible contribuir en el trabajo creativo de los participantes en cuanto a variaciones y lenguaje formal del objeto. El aspecto más interesante fue que se condujo a los alumnos a describir en palabras, de manera muy precisa su propuesta, para lo cual tuvieron que realizar un diálogo entre ellos, apuntar las palabras clave, ordenarlas y luego ingresarlas en la IA para poder comparar los resultados, los cuales cambiaban de acuerdo al detalle de la descripción, al orden de las palabras y las variaciones en los descriptores. Cabe mencionar que los resultados mejoran en cuanto se usa una versión de paga y que es necesaria una descripción de lugar, contexto y usuario específica, para evitar un posible sesgo.
Finalmente, en el tercer ejercicio vemos cómo al entrenar a un modelo de lenguaje en ChatGPT, con instrucciones precisas para ingresar al sistema Midjourney, se observan variaciones en los conceptos que pueden ser útiles a los diseñadores. Los resultados son de alta calidad gráfica y el tiempo de generación es corto, alrededor de un minuto. Además, las imágenes se pueden ir refinando, hasta lograr resultados optimizados con estilos estéticos estables, alineados al perfil original. La cualidad principal de este desarrollo, es que el diseñador podría crear su propio catálogo expresivo, al entrenar un modelo de lenguaje de manera personalizada, logrando una variedad de estilos diferentes, de autoría propia, considerando usuarios, materiales, temporalidad, contexto y otros formatos; dependiendo del proyecto y aplicables a diversos productos de diseño.
Hemos visto que la IA está permeando en el campo del diseño industrial. Dentro del CIDI, tanto docentes como alumnos están realizando las pruebas antes mencionadas en las asignaturas, con resultados que dejan entrever el potencial para la disciplina. Sin embargo, el mayor problema se presenta durante la generación de indicaciones correctas a la IA, sobre todo si tampoco se tiene claro qué es lo que se está buscando. Por ejemplo, en el Taller de Diseño 8, uno de los objetivos ha sido que los alumnos puedan describir con palabras las cualidades estéticas de un objeto. Curiosamente, para poder usar la IA, se debe dominar este lenguaje. Finalmente, se precisa de una curva de aprendizaje para el conocimiento técnico del software, a fin de lograr resultados sobresalientes. Una vez dominado este conocimiento, y con el entrenamiento de la IA, es posible generar imágenes que reflejen con más precisión lo deseado. Así, sería posible acelerar el proceso de diseño y explorar alternativas y variaciones cada vez más sutiles. Esta herramienta puede ser muy útil dentro de la fase creativa del diseño, impulsando a los alumnos a que prueben distintos caminos, observen lo diferentes que pueden ser los resultados, y así puedan tomar mejores decisiones estratégicas.
Es posible que todos estos obstáculos sean comparables al aprendizaje de un software como el modelado CAD, en donde se precisa poder imaginar un objeto mental en 3D y contar con el conocimiento técnico necesario para lograr un resultado satisfactorio.
El uso de este tipo de IA, al requerir una descripción verbal del objeto con instrucciones, y donde el sistema genera un resultado a partir de ello; se podría comparar al proceso de comunicación entre alumno y docente o entre alumnos, en un equipo de trabajo. A nivel profesional se podría equiparar a la comunicación entre un director creativo y los líderes de proyecto, así como entre estos con sus equipos de trabajo o, entre diseñador y cliente. En estos casos, existe un concepto que se debe comunicar a través de palabras, bocetos rápidos o descripciones muy generales y donde el resultado a veces no coincide con lo que una de las partes había imaginado, o al contrario, en donde la parte que propone un resultado visual sorprende de forma positiva, a la parte que da las instrucciones.
A fin de que este tipo de IA fuera realmente útil para el diseño Industrial, se podría generar un glosario de términos estéticos o incluso generar una IA específicamente enfocada a esta área. En el futuro cercano, el trabajo del diseñador consistirá en comunicar sus ideas a través del lenguaje y bocetos rápidos como un director creativo, en donde la IA funge como un asistente. Además, la generación de ideas, estilos, perfiles y conceptos puede basarse en una encuesta a potenciales usuarios que oriente a los diseñadores durante el entrenamiento de un modelo de lenguaje, con la capacidad de ser actualizado casi de manera inmediata. En el ámbito de la docencia, la IA puede impulsar a los alumnos a explorar diferentes caminos y variaciones en un lapso de tiempo reducido. Así, es posible resaltar algunas consideraciones:
La IA puede potencializar el proceso creativo y la diversidad de resultados de los alumnos de diseño; sin embargo, el docente debe reflexionar en conjunto acerca de los posibles sesgos, la transparencia sobre el funcionamiento de la tecnología y aspectos éticos como la autoría. Para que la IA sea útil en el proceso, es necesario que los alumnos conozcan a fondo los parámetros que definen el tipo de resultados y la calidad obtenida, esta curva de aprendizaje es necesaria, como lo es para cualquier otra herramienta. En el caso de la utilización de la IA para generación de imágenes, es fundamental la capacidad descriptiva del diseñador. Para ello, el alumno debe aprender a traducir la forma imaginada en tres dimensiones, a una serie de palabras detalladas, yendo de lo general a lo particular.
La IA podría tener, además de su función como herramienta, un papel como asistente, interlocutor o compañero de equipo; al delegar ciertas funciones mediante indicaciones y obtener resultados en un proceso de comunicación que asemeja al de equipos de trabajo de diseño. La IA puede arrojar respuestas a preguntas, generar propuestas visuales con descripciones, y puede ser alimentada con diversa información de diseño como datos, imágenes, bocetos o descripciones. Como tal, puede ser un elemento útil para los docentes dentro de una asignatura de diseño, e incluso podría apoyarlos al estar trabajando con múltiples grupos de alumnos.
Los sistemas explorados presentan diversas limitaciones que pueden incidir en los resultados esperados, por ejemplo, las diferencias entre las versiones gratuitas o de pago, las cuales podrían favorecer o bajar la resolución de las imágenes, el tiempo de espera de los resultados, la limitación de las horas de trabajo y la profundidad del análisis en la base de datos. Algunos aspectos negativos que se derivan del uso de la IA pueden tener en menor o mayor medida sesgos de género, raza, cultura, estatus económico, edad, representación, contexto y selección en la base de datos, entre otros. Un aspecto importante a considerar, es la posible influencia de la IA sobre la creatividad. Sin embargo esta tiene una base de desarrollo limitada en comparación con el cúmulo de experiencias personales, el diseñador debe entender que las soluciones finales son producto de un trabajo dirigido, ejecutado de manera metodológica, junto con la comprensión de los efectos de la interacción sociocultural.
En el presente artículo se exploran diversas tecnologías emergentes, basadas en la inteligencia artificial generativa, orientadas al espacio educativo del diseño industrial, específicamente durante la etapa creativa inicial y el desarrollo de conceptos. Los hallazgos demuestran que estos sistemas ofrecen una amplia gama de posibilidades y representan una herramienta de trabajo indispensable para las y los futuros diseñadores. Dentro de las aulas, los docentes promueven la identidad y personalización del trabajo de diseño en los alumnos, donde los sistemas mencionados, son herramientas que pueden aportar en este sentido, facilitando un mayor grado de exploración creativa en un lapso de tiempo menor. Se debe entender que actualmente, la IA aún no puede suplir el trabajo de investigación y requerimientos necesarios para resolver problemas reales o complejos. Por tal motivo, es importante apoyarse en la ampliación de los conocimientos técnicos especializados para manipular estas tecnologías emergentes, además de hacer evidente el valor del trabajo humano, tal que promueva la reducción de sesgo, adecuación de los conceptos a las diversas culturas y costumbres, la equidad social y principalmente como potencializador de la creatividad, tomando en cuenta las dimensiones de la inteligencia: percepción, transformación y resultados.
Declaración de conflicto de intereses
La autora y los autores no declaran potenciales conflictos de interés, con respecto a la autoría y/o publicación de este artículo.
Aso, N., Yanami, H., y Ogawa, M. (2022). Automatic Parametric Modeling Technique for Structural Design Standardization. IEEE Access, 10, 81031–81041. doi:10.1109/ACCESS.2022.3196001
Craiyon. (2023 Junio 20). Craiyon, AI Image Generator de https://www.craiyon.com/
Figoli, F. A., Mattioli, F., y Rampino, L. (2022). Artificial intelligence in the design process: The Impact on Creativity and Team Collaboration. FrancoAngeli.
Flick, C., y Worrall, K. (2022). The Ethics of Creative AI. C. Vear & F. Poltronieri (Eds.), The Language of Creative AI: Practices, Aesthetics and Structures, 73–91. doi:10.1007/978-3-031-10960-7_5
Guilford, J. P. (1950). Creativity. American Psychologist 5, 444–454.
Guzdial, M., y Riedl, M. (2019). An Interaction Framework for Studying Co-Creative AI. arXiv [Cs.HC]. Recuperado de http://arxiv.org/abs/1903.09709
Kocaballi, A. B. (2023). Conversational AI-Powered Design: ChatGPT as Designer, User, and Product. arXiv [Cs.HC]. Recuperado de http://arxiv.org/abs/2302.07406
Liu, V., y Chilton, L. B. (2022). Design Guidelines for Prompt Engineering Text-to-Image Generative Models. Proceedings of the 2022 CHI Conference on Human Factors in Computing Systems. New Orleans, LA, Estados Unidos. doi:10.1145/3491102.3501825
Midjourney. (2023 Junio 20). Midjourney de https://www.midjourney.com/
Nadimpalli, M. (2017). Artificial intelligence risks and benefits. International Journal of Innovative Research in Science, Engineering and Technology, 6(6).
Norvig, P., y Russell, S. (2021) - Cambiar por: Russell, S.J y Norvig, P. (2021) Inteligencia Artificial. Un Enfoque Moderno Edición Global (4ta Edición), México. Pearson. https://www.ingebook.com/ib/NPcd/IB_BooksVis?cod_primaria=1000187&codigo_libro=11047
Nozaki, N., Konno, E., Sato, M., Sakairi, M., Shibuya, T., Kanazawa, Y., y Georgescu, S. (2017). Application of artificial intelligence technology in product design. Fujitsu Sci. Tech. J, 53(4), 43–51.
Oosthuizen, K., Botha, E., Robertson, J., y Montecchi, M. (2021). Artificial intelligence in retail: The AI-enabled value chain. Australasian Marketing Journal, 29(3), 264–273. doi:10.1016/j.ausmj.2020.07.007
OpenAI. (2023 Junio 20) ChatGPT de https://chat.openai.com/
Oppenlaender, J. (2022). The Creativity of Text-to-Image Generation. Proceedings of the 25th International Academic Mindtrek Conference, 192–202. Finland. doi:10.1145/3569219.3569352
Programa de las Naciones Unidas para el Desarrollo PNUD. (2023). Programa de las Naciones Unidas para el Desarrollo PNUD, Objetivos de desarrollo sostenible de https://www.undp.org/es/sustainable-development-goals
Rezwana, J., y Maher, M. L. (2023). Designing Creative AI Partners with COFI: A Framework for Modeling Interaction in Human-AI Co-Creative Systems. ACM Trans. Comput. -Hum. Interact., 30(5). doi:10.1145/3519026
Ribot, Th. (1901). Ensayo acerca de la imaginación creadora. 24 - 26 Recuperado de: http://cdigital.dgb.uanl.mx/la/1020024845/1020024845.html
Vallor, S. (2016). Technology and the virtues: A philosophical guide to a future worth wanting. Oxford University Press.
Vartiainen, H., y Tedre, M. (2023). Using artificial intelligence in craft education: crafting with text-to-image generative models. Digital Creativity, 34(1), 1–21. doi:10.1080/14626268.2023.2174557
Tsang, Y. P., y Lee, C. K. M. (2022). Artificial intelligence in industrial design: A semi-automated literature survey. Engineering Applications of Artificial Intelligence, 112, 104884. doi:10.1016/j.engappai.2022.104884
World Design Organization (2023 Junio 20) Achieving the sustainable development goals by design, de https://sdgs.un.org/goals
Wei Xu, L. G., Marvin J. Dainoff, y Gao, Z. (2023). Transitioning to Human Interaction with AI Systems: New Challenges and Opportunities for HCI Professionals to Enable Human-Centered AI. International Journal of Human–Computer Interaction, 39(3), 494–518. doi:10.1080/10447318.2022.2041900
Zhang, J., y Yu, H. (2023). EID: Facilitating Explainable AI Design Discussions in Team-Based Settings. International Journal of Crowd Science, 7(2), 47–54. doi:10.26599/IJCS.2022.9100034
Zhu, Q., y Luo, J. (2022). Generative Pre-Trained Transformer for Design Concept Generation: An Exploration. Proceedings of the Design Society, 2, 1825–1834. doi:10.1017/pds.2022.185
Notas
1. Como ejemplo de estilo de diseño puede ser: Diseño geométrico minimalista, Diseño geométrico futurista, Diseño retro, Diseño escandinavo, Diseño orgánico, etcétera.