¿Recuerdas cuando Prisma era la aplicación de edición de imágenes con”IA”definitiva? Sí, ciertamente hemos recorrido un largo camino desde entonces. Con el auge de los generadores de imágenes de IA basados ​​en avisos, como DALL-E y Midjourney, la creación de arte y falsificaciones profundas está prácticamente al alcance de todos.

Pero hay limitaciones, ¿no? Después de la novedad inicial de pedirle a Midjourney que imagine indicaciones variadas y vea lo que arroja, todo se vuelve bastante aburrido. O al menos lo hizo para mí.

¿Energía narcisista?

Mira, soy introvertido, lo que significa que no me gusta mucho salir. ¿Pero sabes lo que me gusta? Tener fotos mías en lugares a los que probablemente nunca iría; Diablos, lugares a los que no puedo ir también.

Naturalmente, quería pedirle a las herramientas de IA que crearan imágenes mías en diferentes situaciones y lugares. Sin embargo, tampoco quería subir imágenes mías en sitios web aleatorios con la esperanza de que los resultados fueran buenos; y ahí fue cuando leí sobre Dreambooth.

Que empiecen los juegos…

Resulta que gente muy inteligente ha traído cosas como Stable Diffusion a las masas. Además, otros han colaborado con ellos y han hecho posible que, literalmente, cualquier persona con un poco de paciencia cree sus propios modelos Stable Diffusion y los ejecute, completamente en línea.

Entonces, aunque tengo una MacBook Air M1 que, por ningún medio está destinado a ser utilizado como una máquina de entrenamiento para un modelo de generación de imágenes de aprendizaje profundo, puedo ejecutar un cuaderno de Google Colab y hacer todo eso en los servidores de Google, ¡gratis!

Todo lo que realmente necesitaba, entonces, eran un par de fotos mías, y eso es todo.

Entrenar mi generador de imágenes de IA

Entrenar su propio generador de imágenes no es nada difícil. Hay una serie de guías disponibles en línea si necesita ayuda, y básicamente todo es muy sencillo. Solo necesita abrir el cuaderno Colab, cargar sus imágenes y comenzar a entrenar el modelo. Todo lo cual sucede bastante rápido.

Está bien, seamos justos, el entrenamiento del codificador de texto ocurre bastante rápido, en 5 minutos. Sin embargo, entrenar la UNet con los parámetros predeterminados lleva bastante tiempo, cerca de 15 a 20 minutos. Sin embargo, considerando el hecho de que en realidad estamos entrenando un modelo de IA para que reconozca y pueda dibujar mi rostro, 20 minutos no parece demasiado tiempo.

Durante el entrenamiento, hay muchas maneras de personalizar cuánto desea entrenar su modelo, y lo que entendí al leer las experiencias de muchas personas en línea es que hay aquí no hay una estrategia real de”talla única”. Sin embargo, para los casos de uso básicos, los valores predeterminados parecían funcionar bien para la mayoría de las personas, y también me quedé con ellos. En parte porque no podía entender realmente lo que significaban la mayoría de las cosas, y en parte porque simplemente no podía molestarme en intentar entrenar varios modelos con diferentes parámetros de entrenamiento para ver qué resultaba en los mejores resultados.

Después de todo, simplemente estaba buscando un generador de imágenes de IA divertido que pudiera hacer algunas imágenes medio decentes de mí.

Supera las expectativas

No soy un experto en inteligencia artificial ni mucho menos. Sin embargo, entiendo que entrenar un modelo de difusión estable en una computadora portátil Google Colab con 8 jpegs de mí mismo recortados a 512 × 512 píxeles realmente no dará como resultado algo extraordinario.

Qué equivocado estaba.

En mi primer intento de usar el modelo que entrené, comencé con un mensaje simple que decía”akshay”. La siguiente es la imagen que se generó.

No es genial, ¿verdad? Pero tampoco es tan malo, ¿verdad?

Pero luego comencé a jugar con algunos de los parámetros disponibles en la interfaz de usuario. Existen múltiples métodos de muestreo, hay pasos de muestreo, escala CFG, scripts y mucho más. Es hora de volverse un poco loco experimentando con diferentes indicaciones y configuraciones para el modelo.

Claramente, los resultados de estas imágenes no son perfectos, y cualquiera que me haya visto probablemente pueda decir que estas no son”mis”imágenes. Sin embargo, están lo suficientemente cerca; y ni siquiera entrené al modelo con especial cuidado.

Si tuviera que seguir las innumerables guías en Reddit y en otros lugares de Internet que hablan sobre las formas en que puede mejorar el entrenamiento y obtener mejores resultados con Dreambooth y Stable Diffusion, estas imágenes podrían haber resultado aún más realistas. (y posiblemente, más aterrador).

Este generador de imágenes de IA es terriblemente bueno

Mira, estoy a favor de las mejoras en la tecnología de IA. Como periodista de tecnología, he seguido el campo en constante cambio y mejora de la IA orientada al consumidor durante los últimos dos años y, en su mayor parte, estoy profundamente impresionado y optimista.

Sin embargo, ver algo como Dreambooth en acción me hace preguntarme acerca de las formas poco éticas en las que las herramientas basadas en IA y ML están disponibles para prácticamente cualquier persona con acceso a una computadora e Internet.

No hay duda de que hay muchos malos actores en el mundo. Si bien definitivamente existen casos de uso inocentes de una tecnología tan fácilmente accesible, si hay algo que he aprendido en mis años de informar sobre tecnología, es que poner un producto en manos de millones de personas sin duda generará muchos resultados no deseados.. En el mejor de los casos, algo inesperado y, en el peor, algo absolutamente repugnante.

Tener la capacidad de crear imágenes falsas de casi cualquier persona, siempre que pueda obtener de 5 a 10 imágenes de su rostro, es increíblemente peligroso si se usa incorrectamente. Piense en la desinformación, la tergiversación e incluso la pornografía vengativa: los deepfakes se pueden usar en todas estas formas problemáticas.

¿Salvaguardias? ¿Qué salvaguardas?

Tampoco es solo Dreambooth. En sí mismos, y bien usados, Dreambooth y Stable Diffusion son herramientas increíbles que nos permiten experimentar lo que la IA puede hacer. Pero no hay garantías reales para esta tecnología por lo que he experimentado hasta ahora. Claro, no te permitirá generar desnudos absolutos en las imágenes; al menos por defecto. Sin embargo, hay muchas extensiones que también te permitirán pasar por alto ese filtro y crear prácticamente cualquier cosa que puedas imaginar, en función de la identidad de cualquier persona.

Incluso sin tales extensiones, puede obtener fácilmente herramientas como esta para crear una amplia gama de imágenes de personas potencialmente perturbadoras y de mala reputación.

Además, con una PC decentemente potente, uno puede entrenar sus propios modelos de IA sin ningún tipo de protección y en función de los datos de entrenamiento que quiera usar, lo que significa que el modelo entrenado creará imágenes que pueden ser condenatorias. y dañino más allá de la imaginación.

Los deepfakes no son nada nuevo. De hecho, hay un gran tesoro de videos y medios falsos en línea. Sin embargo, hasta hace poco tiempo, la creación de deepfakes se limitaba a un número relativamente pequeño (aunque todavía grande) de personas que existían en la intersección de”personas con hardware capaz”y”conocimiento técnico”.

Ahora, con acceso a unidades de cómputo de GPU gratuitas (de uso limitado) en Google Colab y la disponibilidad de herramientas como Fast-Dreambooth que le permiten entrenar y usar modelos de IA en los servidores de Google, esa cantidad de personas subir exponencialmente. Probablemente ya lo haya hecho, eso me asusta, y también debería asustarte.

¿Qué podemos hacer?

Esa es la pregunta que deberíamos hacernos en este momento. Herramientas como DALL-E, Midjourney, y sí, Dreambooth y Stable Diffusion, son ciertamente impresionantes cuando se usan con la decencia humana común. La IA está mejorando a pasos agigantados; probablemente pueda darse cuenta al observar la explosión de noticias relacionadas con la IA en los últimos meses.

Este es, entonces, un punto crucial en el que debemos encontrar formas de garantizar que la IA se use de manera ética. Cómo podemos hacer eso es una pregunta para la que no estoy seguro de tener la respuesta, pero sé que después de haber usado el generador de imágenes de IA de Dreambooth, y después de ver sus capacidades, tengo miedo de lo bueno que es. , sin siquiera esforzarse demasiado.

3 comentarios

El año pasado, MSI lanzó la Titan GT77 con Intel Core i9-12900HX y la GPU RTX 3080 Ti Laptop, y fue la laptop para juegos más poderosa sobre la faz del planeta. Fue el más pesado de los pesos pesados ​​[…]

Han pasado algunos meses desde que se lanzó la serie iPhone 14, y está bien establecido que es el año de los modelos Pro. Pero si tiene la intención de optar por los profesionales con volantes, la cantidad para descascarar […]

Wondershare ha estado desarrollando algunos de los mejores software y herramientas para simplificar nuestra vida y nuestros esfuerzos creativos durante los últimos años. En particular, Wondershare Filmora ha recibido numerosos elogios. Recibió el premio Video Editing Leader […]

Categories: IT Info