Pamiętasz, kiedy Prisma była najlepszą dostępną aplikacją do edycji obrazów „AI”? Tak, z pewnością przeszliśmy długą drogę od tego czasu. Wraz z pojawieniem się generatorów obrazów opartych na sztucznej inteligencji, takich jak DALL-E i Midjourney, tworzenie dzieł sztuki i deepfake’ów jest praktycznie dostępne dla każdego.

Ale są ograniczenia, prawda? Po początkowej nowości polegającej na poproszeniu Midjourney o wyobrażenie sobie różnych podpowiedzi i zobaczeniu, co wyrzuca, wszystko staje się dość nudne. A przynajmniej zrobiło to dla mnie.

Energia narcystyczna?

Słuchaj, jestem introwertykiem, co oznacza, że ​​tak naprawdę nie lubię wychodzić na miasto. Ale wiesz, co lubię? Posiadanie swoich zdjęć w miejscach, do których prawdopodobnie nigdy bym nie poszedł; cholera, miejsca, do których też nie mogę iść.

Oczywiście chciałem poprosić narzędzia sztucznej inteligencji o stworzenie zdjęć przedstawiających mnie w różnych sytuacjach i miejscach. Jednak nie chciałem również przesyłać swoich zdjęć na przypadkowe strony internetowe w nadziei, że wyniki mogą być dobre; i wtedy przeczytałem o Dreambooth.

Niech rozpoczną się rozgrywki…

Okazuje się, że naprawdę mądrzy ludzie udostępnili masom takie rzeczy, jak stabilna dyfuzja. Co więcej, inni współpracowali z nimi i umożliwili dosłownie każdemu, kto ma trochę cierpliwości, tworzenie własnych modeli stabilnej dyfuzji i uruchamianie ich całkowicie online.

Więc chociaż mam MacBooka Air M1, który przez żadne środki nie są przeznaczone do wykorzystania jako maszyna szkoleniowa dla modelu generowania obrazów opartego na głębokim uczeniu się, mogę uruchomić notatnik Google Colab i robić to wszystko na serwerach Google — za darmo!

Wszystko, czego naprawdę potrzebowałem, to kilka moich zdjęć i to wszystko.

Trenowanie mojego generatora obrazów AI

Trenowanie własnego generatora obrazów nie jest wcale trudne. Istnieje wiele przewodników dostępnych online, jeśli potrzebujesz pomocy, i w zasadzie wszystko jest bardzo proste. Wystarczy otworzyć notatnik Colab, przesłać zdjęcia i rozpocząć szkolenie modelu. Wszystko to dzieje się dość szybko.

Ok, bądźmy szczerzy, szkolenie kodera tekstu odbywa się dość szybko, w ciągu 5 minut. Jednak szkolenie UNet z parametrami ustawionymi na domyślne zajmuje dość dużo czasu — blisko 15-20 minut. Jednak biorąc pod uwagę fakt, że tak naprawdę trenujemy model sztucznej inteligencji, aby rozpoznawał moją twarz i potrafił ją narysować, 20 minut nie wydaje się zbyt długim czasem.

Podczas treningu istnieje kilka sposobów dostosowania tego, jak bardzo chcesz wytrenować swój model, i z tego, co zrozumiałem, czytając doświadczenia wielu osób online, jest to, że nie ma tutaj prawdziwej „jednej uniwersalnej” strategii. Jednak w przypadku podstawowych przypadków użycia wartości domyślne zdawały się działać dobrze dla większości ludzi i również się ich trzymałem. Częściowo dlatego, że tak naprawdę nie mogłem zrozumieć, co oznaczała większość rzeczy, a częściowo dlatego, że po prostu nie chciało mi się trenować wielu modeli z różnymi parametrami treningowymi, aby zobaczyć, co dało najlepsze wyniki.

W końcu po prostu szukałem zabawnego generatora obrazów AI, który mógłby zrobić kilka przyzwoitych zdjęć mnie.

Przekracza oczekiwania

Nie jestem ekspertem od AI w żadnym stopniu. Rozumiem jednak, że trenowanie modelu stabilnej dyfuzji na notatniku Google Colab z 8 moimi jpegami przyciętymi do 512×512 pikseli tak naprawdę nie przyniesie czegoś nadzwyczajnego.

Jak bardzo się myliłem.

W mojej pierwszej próbie użycia trenowanego przeze mnie modelu zacząłem od prostego monitu, który brzmiał „akszaj”. Poniżej znajduje się obraz, który został wygenerowany.

Niezbyt dobrze, prawda? Ale też nie jest tak źle, prawda?

Ale potem zacząłem bawić się niektórymi parametrami dostępnymi w interfejsie użytkownika. Istnieje wiele metod próbkowania, kroki próbkowania, skala CFG, skrypty i wiele więcej. Czas trochę poszaleć i poeksperymentować z różnymi monitami i ustawieniami modelu.

Oczywiście wyniki tych zdjęć nie są idealne i każdy, kto mnie widział, prawdopodobnie powie, że to nie są „moje” obrazy. Są jednak wystarczająco blisko; i nawet nie trenowałem modelu ze szczególną starannością.

Gdybym podążał za niezliczonymi przewodnikami na Reddit i innych miejscach w Internecie, które mówią o sposobach poprawy treningu i uzyskiwania lepszych wyników z Dreambooth i Stable Diffusion, te obrazy mogłyby okazać się jeszcze bardziej realistyczne (i prawdopodobnie bardziej przerażające).

Ten generator obrazów AI jest przerażająco dobry

Widzisz, jestem za ulepszeniami technologii AI. Jako dziennikarz techniczny przez ostatnie kilka lat śledziłem ciągle zmieniającą się i ulepszającą dziedzinę sztucznej inteligencji skierowanej do konsumentów i przez większość czasu jestem pod wielkim wrażeniem i optymistą.

Jednak widząc coś takiego jak Dreambooth w akcji, zastanawiam się nad nieetycznymi sposobami, w jakie narzędzia oparte na sztucznej inteligencji i uczeniu maszynowym są łatwo dostępne dla praktycznie każdego, kto ma dostęp do komputera i internetu.

Nie ma wątpliwości, że na świecie jest wielu złych aktorów. Chociaż z pewnością istnieją niewinne przypadki użycia tak łatwo dostępnej technologii, jeśli jest jedna rzecz, której nauczyłem się przez lata raportowania o technologii, to jest to, że oddanie produktu w ręce milionów ludzi bez wątpienia spowoduje wiele niepożądanych rezultatów. W najlepszym razie coś nieoczekiwanego, aw najgorszym coś wręcz obrzydliwego.

Możliwość tworzenia fałszywych zdjęć praktycznie każdego, o ile możesz pozyskać od 5 do 10 zdjęć ich twarzy, jest niezwykle niebezpieczna, jeśli jest używana niewłaściwie. Pomyśl o dezinformacji, wprowadzaniu w błąd, a nawet pornografii zemsty — deepfake można wykorzystać na wszystkie te problematyczne sposoby.

Zabezpieczenia? Jakie zabezpieczenia?

To też nie tylko Dreambooth. Same w sobie i dobrze użyte, Dreambooth i Stable Diffusion są niesamowitymi narzędziami, które pozwalają nam doświadczyć, co potrafi sztuczna inteligencja. Ale nie ma prawdziwych zabezpieczeń dla tej technologii z tego, czego doświadczyłem do tej pory. Jasne, nie pozwoli ci generować jawnej nagości na obrazach; przynajmniej domyślnie. Istnieje jednak wiele rozszerzeń, które pozwolą ci również ominąć ten filtr i stworzyć prawie wszystko, co możesz sobie wyobrazić, w oparciu o czyjąkolwiek tożsamość.

Nawet bez takich rozszerzeń możesz łatwo uzyskać narzędzia takie jak to, aby tworzyć szeroką gamę potencjalnie niepokojących i niegodnych wizerunku osób.

Co więcej, mając przyzwoicie wydajny komputer, można trenować własne modele sztucznej inteligencji bez żadnych zabezpieczeń i w oparciu o dowolne dane treningowe, których chcą użyć — co oznacza, że ​​wyszkolony model stworzy obrazy, które mogą być potępiające i szkodliwe nie do wyobrażenia.

Deepfake’i nie są niczym nowym. W rzeczywistości istnieje ogromna ilość fałszywych filmów i multimediów online. Jednak aż do niedawnej przeszłości tworzenie deepfake’ów ograniczało się do stosunkowo niewielkiej (choć wciąż dużej) liczby osób, które istniały na przecięciu „ludzi z odpowiednim sprzętem” i „technicznym know-how”.

Teraz, mając dostęp do bezpłatnych (o ograniczonym użyciu) jednostek obliczeniowych GPU w Google Colab i dostępność narzędzi, takich jak fast-dreambooth, które pozwalają trenować i używać modeli sztucznej inteligencji na serwerach Google, ta liczba osób będzie rosnąć wykładniczo. Prawdopodobnie już to zrobiło-to jest dla mnie przerażające i powinno być dla ciebie również.

Co możemy zrobić?

To pytanie, które powinniśmy sobie teraz zadać. Narzędzia takie jak DALL-E, Midjourney i tak, Dreambooth i Stable Diffusion, z pewnością robią wrażenie, gdy są używane ze zwykłą ludzką przyzwoitością. Sztuczna inteligencja poprawia się skokowo — prawdopodobnie można to stwierdzić, patrząc na eksplozję wiadomości związanych ze sztuczną inteligencją w ciągu ostatnich kilku miesięcy.

Jest to zatem kluczowy punkt, w którym musimy znaleźć sposoby na zapewnienie etycznego wykorzystania sztucznej inteligencji. Jak możemy to zrobić, to pytanie, na które nie jestem pewien, czy mam odpowiedź, ale wiem, że po użyciu generatora obrazów AI Fast-Dreambooth i po zobaczeniu jego możliwości boję się, jak dobry jest , nawet nie starając się zbytnio.

3 komentarze

W zeszłym roku firma MSI wprowadziła Titan GT77 z procesorem Intel Core i9-12900HX i kartą graficzną RTX 3080 Ti do laptopów, który był najpotężniejszym laptopem do gier na świecie. To był najcięższy z ciężkich hitów […]

Minęło kilka miesięcy od premiery serii iPhone 14 i dobrze wiadomo, że jest to rok modeli Pro. Ale jeśli zamierzasz wybrać plisowane Pro, kwota do wyrzucenia […]

Wondershare od kilku lat opracowuje jedne z najlepszych programów i narzędzi, które upraszczają nasze życie i twórcze wysiłki. W szczególności Wondershare Filmora otrzymał liczne wyróżnienia. Był laureatem nagrody Lidera Edycji Wideo […]

Categories: IT Info