Bạn có nhớ khi Prisma là ứng dụng chỉnh sửa hình ảnh “AI” đỉnh cao không? Vâng, chúng tôi chắc chắn đã đi một chặng đường dài kể từ đó. Với sự gia tăng của các trình tạo hình ảnh dựa trên AI nhanh như DALL-E và Midjourney, việc tạo tác phẩm nghệ thuật và ảnh sâu có sẵn cho mọi người.
Nhưng vẫn có những hạn chế phải không? Sau sự mới lạ ban đầu khi yêu cầu Midjourney tưởng tượng ra nhiều lời nhắc khác nhau và xem những gì nó đưa ra, tất cả trở nên khá nhàm chán. Hoặc ít nhất nó đã làm cho tôi.
Năng lượng ái kỷ?
Hãy nhìn xem, tôi là người hướng nội, điều đó có nghĩa là tôi không thực sự thích ra ngoài nhiều. Nhưng bạn biết tôi thích gì không? Có những bức ảnh của chính tôi ở những nơi mà có lẽ tôi sẽ không bao giờ đặt chân đến; chết tiệt, những nơi tôi cũng không thể đến.
Đương nhiên, tôi muốn nhờ các công cụ AI tạo ra hình ảnh của tôi trong các tình huống và địa điểm khác nhau. Tuy nhiên, tôi cũng không muốn tải hình ảnh của mình lên các trang web ngẫu nhiên với hy vọng rằng kết quả sẽ tốt; và đó là khi tôi đọc về Dreambooth.
Hãy bắt đầu trò chơi…
Hóa ra, những người thực sự thông minh đã mang những thứ như Khuếch tán ổn định đến với đại chúng. Hơn nữa, những người khác đã hợp tác với họ và giúp cho bất kỳ ai có chút kiên nhẫn cũng có thể tạo ra các mô hình Khuếch tán ổn định của riêng mình và chạy chúng, hoàn toàn trực tuyến.
Vì vậy, mặc dù tôi có một chiếc MacBook Air M1 mà không có phương tiện nào nhằm mục đích sử dụng làm máy đào tạo cho mô hình tạo hình ảnh học sâu, tôi có thể chạy sổ ghi chép Google Colab và thực hiện tất cả những việc đó trên máy chủ của Google — miễn phí!
Lúc đó, tất cả những gì tôi thực sự cần là một vài bức ảnh của chính mình, thế là xong.
Đào tạo Trình tạo hình ảnh AI của tôi
Đào tạo trình tạo hình ảnh của riêng bạn hoàn toàn không khó. Có một số hướng dẫn có sẵn trực tuyến nếu bạn cần trợ giúp và về cơ bản, tất cả đều rất đơn giản. Bạn chỉ cần mở sổ tay Colab, tải ảnh lên và bắt đầu huấn luyện mô hình. Tất cả đều diễn ra khá nhanh.
Được rồi, công bằng mà nói, quá trình đào tạo bộ mã hóa văn bản diễn ra khá nhanh, trong vòng 5 phút. Tuy nhiên, đào tạo UNet với các tham số được đặt thành mặc định mất khá nhiều thời gian — gần 15-20 phút. Tuy nhiên, xét đến thực tế là chúng tôi đang thực sự đào tạo một mô hình AI để nhận dạng và có thể vẽ khuôn mặt của tôi, thì 20 phút có vẻ không phải là quá nhiều thời gian.
Trong khi đào tạo, có rất nhiều cách bạn có thể thực hiện để tùy chỉnh mức độ bạn muốn đào tạo mô hình của mình và điều tôi hiểu được từ việc đọc kinh nghiệm của nhiều người trên mạng, đó là không có chiến lược “một kích cỡ phù hợp với tất cả” thực sự ở đây. Tuy nhiên, đối với các trường hợp sử dụng cơ bản, các giá trị mặc định dường như chỉ hoạt động tốt đối với hầu hết mọi người và tôi cũng bị mắc kẹt với các giá trị đó. Một phần vì tôi không thực sự hiểu ý nghĩa của hầu hết mọi thứ, và một phần vì tôi không muốn thử đào tạo nhiều mô hình với các tham số đào tạo khác nhau để xem điều gì mang lại kết quả đầu ra tốt nhất.
Rốt cuộc, tôi chỉ đơn giản là đang tìm kiếm một trình tạo hình ảnh AI thú vị có thể tạo ra một số hình ảnh khá tốt về tôi.
Vượt quá mong đợi
Tôi không phải là chuyên gia về trí tuệ nhân tạo theo bất kỳ cách tưởng tượng nào. Tuy nhiên, tôi hiểu rằng việc đào tạo một mô hình phổ biến ổn định trên sổ ghi chép Google Colab với 8 ảnh jpeg của chính tôi được cắt thành 512×512 pixel sẽ không thực sự mang lại điều gì đặc biệt.
Tôi đã sai lầm biết bao.
Trong nỗ lực đầu tiên sử dụng mô hình mà tôi đã đào tạo, tôi đã bắt đầu với một lời nhắc đơn giản có nội dung “akshay”. Sau đây là hình ảnh đã được tạo ra.
Không tuyệt phải không? Nhưng nó cũng không tệ lắm đúng không?
Nhưng sau đó tôi bắt đầu thử với một số thông số có sẵn trong giao diện người dùng. Có nhiều phương pháp lấy mẫu, có các bước lấy mẫu, Thang đo CFG, tập lệnh, v.v. Đã đến lúc thử nghiệm điên cuồng một chút với các lời nhắc và thiết lập khác nhau cho mô hình.
Rõ ràng, kết quả của những hình ảnh này không hoàn hảo và bất kỳ ai đã nhìn thấy tôi đều có thể nói rằng đây không phải là những hình ảnh “của tôi”. Tuy nhiên, chúng đủ gần; và tôi thậm chí còn không huấn luyện người mẫu với bất kỳ sự quan tâm đặc biệt nào.
Nếu tôi làm theo vô số hướng dẫn trên Reddit và những nơi khác trên internet nói về những cách bạn có thể cải thiện quá trình luyện tập và đạt được kết quả tốt hơn từ Dreambooth và Stable Diffusion, thì những hình ảnh này có thể còn thực tế hơn nữa (và có thể nói là đáng sợ hơn).
Trình tạo hình ảnh AI này cực kỳ tốt
Thấy chưa, tôi hoàn toàn ủng hộ những cải tiến trong công nghệ AI. Là một nhà báo công nghệ, tôi đã theo dõi lĩnh vực AI hướng tới người tiêu dùng luôn thay đổi và cải tiến trong vài năm qua, và phần lớn, tôi vô cùng ấn tượng và lạc quan.
Tuy nhiên, việc chứng kiến những thứ giống như Dreambooth đang hoạt động khiến tôi băn khoăn về những cách phi đạo đức mà các công cụ dựa trên AI và ML sẵn có cho bất kỳ ai về cơ bản có quyền truy cập vào máy tính và Internet.
Không nghi ngờ gì khi có rất nhiều diễn viên xấu trên thế giới. Mặc dù các trường hợp sử dụng vô tội của công nghệ dễ tiếp cận như vậy chắc chắn tồn tại, nhưng nếu có một điều tôi đã học được trong nhiều năm báo cáo về công nghệ, thì đó là việc đưa một sản phẩm đến tay hàng triệu người chắc chắn sẽ dẫn đến nhiều kết quả không mong muốn. Tốt nhất, một cái gì đó bất ngờ, và tệ nhất là một cái gì đó hoàn toàn kinh tởm.
Có khả năng tạo hình ảnh deepfake của hầu hết mọi người miễn là bạn có thể lấy từ 5 đến 10 bức ảnh khuôn mặt của họ, cực kỳ nguy hiểm nếu sử dụng không đúng cách. Hãy nghĩ đến thông tin sai lệch, xuyên tạc và thậm chí là khiêu dâm trả thù — deepfakes có thể được sử dụng theo tất cả những cách có vấn đề này.
Bảo vệ? Safegaurds là gì?
Không chỉ có Dreambooth. Bản thân và được sử dụng tốt, Dreambooth và Stable Diffusion là những công cụ đáng kinh ngạc cho phép chúng tôi trải nghiệm những gì AI có thể làm. Nhưng không có biện pháp bảo vệ thực sự nào đối với công nghệ này so với những gì tôi đã trải nghiệm cho đến nay. Chắc chắn rồi, nó sẽ không cho phép bạn tạo ảnh khỏa thân hoàn toàn trong ảnh; ít nhất là theo mặc định. Tuy nhiên, có rất nhiều tiện ích mở rộng cũng sẽ cho phép bạn bỏ qua bộ lọc đó và tạo ra khá nhiều thứ bạn có thể tưởng tượng, dựa trên danh tính của bất kỳ ai.
Ngay cả khi không có những tiện ích mở rộng như vậy, bạn vẫn có thể dễ dàng có được những công cụ như thế này để tạo ra nhiều hình ảnh có khả năng gây phiền nhiễu và gây tiếng xấu về mọi người.
Hơn nữa, với một chiếc PC mạnh mẽ, người ta có thể đào tạo các mô hình AI của riêng mình mà không cần bất kỳ biện pháp bảo vệ nào và dựa trên bất kỳ dữ liệu đào tạo nào họ muốn sử dụng — điều đó có nghĩa là mô hình được đào tạo sẽ tạo ra những hình ảnh có thể gây hại và có hại ngoài sức tưởng tượng.
Deepfakes không có gì mới. Trên thực tế, có rất nhiều video deepfake và phương tiện truyền thông trực tuyến. Tuy nhiên, cho đến thời gian gần đây, việc tạo deepfake chỉ giới hạn ở một số lượng người tương đối nhỏ (mặc dù vẫn còn nhiều), tồn tại trong sự giao thoa của “những người có phần cứng có năng lực” và “bí quyết kỹ thuật”.
Giờ đây, với quyền truy cập vào các đơn vị điện toán GPU miễn phí (sử dụng có giới hạn) trên Google Colab và sự sẵn có của các công cụ như fast-dreambooth cho phép bạn đào tạo và sử dụng các mô hình AI trên các máy chủ của Google, số người đó sẽ tăng lên theo cấp số nhân. Nó có thể đã xảy ra rồi-điều đó thật đáng sợ đối với tôi và bạn cũng vậy.
Chúng ta có thể làm gì?
Đó là câu hỏi mà chúng ta nên tự hỏi mình vào thời điểm này. Các công cụ như DALL-E, MidjTHER và vâng, Dreambooth và Khuếch tán ổn định, chắc chắn rất ấn tượng khi được sử dụng với sự đàng hoàng của con người. Trí tuệ nhân tạo đang được cải thiện với những bước nhảy vọt-bạn có thể biết điều đó bằng cách nhìn vào sự bùng nổ của các tin tức liên quan đến trí tuệ nhân tạo trong vài tháng qua.
Vì vậy, đây là một điểm quan trọng mà chúng ta cần tìm ra các cách để đảm bảo AI được sử dụng một cách có đạo đức. Làm thế nào chúng ta có thể tiếp tục làm điều đó là một câu hỏi mà tôi không chắc mình có câu trả lời, nhưng tôi biết rằng đã sử dụng trình tạo hình ảnh AI nhanh như mơ và sau khi thấy các khả năng của nó, tôi sợ rằng nó tốt như thế nào , thậm chí không cần cố gắng quá nhiều.
1 Comment
Năm ngoái, MSI đã ra mắt Titan GT77 với Intel Core i9-12900HX và GPU dành cho máy tính xách tay RTX 3080 Ti và đây là máy tính xách tay chơi game mạnh nhất trên hành tinh. Đó là năm nặng nề nhất trong số các đối thủ hạng nặng […]
Đã vài tháng kể từ khi dòng iPhone 14 ra mắt và người ta đã xác định rõ rằng đây là năm của các mẫu Pro. Nhưng nếu bạn có ý định tìm kiếm Ưu điểm rườm rà, thì số tiền đó […]
Wondershare đã và đang phát triển một số phần mềm và công cụ tốt nhất để đơn giản hóa cuộc sống và nỗ lực sáng tạo của chúng ta trong vài năm qua. Đặc biệt, Wondershare Filmora đã nhận được nhiều giải thưởng. Đó là người đã nhận được giải thưởng Nhà lãnh đạo biên tập video […]