Thời đại của trí tuệ nhân tạo đã đến và Trí tuệ nhân tạo Sáng tạo đang đóng vai trò then chốt trong việc mang lại những tiến bộ chưa từng có cho công nghệ hàng ngày. Hiện đã có một số công cụ AI miễn phí có thể hỗ trợ bạn tạo ra những hình ảnh, văn bản, nhạc, video đáng kinh ngạc, v.v. trong vòng vài giây. Adobe’s AI Generative Fill in Photoshop và các khả năng tuyệt vời của Midjourney thực sự đã khiến chúng tôi giật mình. Nhưng, Generative AI chính xác là gì và làm thế nào nó thúc đẩy sự đổi mới nhanh chóng như vậy? Để tìm hiểu thêm, hãy theo dõi phần giải thích chi tiết của chúng tôi về Generative AI.
Mục lục
Định nghĩa: AI sáng tạo là gì?
Như tên cho thấy, AI sáng tạo có nghĩa là một loại công nghệ AI có thể tạo ra nội dung mới dựa trên trên dữ liệu mà nó đã được huấn luyện. Nó có thể tạo văn bản, hình ảnh, âm thanh, video và dữ liệu tổng hợp. AI sáng tạo có thể tạo ra nhiều loại kết quả đầu ra dựa trên đầu vào của người dùng hoặc cái mà chúng tôi gọi là “lời nhắc“. AI sáng tạo về cơ bản là một lĩnh vực con của máy học có thể tạo dữ liệu mới từ một tập dữ liệu nhất định.
Nếu mô hình đã được đào tạo trên khối lượng văn bản lớn, thì mô hình có thể tạo ra các tổ hợp văn bản có âm thanh tự nhiên mới. Dữ liệu càng lớn thì đầu ra càng tốt. Nếu tập dữ liệu đã được làm sạch trước khi đào tạo, bạn có thể nhận được phản hồi sắc thái.
OpenAI Playground
Tương tự như vậy, nếu bạn đã đào tạo một mô hình với một khối lượng lớn hình ảnh bằng cách gắn thẻ hình ảnh, chú thích và nhiều ví dụ trực quan, thì mô hình AI có thể học hỏi từ những ví dụ này và thực hiện phân loại và tạo hình ảnh. Hệ thống AI phức tạp này được lập trình để học hỏi từ các ví dụ được gọi là mạng lưới thần kinh.
Tuy nhiên, có nhiều loại mô hình AI Sáng tạo khác nhau. Đó là Mạng đối thủ sáng tạo (GAN), Bộ mã hóa tự động biến đổi (VAE), Máy biến áp được đào tạo trước thế hệ mới (GPT), các mô hình tự hồi quy, v.v. Chúng tôi sẽ thảo luận ngắn gọn về các mô hình tổng quát này bên dưới.
Hiện tại, các mô hình GPT đã trở nên phổ biến sau khi phát hành GPT-4/3.5 (ChatGPT), PaLM 2 (Google Bard), GPT-3 (DALL – E), LLaMA (Meta), Khuếch tán ổn định, v.v. Tất cả các giao diện AI thân thiện với người dùng này đều được xây dựng trên kiến trúc Transformer. Vì vậy, trong phần giải thích này, chúng tôi sẽ chủ yếu tập trung vào Generative AI và GPT (Generative Pretraining Transformer).
Các loại mô hình AI sáng tạo khác nhau là gì?
Trong số tất cả các mô hình AI sáng tạo, GPT được nhiều người ưa chuộng, nhưng hãy bắt đầu với GAN (Mạng đối thủ sáng tạo) . Trong kiến trúc này, hai mạng song song được đào tạo, trong đó một mạng được sử dụng để tạo nội dung (được gọi là trình tạo) và mạng còn lại đánh giá nội dung được tạo (được gọi là bộ phân biệt).
Về cơ bản, mục đích là đặt hai mạng nơ-ron cạnh nhau để tạo ra kết quả phản ánh dữ liệu thực. Các mô hình dựa trên GAN chủ yếu được sử dụng cho các tác vụ tạo hình ảnh.
GAN (Mạng đối thủ chung)/Nguồn: Google
Tiếp theo, chúng ta có Bộ mã hóa tự động biến đổi (VAE), bao gồm quá trình mã hóa, học, giải mã và tạo nội dung. Ví dụ: nếu bạn có hình ảnh về một con chó, nó sẽ mô tả cảnh như màu sắc, kích thước, tai, v.v., sau đó tìm hiểu loại đặc điểm của một con chó. Sau đó, nó tạo lại một hình ảnh thô bằng cách sử dụng các điểm chính để tạo ra một hình ảnh đơn giản hóa. Cuối cùng, nó tạo ra hình ảnh cuối cùng sau khi thêm nhiều sắc thái và đa dạng hơn.
Chuyển sang Mô hình tự hồi quy, mô hình này gần giống với mô hình Máy biến áp nhưng thiếu khả năng tự chú ý. Nó chủ yếu được sử dụng để tạo văn bản bằng cách tạo một chuỗi và sau đó dự đoán phần tiếp theo dựa trên các chuỗi mà nó đã tạo cho đến nay. Tiếp theo, chúng ta cũng có các Mô hình dựa trên Năng lượng và Chuẩn hóa Dòng chảy. Nhưng cuối cùng, chúng ta sẽ nói chi tiết về các mô hình dựa trên Máy biến áp phổ biến bên dưới.
Mô hình Máy biến áp được đào tạo trước sáng tạo (GPT) là gì
Trước khi có kiến trúc Máy biến áp, Mô hình tái tạo Mạng thần kinh (RNN) và Mạng thần kinh chuyển đổi (CNN) như GAN và VAE đã được sử dụng rộng rãi cho AI sáng tạo. Vào năm 2017, các nhà nghiên cứu làm việc tại Google đã phát hành bài báo chuyên đề “Bạn chỉ cần chú ý” (Vaswani, Uszkoreit, et al., 2017) để thúc đẩy lĩnh vực AI sáng tạo và tạo ra thứ gì đó giống như mô hình ngôn ngữ lớn (LLM).
Google sau đó đã phát hành mô hình BERT (Biểu diễn bộ mã hóa hai chiều từ Transformers) vào năm 2018 để triển khai kiến trúc Transformer. Đồng thời, OpenAI đã phát hành mẫu GPT-1 đầu tiên dựa trên kiến trúc Transformer.
Nguồn: Marxav/commons.wikimedia.org
Vậy thành phần quan trọng nào trong kiến trúc Transformer đã khiến nó trở thành mục tiêu yêu thích của Generative AI? Vì bài báo có tiêu đề phù hợp nên nó đã giới thiệu khả năng tự chú ý, điều không có trong các kiến trúc mạng nơ-ron trước đó. Điều này có nghĩa là về cơ bản nó dự đoán từ tiếp theo trong câu bằng phương pháp có tên là Transformer. Nó rất chú ý đến các từ lân cận để hiểu ngữ cảnh và thiết lập mối quan hệ giữa các từ.
Thông qua quá trình này, Transformer phát triển khả năng hiểu biết hợp lý về ngôn ngữ và sử dụng kiến thức này để dự đoán từ tiếp theo một cách đáng tin cậy. Toàn bộ quá trình này được gọi là cơ chế Chú ý. Điều đó nói rằng, hãy nhớ rằng các LLM bị khinh bỉ gọi là Vẹt ngẫu nhiên (Bender, Gebru, et al., 2021) bởi vì mô hình chỉ đơn giản là bắt chước các từ ngẫu nhiên dựa trên các quyết định và mẫu xác suất mà nó đã học được. Nó không xác định từ tiếp theo dựa trên logic và không có bất kỳ hiểu biết thực sự nào về văn bản.
Đối với thuật ngữ “được đào tạo trước” trong GPT, điều đó có nghĩa là mô hình đã được đào tạo trên một lượng lớn dữ liệu văn bản trước khi áp dụng cơ chế chú ý. Bằng cách đào tạo trước dữ liệu, nó sẽ học cấu trúc câu là gì, mẫu, sự kiện, cụm từ, v.v. Nó cho phép mô hình hiểu rõ về cách thức hoạt động của cú pháp ngôn ngữ.
Google và OpenAI tiếp cận AI sáng tạo như thế nào?
Cả Google và OpenAI đều đang sử dụng các mô hình dựa trên Transformer trong Google Bard và ChatGPT, tương ứng. Tuy nhiên, có một số sự khác biệt chính trong cách tiếp cận. Mẫu PaLM 2 mới nhất của Google sử dụng bộ mã hóa hai chiều (cơ chế tự chú ý và mạng thần kinh chuyển tiếp nguồn cấp dữ liệu), có nghĩa là nó cân bằng tất cả các từ xung quanh. Về cơ bản, nó cố gắng hiểu ngữ cảnh của câu và sau đó tạo ra tất cả các từ cùng một lúc. Cách tiếp cận của Google về cơ bản là dự đoán các từ còn thiếu trong một ngữ cảnh nhất định.
Google Bard
Ngược lại, ChatGPT của OpenAI tận dụng kiến trúc Transformer để dự đoán từ tiếp theo theo trình tự – từ trái sang phải. Đó là một mô hình đơn hướng được thiết kế để tạo ra các câu mạch lạc. Nó tiếp tục dự đoán cho đến khi nó tạo ra một câu hoàn chỉnh hoặc một đoạn văn. Có lẽ, đó là lý do tại sao Google Bard có thể tạo văn bản nhanh hơn nhiều so với ChatGPT. Tuy nhiên, cả hai mô hình đều dựa vào kiến trúc Transformer ở cốt lõi của chúng để cung cấp giao diện AI Sáng tạo.
Các ứng dụng của Trí tuệ nhân tạo Sáng tạo
Chúng ta đều biết rằng Trí tuệ Nhân tạo Sáng tạo có một ứng dụng khổng lồ không chỉ cho văn bản mà còn cho hình ảnh, video, tạo âm thanh, v.v. Các chatbot AI như ChatGPT, Google Bard, Bing Chat, v.v. tận dụng AI Sáng tạo. Nó cũng có thể được sử dụng để tự động điền, tóm tắt văn bản, trợ lý ảo, dịch thuật, v.v. Để tạo nhạc, chúng tôi đã thấy các ví dụ như Google MusicLM và gần đây Meta đã phát hành MusicGen để tạo nhạc.
ChatGPT
Ngoài ra, từ DALL-E 2 đến Stable Diffusion, tất cả đều sử dụng AI Sáng tạo để tạo hình ảnh chân thực từ mô tả văn bản. Trong quá trình tạo video cũng vậy, các mô hình Gen-1, StyleGAN 2 và BigGAN của Runway dựa vào Mạng đối thủ sáng tạo để tạo video sống động như thật. Hơn nữa, AI sáng tạo có các ứng dụng trong các thế hệ mô hình 3D và một số mô hình phổ biến là DeepFashion và ShapeNet.
Hình ảnh được tạo của Midjourney
Không chỉ vậy, Trí tuệ nhân tạo Sáng tạo còn có thể giúp ích rất nhiều trong việc khám phá thuốc. Nó có thể thiết kế các loại thuốc mới cho một căn bệnh cụ thể. Chúng tôi đã thấy các mô hình khám phá thuốc như AlphaFold, được phát triển bởi Google DeepMind. Cuối cùng, Trí tuệ nhân tạo Sáng tạo có thể được sử dụng để lập mô hình dự đoán nhằm dự báo các sự kiện trong tương lai về tài chính và thời tiết.
Hạn chế của Trí tuệ nhân tạo Sáng tạo
Mặc dù Trí tuệ nhân tạo Sáng tạo có những khả năng to lớn nhưng không phải là không có bất kỳ sai sót nào. Trước hết, nó yêu cầu một khối dữ liệu lớnđể đào tạo một mô hình. Đối với nhiều công ty khởi nghiệp nhỏ, dữ liệu chất lượng cao có thể không có sẵn. Chúng tôi đã thấy các công ty như Reddit, Stack Overflow và Twitter đóng quyền truy cập vào dữ liệu của họ hoặc tính phí cao cho quyền truy cập. Gần đây, The Internet Archive đã báo cáo rằng trang web của họ đã không thể truy cập được trong một giờ do một số công ty khởi nghiệp về AI bắt đầu tấn công trang web của họ để lấy dữ liệu đào tạo.
Bên cạnh đó, các mô hình AI Sáng tạo cũng bị chỉ trích nặng nề vì thiếu kiểm soát và thiên vị. Các mô hình AI được đào tạo dựa trên dữ liệu sai lệch từ internet có thể đại diện cho một bộ phận cộng đồng. Chúng ta đã thấy cách các trình tạo ảnh AI chủ yếu hiển thị hình ảnh với tông màu da sáng hơn. Sau đó, có vấn đề lớn về video deepfake và tạo hình ảnh bằng các mô hình AI Sáng tạo. Như đã nêu trước đó, các mô hình AI sáng tạo không hiểu ý nghĩa hoặc tác động của từ ngữ của chúng và thường bắt chước đầu ra dựa trên dữ liệu mà nó đã được đào tạo.
Có khả năng cao là bất chấp những nỗ lực và sự liên kết tốt nhất, thông tin sai lệch, tạo deepfake, bẻ khóa và các nỗ lực lừa đảo tinh vi sử dụng khả năng ngôn ngữ tự nhiên có sức thuyết phục của nó, các công ty sẽ gặp khó khăn trong việc thuần hóa Generative Những hạn chế của AI.
Để lại nhận xét
RTX 4060 Ti cuối cùng đã ra mắt, xuất hiện cùng với RTX 4060 cơ bản với mức giá đủ hấp dẫn để khiến các game thủ cân nhắc nâng cấp cạc đồ họa của họ. Nhưng bạn nên? Chúng tôi sẽ đi sâu hơn và so sánh RTX 4060 […]
Có nhiều tranh luận trên internet về AR (thực tế tăng cường) và VR (thực tế ảo), vì vậy tôi sẽ không đổ thêm dầu vào ngọn lửa, nhưng một trong những điều chúng tôi nhận thấy khi sử dụng Nreal Air là VR […]
Có một số lựa chọn thiết kế đáng ngờ trong Redfall, một sự nhầm lẫn của công thức Arkane nổi tiếng nửa vời. Tôi yêu thích các trò chơi do Arkane Studios sản xuất, trong đó Dishonored trở thành một tựa game mà tôi thỉnh thoảng xem lại vì lối chơi mới nổi độc đáo của nó. Và […]