ChatGPT และ Midjourney กำลังสร้างข่าวไม่เพียงแต่ในสื่อเทคโนโลยีเท่านั้น แต่ยังรวมถึงในด้านอื่นๆ ด้วย สิ่งนี้อาจเปลี่ยนแปลงในไม่ช้าเนื่องจากเทคโนโลยี AI ขนาดใหญ่ตัวต่อไปกำลังจะมาถึง NVIDIA ได้สาธิตเทคโนโลยีใหม่ที่อาจยกระดับ GIF ของคุณให้สูงขึ้นไปอีกขั้นในไม่ช้า
Gizchina News of the week
ใช้เทคโนโลยี Text-To-Video ของ NVIDIA ในการสร้างวิดีโอ
ไม่นานมานี้ NVIDIA ปลดปล่อยผลิตภัณฑ์ที่น่าสนใจซึ่งมีชื่อว่า VideoLDM นั่นคือโมเดล AI สำหรับการแปลงข้อความเป็นวิดีโอ อย่างไรก็ตาม NVIDIA ได้สร้างเทคโนโลยีนี้โดยร่วมมือกับนักวิจัยของมหาวิทยาลัย Cornell พูดง่ายๆ โมเดล AI นี้สามารถสร้างวิดีโอที่มีความละเอียดสูงสุด 2048 x 1280 พิกเซล อัตราเฟรม 24 เฟรมต่อวินาที และรันไทม์สูงสุด 4.7 วินาทีตามข้อความ
แบบจำลองใช้ความก้าวหน้าในการแพร่กระจายที่เสถียร เครือข่ายประสาท โซลูชัน NVIDIA มีพารามิเตอร์มากถึง 4.1 พันล้านพารามิเตอร์ แต่มีเพียง 2.7 พันล้านคนเท่านั้นที่ได้รับการฝึกอบรมโดยใช้วิดีโอ แม้ว่าคุณอาจคิดว่าเป็นจำนวนมาก แต่ก็ถือว่าน้อยตามมาตรฐาน AI ในปัจจุบัน
นอกจากนี้ โมเดลยังสามารถบันทึกวิดีโอที่มีฉากการขับขี่ สามารถอยู่ได้นานถึง 5 นาทีและมีความละเอียด 1024 x 512 พิกเซล เนื่องจากซีเควนซ์การขับรถเป็นเรื่องยากที่จะถ่ายทำในชีวิตจริง ด้วยเหตุนี้ เมื่อถึงช่วงเวลาดังกล่าว เทคโนโลยีนี้สามารถช่วยเหลือผู้ผลิตภาพยนตร์ได้ โมเดลสามารถคาดการณ์ความเป็นไปได้ของการเคลื่อนไหวต่อเนื่องหลายรูปแบบโดยการสร้างภารกิจที่เป็นไปได้จำนวนมากจากอิมเมจแหล่งเดียว
ในขณะนี้ เทคโนโลยีการแปลงข้อความเป็นวิดีโอ เช่น เทคโนโลยีที่แนะนำโดย NVIDIA นั้นเหมาะสำหรับการใช้งาน การสร้างภาพขนาดย่อและ GIF แต่เรารู้ว่า NVIDIA กำลังเติบโตอย่างรวดเร็วในด้าน AI ดังนั้นเราจึงเดาว่าจะใช้เวลาไม่นานสำหรับ NVIDIA ในการนำเสนอเทคโนโลยีขั้นสูงสำหรับการสร้างคลิปข้อความเป็นวิดีโอที่ยาวขึ้น
การศึกษานี้จะนำเสนอในการประชุม Machine Vision and Pattern Recognition ซึ่งจะจัดขึ้น ซึ่งจัดขึ้นที่เมืองแวนคูเวอร์ตั้งแต่วันที่ 18 ถึง 22 มิถุนายน
Source/VIA: