Microsoft เปิดตัว VASA เอไอสร้างวิดีโอสมจริงจากไฟล์รูปภาพและเสียง
ไมโครซอฟท์ รีเสิร์ช ได้เผยแพร่โมเดล VASA-1 เอไอสร้างวิดีโอสมจริง ใช้เพียงแค่รูปภาพและเสียงประกอบเพียงอย่างละ 1 ไฟล์ ซึ่งริมฝีปากของตัวละครที่เอไอสร้างสามารถขยับพูดได้แบบเรียลไทม์ สามารถปรับใบหน้าด้วยความหน่วง latency ที่ต่ำมาก
VASA ย่อมาจาก Visual Affective Skills Animator โมเดลปัญญาประดิษฐ์ตัวนี้ สามารถเรียนรู้ด้วยตนเอง (Machine Learning) กล่าวคือ เมื่อป้อน input เข้าไป เอไอจะวิเคราะห์รูปภาพใบหน้า จากนั้นจะนำไปสร้างเป็นภาพเคลื่อนไหวที่สอดคล้องกับเสียงประกอบ โดยซิงโครไนซ์การขยับปากให้ตรงกับเสียงพูด
Microsoft เปิดตัว VASA เอไอสร้างวิดีโอสมจริงจากรูปภาพและเสียง
นอกจากนี้ VASA-1 ยังสามารถจำลองการแสดงออกทางสีหน้า การเคลื่อนไหวศีรษะ และแม้กระทั่งการเคลื่อนไหวร่างกายที่มองไม่เห็นในภาพถ่ายได้อีกด้วย โดยสามารถสร้างวิดีโอด้วยความละเอียด 512×512 45fps ได้หากรันออฟไลน์แบบ batch ส่วนแบบออนไลน์สตรีมมิ่งได้สูงสุดที่ 40fps
ในงานวิจัยได้ทอดสอบใช้ VASA กับรูปวาด เช่น รูปวาดของ Mona Lisa ให้พูดภาษาอื่นที่ไม่ใช่ภาษาอังกฤษ ซึ่งทั้งหมดไม่มีในชุดข้อมูลเทรน ปรากฎว่าผลลัพธ์ออกมาดีเกินความคาดหมาย
อย่างไรก็ตาม โมเดลตัวนี้ยังอยู่ในขั้นตอนของการพัฒนา มีจุดที่ต้องปรับกันต่อ เช่น รายละเอียดยิบย่อยของนิ้วมือ ฟัน ที่ยังไม่มีความสมจริง
ไมโครซอฟท์ไม่มีแผนจะเผยแพร่เดโม่หรือเผยแพร่ API ตลอดจนข้อมูลอื่นๆ ของเทคโนโลยีนี้ เพราะกังวลเรื่องของการนำไปใช้ในทางที่ผิด จนกว่าจะมีกฎหมายกำกับดูแลด้านจริยธรรมเอไออย่างเหมาะสม
อ้างอิง: microsoft techspot