Lumiere คืออะไร เอไอของ Google นี้ถูกพัฒนาขึ้นเพื่อสร้างวิดีโอจากข้อความ (Text-to-Video) หรือรูปภาพ (Image-to-Video) ที่สามารถสร้างคลิปได้ลื่นไหลและสมจริงอย่างไม่น่าเชื่อ
Lumiere คืออะไร
Lumiere เป็นโมเดล AI สร้างวิดีโอจากอินพุตประเภทต่างๆ ได้ เช่น ข้อความและรูปภาพ พัฒนาขึ้นโดยนักวิจัยจาก Google, Weizmann Institute of Science, Tel Aviv University และ Technion
Lumiere ใช้โมเดล AI ประเภท Diffusion Model ซึ่งแตกต่างจากโมเดล AI ประเภทอื่น เช่น Generative Adversarial Network (GAN) ที่ทำงานโดยการสร้างวิดีโอทีละเฟรม โดย Lumiere ใช้สถาปัตยกรรม Space-Time U-Net (STUNet) ซึ่งช่วยให้สามารถสร้างวิดีโอทั้งหมดได้ในคราวเดียว ส่งผลให้ Lumiere สามารถสร้างวิดีโอที่มีคุณภาพสูงกว่าและมีความสม่ำเสมอมากกว่าโมเดล AI ประเภทอื่นๆ
Lumiere สร้างวิดีโอจากข้อความหรือรูปภาพได้อย่างไร
Lumiere ใช้เทคนิค Diffusion Probabilistic Models (DPMs) ในการสร้างวิดีโอ DPMs ทำงานโดยเริ่มจากการสร้างวิดีโอที่ว่างเปล่า จากนั้นจะค่อยๆ เติมรายละเอียดเข้าไปในวิดีโอทีละน้อย โดยพิจารณาจากข้อความหรือรูปภาพต้นแบบ กระบวนการนี้เรียกว่า Diffusion Process ซึ่งคล้ายกับกระบวนการที่ทำให้ภาพนิ่งกลายเป็นภาพเคลื่อนไหว
Lumiere คืออะไร ? ประกอบด้วยอะไรบ้าง ? Lumiere ประกอบด้วยสองส่วนหลัก คือ โมเดลฐาน (Base Model) ที่ทำหน้าที่สร้างวิดีโอความละเอียดต่ำทั้งคลิป และโมเดลปรับความละเอียดเชิงพื้นที่ (Spatial Super-Resolution (SSR)) ที่ทำหน้าที่เพิ่มความละเอียดของวิดีโอที่ได้จากโมเดลฐานให้เป็นความละเอียดสูง
Space-Time U-Net (STUnet) คืออะไร
เพื่อให้การประมวลผลมีประสิทธิภาพ Space-Time U-Net จึงถูกนำมาใช้
Space-Time U-Net จะเข้ามาช่วยลดความละเอียดของวิดีโอทั้งเชิงพื้นที่และเวลา ก่อนนำไปประมวลผลต่อ ช่วยให้สามารถสร้างวิดีโอความละเอียดสูงจากข้อความได้อย่างมีประสิทธิภาพ
Lumiere รับการฝึกฝนจากวิดีโอ 30 ล้านคลิป พร้อมคำอธิบายข้อความ แต่ละวิดีโอมีความยาว 80 เฟรม และ 16 เฟรมต่อวินาที ( 5 วินาที ) โมเดลฐาน ( Base Model ) ได้รับการฝึกฝนด้วยวิดีโอที่มีที่ความละเอียด 128×128 ส่วนโมเดลปรับความละเอียด ( SSR ) จะให้ผลลัพธ์ที่ความละเอียด 1024 × 1024 เฟรมได้
นอกจากนี้ Lumiere ยังถูกทดสอบด้วยข้อความ 113 ข้อความที่บรรยายวัตถุ และสถานการณ์ที่หลากหลาย และประเมินแบบ Zero-shot เพื่อตรวจสอบความสามารถในการสร้างวิดีโอจากข้อความใหม่ๆ ที่ไม่เคยเห็นมาก่อน
Lumiere มีฟีเจอร์อะไรบ้าง
Lumiere เป็นโมเดล AI ที่มีทั้งหมด 5 ฟีเจอร์หลักๆ ดังนี้
Text-to-Video: สร้างวิดีโอจากข้อความ
ฟีเจอร์นี้คล้ายกับ AI สร้างภาพที่แปลงข้อความเป็นรูปภาพที่เราคุ้นเคยกันดี เพียงแค่ Lumiere จะสามารถสร้างผลลัพธ์ออกมาเป็นวิดีโอ โดยเราสามารถเขียนข้อความหรือ Prompt ที่ต้องการ แล้วให้ Lumiere สร้างวิดีโอที่ตรงกับข้อความให้
Image-to-Video: สร้างวิดีโอจากรูปภาพ
เมื่อเราอัปโหลดรูปภาพนิ่ง และพิมพ์ข้อความกำกับเข้าไป Lumiere จะทำให้รูปภาพนิ่งนั้น กลายเป็นภาพเคลื่อนไหวที่สอดคล้องกับข้อความ
Stylized Generation
Lumiere สามารถสร้างวิดีโอจากภาพและข้อความ โดยรูปแบบของวิดีโอนั้นเป็นแบบเดียวกันกับภาพนิ่งต้นแบบ
Video Stylization
Lumiere สามารถแก้ไขคลิปวิดีโอต้นแบบให้แตกต่างออกไปตามข้อความที่พิมพ์กำกับ
Cinemagraphs
Lumiere สามารถสร้างภาพเคลื่อนไหวเฉพาะจุดที่ระบุไว้บนภาพนิ่ง ซึ่งสำหรับฟีเจอร์นี้เราไม่จำเป็นต้องพิมพ์ข้อความกำกับลงไป เพียงแค่ตีกรอบรอบสิ่งที่เราต้องการเปลี่ยนให้เป็นส่วนที่เคลื่อนไหว
Video Inpainting
Lumiere สามารถเพิ่มวิดีโอในส่วนที่ขาดหายไปให้ได้
สรุป Lumiere คืออะไร
Lumiere เป็น AI เพื่อสร้างวิดีโอจากข้อความ (Text-to-Video) หรือรูปภาพ (Image-to-Video) ที่มีศักยภาพสูง และสามารถนำไปใช้เพื่อสร้างสรรค์วิดีโอในรูปแบบใหม่ๆ ได้อย่างหลากหลายในอนาคต แต่ ณ ตอนนี้ Lumiere ยังคงอยู่ในขั้นตอนการพัฒนา และยังไม่เปิดให้ใช้ทั่วไป โดยสามารถติดตามความคืบหน้าได้ผ่านบล็อกการวิจัยของ Google AI ซึ่งถ้าคุณสนใจอ่านงานวิจัยเพิ่มเติมสามารถอ่านได้ที่ arxiv.org
ซึ่งแม้ว่า Lumiere จะมีศักยภาพมหาศาล แต่สิ่งที่ต้องมีควบคู่กันก็คือข้อกังวลด้านจริยธรรมเกี่ยวกับการปลอมแปลงข้อมูลเชิงลึกและการบิดเบือนข้อมูล ซึ่งทำให้การพัฒนาต้องอยู่คู่กับความรับผิดชอบ และการใช้งานอย่างรอบคอบนั่นเอง
อ้างอิง arxiv.org lumiere-video.github.io
อ่านบทความและข่าวอื่นๆเพิ่มเติมได้ที่ it24hrs.com
Lumiere เอไอ Text to Video สร้างวิดีโอจากข้อความหรือรูปภาพ
อย่าลืมกดติดตามอัพเดตข่าวสาร ทิปเทคนิคดีๆกันนะคะ Please follow us
Youtube it24hrs
Twitter it24hrs
Tiktok it24hrs
facebook it24hrs