Lumiere คืออะไร เอไอ Text-to-Video และ Image-to-Video ที่สร้างวิดีโอจากข้อความหรือรูปภาพ

Lumiere คืออะไร เอไอของ Google นี้ถูกพัฒนาขึ้นเพื่อสร้างวิดีโอจากข้อความ (Text-to-Video) หรือรูปภาพ (Image-to-Video) ที่สามารถสร้างคลิปได้ลื่นไหลและสมจริงอย่างไม่น่าเชื่อ

Introducing Lumiere: A space-time diffusion model for video generation

Lumiere คืออะไร

Lumiere เป็นโมเดล AI สร้างวิดีโอจากอินพุตประเภทต่างๆ ได้ เช่น ข้อความและรูปภาพ พัฒนาขึ้นโดยนักวิจัยจาก Google, Weizmann Institute of Science, Tel Aviv University และ Technion

Lumiere ใช้โมเดล AI ประเภท Diffusion Model ซึ่งแตกต่างจากโมเดล AI ประเภทอื่น เช่น Generative Adversarial Network (GAN) ที่ทำงานโดยการสร้างวิดีโอทีละเฟรม โดย Lumiere ใช้สถาปัตยกรรม Space-Time U-Net (STUNet) ซึ่งช่วยให้สามารถสร้างวิดีโอทั้งหมดได้ในคราวเดียว ส่งผลให้ Lumiere สามารถสร้างวิดีโอที่มีคุณภาพสูงกว่าและมีความสม่ำเสมอมากกว่าโมเดล AI ประเภทอื่นๆ

Text-to-Video — ที่มาของภาพ Lumiere : Google Research

Lumiere สร้างวิดีโอจากข้อความหรือรูปภาพได้อย่างไร

Lumiere ใช้เทคนิค Diffusion Probabilistic Models (DPMs) ในการสร้างวิดีโอ DPMs ทำงานโดยเริ่มจากการสร้างวิดีโอที่ว่างเปล่า จากนั้นจะค่อยๆ เติมรายละเอียดเข้าไปในวิดีโอทีละน้อย โดยพิจารณาจากข้อความหรือรูปภาพต้นแบบ กระบวนการนี้เรียกว่า Diffusion Process ซึ่งคล้ายกับกระบวนการที่ทำให้ภาพนิ่งกลายเป็นภาพเคลื่อนไหว

Lumiere คืออะไร ? ประกอบด้วยอะไรบ้าง ? Lumiere ประกอบด้วยสองส่วนหลัก คือ โมเดลฐาน (Base Model) ที่ทำหน้าที่สร้างวิดีโอความละเอียดต่ำทั้งคลิป และโมเดลปรับความละเอียดเชิงพื้นที่ (Spatial Super-Resolution (SSR)) ที่ทำหน้าที่เพิ่มความละเอียดของวิดีโอที่ได้จากโมเดลฐานให้เป็นความละเอียดสูง

Space-Time U-Net (STUnet) คืออะไร

เพื่อให้การประมวลผลมีประสิทธิภาพ Space-Time U-Net จึงถูกนำมาใช้

Space-Time U-Net จะเข้ามาช่วยลดความละเอียดของวิดีโอทั้งเชิงพื้นที่และเวลา ก่อนนำไปประมวลผลต่อ ช่วยให้สามารถสร้างวิดีโอความละเอียดสูงจากข้อความได้อย่างมีประสิทธิภาพ

Lumiere รับการฝึกฝนจากวิดีโอ 30 ล้านคลิป พร้อมคำอธิบายข้อความ แต่ละวิดีโอมีความยาว 80 เฟรม และ 16 เฟรมต่อวินาที ( 5 วินาที ) โมเดลฐาน ( Base Model ) ได้รับการฝึกฝนด้วยวิดีโอที่มีที่ความละเอียด 128×128 ส่วนโมเดลปรับความละเอียด ( SSR ) จะให้ผลลัพธ์ที่ความละเอียด 1024 × 1024 เฟรมได้

นอกจากนี้ Lumiere ยังถูกทดสอบด้วยข้อความ 113 ข้อความที่บรรยายวัตถุ และสถานการณ์ที่หลากหลาย และประเมินแบบ Zero-shot เพื่อตรวจสอบความสามารถในการสร้างวิดีโอจากข้อความใหม่ๆ ที่ไม่เคยเห็นมาก่อน

Lumiere มีฟีเจอร์อะไรบ้าง

Lumiere เป็นโมเดล AI ที่มีทั้งหมด 5 ฟีเจอร์หลักๆ ดังนี้

Text-to-Video: สร้างวิดีโอจากข้อความ

ฟีเจอร์นี้คล้ายกับ AI สร้างภาพที่แปลงข้อความเป็นรูปภาพที่เราคุ้นเคยกันดี เพียงแค่ Lumiere จะสามารถสร้างผลลัพธ์ออกมาเป็นวิดีโอ โดยเราสามารถเขียนข้อความหรือ Prompt ที่ต้องการ แล้วให้ Lumiere สร้างวิดีโอที่ตรงกับข้อความให้

Image-to-Video: สร้างวิดีโอจากรูปภาพ

เมื่อเราอัปโหลดรูปภาพนิ่ง และพิมพ์ข้อความกำกับเข้าไป Lumiere จะทำให้รูปภาพนิ่งนั้น กลายเป็นภาพเคลื่อนไหวที่สอดคล้องกับข้อความ

Lumiere คืออะไร — ที่มาของภาพ Image to Video : Google Research

Stylized Generation

Lumiere สามารถสร้างวิดีโอจากภาพและข้อความ โดยรูปแบบของวิดีโอนั้นเป็นแบบเดียวกันกับภาพนิ่งต้นแบบ

Video Stylization

Lumiere สามารถแก้ไขคลิปวิดีโอต้นแบบให้แตกต่างออกไปตามข้อความที่พิมพ์กำกับ

Cinemagraphs

Lumiere สามารถสร้างภาพเคลื่อนไหวเฉพาะจุดที่ระบุไว้บนภาพนิ่ง ซึ่งสำหรับฟีเจอร์นี้เราไม่จำเป็นต้องพิมพ์ข้อความกำกับลงไป เพียงแค่ตีกรอบรอบสิ่งที่เราต้องการเปลี่ยนให้เป็นส่วนที่เคลื่อนไหว

Video Inpainting

Lumiere สามารถเพิ่มวิดีโอในส่วนที่ขาดหายไปให้ได้

สรุป Lumiere คืออะไร

Lumiere เป็น AI เพื่อสร้างวิดีโอจากข้อความ (Text-to-Video) หรือรูปภาพ (Image-to-Video) ที่มีศักยภาพสูง และสามารถนำไปใช้เพื่อสร้างสรรค์วิดีโอในรูปแบบใหม่ๆ ได้อย่างหลากหลายในอนาคต แต่ ณ ตอนนี้ Lumiere ยังคงอยู่ในขั้นตอนการพัฒนา และยังไม่เปิดให้ใช้ทั่วไป โดยสามารถติดตามความคืบหน้าได้ผ่านบล็อกการวิจัยของ Google AI ซึ่งถ้าคุณสนใจอ่านงานวิจัยเพิ่มเติมสามารถอ่านได้ที่ arxiv.org

ซึ่งแม้ว่า Lumiere จะมีศักยภาพมหาศาล แต่สิ่งที่ต้องมีควบคู่กันก็คือข้อกังวลด้านจริยธรรมเกี่ยวกับการปลอมแปลงข้อมูลเชิงลึกและการบิดเบือนข้อมูล ซึ่งทำให้การพัฒนาต้องอยู่คู่กับความรับผิดชอบ และการใช้งานอย่างรอบคอบนั่นเอง

อ้างอิง arxiv.org lumiere-video.github.io

อ่านบทความและข่าวอื่นๆเพิ่มเติมได้ที่ it24hrs.com

Lumiere เอไอ Text to Video สร้างวิดีโอจากข้อความหรือรูปภาพ

อย่าลืมกดติดตามอัพเดตข่าวสาร ทิปเทคนิคดีๆกันนะคะ Please follow us

Youtube it24hrs
Twitter it24hrs
Tiktok it24hrs
facebook it24hrs

Lumiere คืออะไร เอไอ Text-to-Video และ Image-to-Video ที่สร้างวิดีโอจากข้อความหรือรูปภาพ

Lumiere คืออะไร