VALL-E คืออะไร โลกจะโกลาหนแค่ไหน ถ้าเราสามารถสร้างเสียงนายกหรือประธานาธิบดีให้พูดอะไรก็ได้ ด้วยเสียงต้นฉบับของเขาคนนั้นเพียง 3 วินาที
VALL-E คืออะไร VALL-E AI text to speech สร้างเสียงพูดใหม่ได้ จากเสียงต้นฉบับแค่ 3 วินาที
ก่อนหน้านี้มี DALL-E จิตรกร AI ที่สร้างภาพจากข้อความได้จนเป็นที่ฮือฮามาแล้ว แต่วันนี้มี AI อีกตัวหนึ่งที่ชื่อ VALL-E ถึงชื่อคล้าย ๆ กัน แต่ไม่เหมือนกัน แล้ว VALL-E คืออะไร DALL-E ถูกพัฒนาโดยบริษัท OpenAI ก่อนที่จะโดน Microsoft เข้ามาซื้อหุ้น ขณะที่ VALL-E พัฒนาโดย Microsoft แต่เอไอทั้งสองตัวนี้ถูกพัฒนาขึ้นมาจากการใช้โมเดล GPT-3 ของ OpenAI เหมือนกัน
VALL-E คืออะไร
VALL-E หรือ Neural Codec Language Model เป็น AI ประเภท Text-to-Speech หรือ AI ที่แปลงข้อความเป็นคำพูดได้ แต่ AI ที่แปลงคำ หรือข้อความเป็นคำพูดก็มีมานานแล้ว และมีให้บริการอยู่ใกล้ตัวเรามาก ๆ ด้วย เช่น Google Translate นอกจากนี้ยังมี Speak it อีกบริการหนึ่งของ Google ก็เป็น Text-to-Speech เหมือนกันและดีกว่า Google Translate ด้วย เพราะมีเสียงให้เลือกหลายเสียง ปรับความเร็ว หรือจะปรับเสียงสูง-ตํ่าก็ได้
ความพิเศษของ VALL-E
แต่บริการที่กล่าวมาข้างต้น สามารถเลือกได้แค่เสียงเท่าที่มีให้มาเท่านั้น อารมณ์ในการพูดจะเรียบๆ ไม่ได้ใส่อารมณ์มาก ซึ่งนี่แหละคือสิ่งที่ VALL-E ทำได้มากกว่า เพราะมันสามารถทำให้เสียงที่พูดออกมาเป็นเสียงใครก็ได้ แถมมีการลงน้ำหนักเสียง และใส่อารมณ์ได้ด้วย
ที่ VALL-E สามารถทำได้แบบนี้ก็เพราะถูกฝึกจากฐานข้อมูลเสียงที่รวบรวมโดย Meta ที่เรียกว่า LibriLight ซึ่งประกอบด้วยคำพูดภาษาอังกฤษมากถึง 60,000 ชั่วโมง จากผู้พูดมากกว่า 7,000 คน จึงทำให้ VALL-E เก่งมากๆ
โดยการทำงานของ VALL-E จะสามารถใช้เสียงต้นแบบความยาวแค่ 3 วินาที! เพื่อเอามาประมวลผล และเลียนแบบเสียงของต้นฉบับมาพูดอะไรก็ได้ตามข้อความที่เราป้อนเข้าไป นั่นแปลว่าเราจะทำให้เสียงของใคร มาพูดอะไรก็ได้ตามที่เรากำหนด!
นอกจากจะแปลงประโยคเป็นเสียงพูดได้แล้ว VALL-E ยังมีฟีเจอร์อื่นๆ อีก เพื่อให้เสียงพูดนั้นๆ คล้ายเสียงคนมากยิ่งขึ้น เช่น
- การลงนํ้าหนักที่แตกต่างกัน ถึงแม้ว่าจะใช้เสียงต้นแบบเดียวกัน
- การเก็บเสียงบรรยากาศรอบข้างเอาไว้ตามเสียงต้นแบบ ซึ่งสามารถเลือกที่จะใส่เสียงบรรยากาศหรือไม่ใส่ก็ได้
- ใส่อารมณ์เข้าไปในเสียงได้ เช่น โกรธ หรือง่วง
จาก VALL-E สู่ VALL-E X
แล้ว VALL-E ก็พัฒนาไปอีกขึ้นเป็น VALL-E X ที่สามารถสร้างเสียงข้ามภาษาได้แบบ Zero-shot หมายความว่า AI ตัวนี้สามารถสร้างเสียงข้ามภาษาโดยไม่จำเป็นต้องฝึกคำเหล่านั้นมาก่อน เช่นผู้ใช้สามารถสร้างเสียงคนจีนพูดภาษาอังกฤษ ได้จากเสียงต้นฉบับของคนจีนที่พูดภาษาจีน กับข้อความภาษาอังกฤษ
ซึ่งในขณะนี้ VALL-E X สามารถใช้สร้างได้อย่างคล่องแคล่วและเป็นธรรมชาติ 3 ภาษาได้แก่ อังกฤษ จีน และญี่ปุ่น และยังมีควมสามารถอื่นๆ อีกได้ สามารถตามไปอ่านได้ที่บทความ Vall-E X ได้เลย
ประโยชน์ และโทษของ VALL-E
VALL-E มีประโยชน์หลายอย่างเช่น สามารถเอามาสร้างเสียงพากย์ เสียงบรรยายให้มีความเป็นธรรมชาติ เหมือนกับมนุษย์จริงๆ หรือว่าช่วยผู้พิการทางการพูดให้สามารถสื่อสารได้ดียิ่ง แต่ในขณะเดียวกันก็มีความน่ากลัวที่เราจะต้องระมัดระวังกันด้วย เพราะ VALL-E สามารถสร้างเสียงของใครก็ได้ จากตัวอย่างเพียงแค่ 3 วินาที ดังนั้นการหลอกลวงก็จะเกิดขึ้นได้ง่ายๆ อย่างแน่นอน เมื่อตอนนี้มีเทคโนโลยีที่ทำได้แบบนี้ เวลาที่ได้ยินเสียงใครพูดอะไร จะได้ชั่งใจกันไว้นิดนึงว่าเอ๊ะ ใช่ตัวจริงเป็นคนพูดเองจริงๆหรือเปล่า
รายการ ไอที 24 ชั่วโมง ตอน “ VALL-E คืออะไร VALL-E AI text to speech สร้างเสียงพูดใหม่ได้ จากเสียงต้นฉบับแค่ 3 วินาที ”
www.it24hrs.com/2023/what-is-vall-e
ออกอากาศวันอาทิตย์ที่ 11 กุมภาพันธ์ 2566
สามารถติดตาม รายการไอที 24 ชั่วโมง ทางช่อง 9MCOT HD ทุกวันอาทิตย์ เวลา 13.00 น.
อ่านเพิ่มเติมเกี่ยวกับ VALL-E ได้ที่
อย่าลืมกดติดตามอัปเดตข่าวสาร เทคนิคดีๆกันนะคะ Please follow us
Youtube it24hrs
Twitter it24hrs
Tiktok it24hrs
facebook it24hrs
ติดต่อโฆษณา [email protected] โทร 080 2345023