VALL-E X คืออะไร? VALL-E X เป็นโมเดล AI ที่สร้างขอบเขตใหม่ของการสังเคราะห์เสียงพูด ซึ่งถูกพัฒนาต่อยอดมาจาก VALL-E เอไอใหม่ตัวนี้มีความสามารถหลักคือ Text-to-Speech หรือการแปลงข้อความเป็นเสียง และที่พิเศษก็คือสามารถทำได้แบบข้ามภาษา และสามารถโคลนเสียงแบบ Zero-shot ได้ แล้วคืออะไรกันล่ะ?
VALL-E X คืออะไร ?
หากย้อนกลับไปเมื่อเดือนมกราคม 2023 VALL-E เอไอประเภท Neural Codec Language Model ที่แปลงข้อความเป็นคำพูด หรือ Text-to-Speech ถูกประกาศสู่สาธารณะ ซึ่ง VALL-E นี้ ถูกพัฒนาโดย Microsoft โดยใช้ GPT-3 ทำงานอยู่เบื้องหลัง มันทำให้โลกตกละลึงกับ AI ที่สามารถโคลนเสียงของใครก็ได้จากเสียงต้นฉบับเพียงแค่ 3 วินาที แต่ในเวลานั้น VALL-E ก็ไม่ได้ถูกปล่อยออกมาให้สาธารณะได้ทดลองใช้ หากต้องการรู้จัก VALL-E มากกว่านี้สามารถดูได้ที่นี่เลย
VALL-E X เก่งกว่า VALL-E ตรงไหน
จนเมื่อไม่นานมานี้ VALL-E X เอไอที่ถูกต่อยอดมาจาก VALL-E ก็ได้ปล่อยออกมาสู่สาธารณะในรูปแบบของ Open source แล้ว VALL-E X คืออะไร? ความสามารถหนึ่งที่ VALL-E X โดดเด่นกว่า VALL-E มาก ๆ ก็คือความสามารถในการสร้างเสียงพูดข้ามภาษาแบบ Zero-shot หมายความว่า เอไอตัวนี้สามารถสร้างเสียงข้ามภาษาโดยไม่จำเป็นต้องฝึกคำเหล่านั้นมาก่อน เช่นผู้ใช้สามารถสร้างเสียงคนจีนพูดภาษาอังกฤษ ได้จากเสียงต้นฉบับของคนจีนที่พูดภาษาจีน กับข้อความภาษาอังกฤษ
ความสามารถของ VALL-E (X)
VALL-E X มีฟังก์ชันการทำงานที่ก้าวล้ำหลายประการ:
- เชี่ยวชาญหลายภาษา : VALL-E (X) โมเดลใหม่นี้รองรับการสังเคราะห์คำพูดได้อย่างคล่องแคล่วและเป็นธรรมชาติสำหรับ 3 ภาษาได้แก่ อังกฤษ จีน และญี่ปุ่น
- การสร้างเสียงแบบ Zero-shot : จากเสียงตัวอย่างสั้นๆ เพียง 3 ถึง 10 วินาที ถึงแม้ว่าไม่เคยนำเสียงนี้ไปเทรนใน VALL-E (X) มาก่อน แต่มันก็สามารถสร้างคำพูดที่มีคุณภาพสูง มีลักษณะเสียง และมีเอกลักษณ์ของเสียงต้นฉบับนั้นได้
- การสังเคราะห์คำพูดข้ามภาษา : แบบจำลองนี้สามารถสร้างคำพูดในภาษาอื่นที่ยังคงมีความคล่องแคล่ว และสำเนียงเป็นธรรมชาติ
- การควบคุมอารมณ์คำพูด : VALL-E (X) สามารถกำหนดอารมณ์ของเสียงพูดนั้นได้
- การควบคุมสำเนียง : ฟีเจอร์นี้จะซึ่งช่วยให้ผู้ใช้สามารถสร้างเสียง โดยมีสำเนียงที่หลากหลาย เช่น การพูดภาษาจีนด้วยสำเนียงแบบอังกฤษ
- การปรับสภาพแวดล้อมทางเสียง: VALL-E X ช่วยให้ผู้ใช้สามารถสร้างเสียงในสภาพแวดล้อมที่หลากหลาย ตามเสียงต้นฉบับเพื่อเสียงที่เป็นธรรมชาติมากยิ่งขึ้น
นอกจากการการโคลนเสียงโดยรักษาเอกลักษณ์ของเสียงต้นฉบับเอาไว้แล้ว VALL-E X ยังสามารถใช้เพื่อการเรียนรู้ทางการศึกษา ความบันเทิง วารสารศาสตร์ หรือเนื้อหาที่เขียนขึ้นเอง นอกจากนี้ระบบยังสามารถตอบสนองด้วยเสียงแบบโต้ตอบ การแปล แชทบอท และอื่นๆ ได้อีกด้วย
การปล่อย VALL-E X ออกมาเป็น Open Source นี้นับว่าเป็นการทำให้ AI ก้าวกระโดดไปอย่างรวดเร็วอย่างแน่นอน เพราะหลังจากนี้ใครๆก็สามารถนำโค้ดนี้ไปพัฒนาต่อยอดได้ แต่ในทางกลับกันเรื่องจริยธรรม ก็น่าเป็นห่วงเพราะเทคโนโลยีนี้สามารถสร้างความเสียหายให้กับบุคคลได้มากเช่นเดียวกัน
อ้างอิง microsoft.com
ชมรายการ ไอที 24 ชั่วโมง ตอน “ VALL-E X คืออะไร VALL-E (X) AI Text-to-Speech โคลนเสียงแบบข้ามภาษาได้ ” ได้ที่รายการย้อนหลังตอนนี้เลย
https://www.it24hrs.com/2024/what-is-vall-e-x-text-to-speech-ai/
ออกอากาศวันเสาร์ที่ 3 มีนาคม 2567
รายการไอที 24 ชั่วโมง ทางช่อง 9MCOT HD ทุกวันอาทิตย์ เวลา 13.00 น.
ยังมีบทความที่น่าสนใจ
VALL-E คืออะไร VALL-E AI text to speech สร้างเสียงพูดใหม่ได้ จากเสียงต้นฉบับแค่ 3 วินาที
AI Text-to-Video สะเทือนอุตสาหกรรม Soft Power จะเหลือที่ไหนให้มนุษย์ยืน!
อย่าลืมกดติดตามอัปเดตข่าวสาร เทคนิคดีๆกันนะคะ Please follow us
Youtube it24hrs
Twitter it24hrs
Tiktok it24hrs
facebook it24hrs
ติดต่อโฆษณา [email protected] โทร 0802345023