Vall-E เอไอจากไมโครซอฟต์ที่สร้างเสียงมนุษย์จากเสียงต้นแบบเพียง 3 วินาทีได้! แถมยังคงอารมณ์ของเสียงให้เหมือนกันได้ด้วย

Vall-E เอไอจากไมโครซอฟต์ที่สร้างเสียงมนุษย์จากเสียงต้นแบบเพียง 3 วินาทีเท่านั้น แถมได้อารมณ์ของเสียงยังคงเหมือนกันด้วย โดยเมื่อเรียนรู้จากเสียงต้นแบบเพียง 3 วินาทีแล้ว VALL-E สามารถสร้างเสียงใหม่ของบุคคลนั้นแล้วพูดอะไรก็ได้ โดยยังคงโทนน้ำเสียงของผู้พูดได้อย่างแม่นยำ

ผู้สร้างคาดการณ์ว่า VALL-E อาจใช้สำหรับแอป text to speech คุณภาพสูง การแก้ไขเสียงพูดที่สามารถแก้ไขและเปลี่ยนการบันทึกของบุคคลจากการถอดเสียงข้อความ Microsoft เรียก Vall-E คือ neural codec language model, ได้รับการฝึกอบรมเกี่ยวกับการพูดมามากถึง 6 หมื่นชั่วโมง โดยส่วนใหญ่ได้เสียงเหมือนมนุษย์พูดจริงๆ อย่างเป็นธรรมชาติ โ และใช้ประสบการณ์ที่ได้จากการฝึกอบรมเพื่อ AI สังเคราะห์ว่า เสียงจะออกมาเป็นอย่างไรหากกำลังพูดในวลีที่แตกต่างกัน

ปัจจุบันนี้มหาวิทยาลัย Cornell ได้ทดลองใช้ VALL-E แล้ว และอัปโหลดตัวอย่างเสียงที่ได้แล้วออกมาให้ฟังด้วย สามารถทดลองฟังเสียง AI จาก VALL-E ได้ที่ https://valle-demo.github.io อย่างไรก็ตามก็ยังไม่เปิดให้ผู้ใช้ทั่วไปได้ทดลองใช้ VALL-E

นับว่าเป็นการพัฒนาของ AI ที่ก้าวหน้าไปอีกขั้น แต่หากเทคโนโลยีนี้ตกอยู่ในผู้ไม่หวังดี ก็อาจส่งผลกระทบในการใช้เทคโนโลยีสังเคราะห์เสียง ไปใช้ในทางที่ไม่ดี เช่น แก็งคอลเซ็นเตอร์ ปลอมเป็นเสียงนักการเมือง ปลอมเสียงดาราที่มีชื่อเสียง เป็นต้น ดังนั้นจริยธรรมของ AI ก็เป็นประเด็นที่สำคัญเช่นกัน

อ้างอิง arstechnica cover iT24Hrs

อ่านบทความและข่าวอื่นๆเพิ่มเติมได้ที่ it24hrs.com

Vall-E เอไอจากไมโครซอฟต์ที่สร้างเสียงมนุษย์จากเสียงต้นแบบเพียง 3 วินาทีได้! แถมยังคงอารมณ์ของเสียงให้เหมือนกันได้ด้วย

อย่าลืมกดติดตามอัพเดตข่าวสาร ทิปเทคนิคดีๆกันนะคะ Please follow us

Youtube it24hrs
Twitter it24hrs
Tiktok it24hrs
facebook it24hrs

อ่านเพิ่มเติม

รมว.อว. เปิดค่าย Super AI Engineer Season 6 Level 2 สร้างกำลังคน AI แบบเข้มข้น สู่ AI Economy

Google DeepMind เปิดแผนคุมเข้ม ป้องกัน AI Agents ทำงานนอกคำสั่ง

รัฐบาลนอร์เวย์สั่งแบน AI โรงเรียนประถม หวังดึงเด็กให้มีทักษะพื้นฐาน

วิธีประหยัดอินเทอร์เน็ตด้วยการตั้งค่า Delivery Optimization

อ่านเพิ่มเติม

เว็บแนะนำ

Footer