Vall-E เอไอจากไมโครซอฟต์ที่สร้างเสียงมนุษย์จากเสียงต้นแบบเพียง 3 วินาทีเท่านั้น แถมได้อารมณ์ของเสียงยังคงเหมือนกันด้วย โดยเมื่อเรียนรู้จากเสียงต้นแบบเพียง 3 วินาทีแล้ว VALL-E สามารถสร้างเสียงใหม่ของบุคคลนั้นแล้วพูดอะไรก็ได้ โดยยังคงโทนน้ำเสียงของผู้พูดได้อย่างแม่นยำ
ผู้สร้างคาดการณ์ว่า VALL-E อาจใช้สำหรับแอป text to speech คุณภาพสูง การแก้ไขเสียงพูดที่สามารถแก้ไขและเปลี่ยนการบันทึกของบุคคลจากการถอดเสียงข้อความ Microsoft เรียก Vall-E คือ neural codec language model, ได้รับการฝึกอบรมเกี่ยวกับการพูดมามากถึง 6 หมื่นชั่วโมง โดยส่วนใหญ่ได้เสียงเหมือนมนุษย์พูดจริงๆ อย่างเป็นธรรมชาติ โ และใช้ประสบการณ์ที่ได้จากการฝึกอบรมเพื่อ AI สังเคราะห์ว่า เสียงจะออกมาเป็นอย่างไรหากกำลังพูดในวลีที่แตกต่างกัน
ปัจจุบันนี้มหาวิทยาลัย Cornell ได้ทดลองใช้ VALL-E แล้ว และอัปโหลดตัวอย่างเสียงที่ได้แล้วออกมาให้ฟังด้วย สามารถทดลองฟังเสียง AI จาก VALL-E ได้ที่ https://valle-demo.github.io อย่างไรก็ตามก็ยังไม่เปิดให้ผู้ใช้ทั่วไปได้ทดลองใช้ VALL-E
นับว่าเป็นการพัฒนาของ AI ที่ก้าวหน้าไปอีกขั้น แต่หากเทคโนโลยีนี้ตกอยู่ในผู้ไม่หวังดี ก็อาจส่งผลกระทบในการใช้เทคโนโลยีสังเคราะห์เสียง ไปใช้ในทางที่ไม่ดี เช่น แก็งคอลเซ็นเตอร์ ปลอมเป็นเสียงนักการเมือง ปลอมเสียงดาราที่มีชื่อเสียง เป็นต้น ดังนั้นจริยธรรมของ AI ก็เป็นประเด็นที่สำคัญเช่นกัน
อ้างอิง arstechnica cover iT24Hrs
อ่านบทความและข่าวอื่นๆเพิ่มเติมได้ที่ it24hrs.com
อย่าลืมกดติดตามอัพเดตข่าวสาร ทิปเทคนิคดีๆกันนะคะ Please follow us
Youtube it24hrs
Twitter it24hrs
Tiktok it24hrs
facebook it24hrs