Microsoft meluncurkan VALL-E, AI text-to-speech canggih yang dapat berbicara dengan suara siapa pun berdasarkan sampel 3 detik

Microsoft meluncurkan VALL-E, AI text-to-speech canggih yang dapat berbicara dengan suara siapa pun berdasarkan sampel 3 detik

Pidato komputer

Microsoft telah mengungkapkan rincian perampokan terbarunya ke dunia kecerdasan buatan. Ditagih sebagai “model bahasa codec saraf”, VALL-E adalah sistem text-to-speech (TTS) canggih yang digerakkan oleh AI yang menurut pengembang dapat dilatih untuk berbicara seperti siapa pun hanya berdasarkan sampel tiga detik dari suara mereka. .

Hasilnya adalah sistem TTS yang terdengar sangat alami yang mengambil pendekatan yang sama sekali berbeda dengan sistem yang ada. Mampu menyampaikan nada dan emosi lebih baik dari sebelumnya, VALL-E terdengar realistis seperti manusia, tetapi ada kekhawatiran bahwa ini dapat digunakan untuk audio deepfake.

Lihat juga:

AI telah dibuat dan dilatih menggunakan input audio selama 60.000 jam dari ribuan orang, termasuk buku audio domain publik. Bekerja dengan sampel singkat, VALL-E mampu meniru nada dan timbre suara dengan cara yang sebelumnya tidak mungkin dilakukan.

Menulis tentang VALL-E, tim peneliti Microsoft mengatakan:

Kami memperkenalkan pendekatan pemodelan bahasa untuk sintesis teks ke ucapan (TTS). Secara khusus, kami melatih model bahasa kodek saraf (disebut VALL-E) menggunakan kode diskrit yang berasal dari model kodek audio saraf siap pakai, dan menganggap TTS sebagai tugas pemodelan bahasa bersyarat daripada regresi sinyal berkelanjutan seperti pada pekerjaan sebelumnya. Selama tahap pra-pelatihan, kami meningkatkan data pelatihan TTS menjadi 60 ribu jam pidato bahasa Inggris yang ratusan kali lebih besar dari sistem yang ada. VALL-E memunculkan kemampuan pembelajaran dalam konteks dan dapat digunakan untuk mensintesis ucapan pribadi berkualitas tinggi hanya dengan rekaman terdaftar 3 detik dari speaker tak terlihat sebagai prompt akustik.

Tim melanjutkan dengan mengatakan: “Hasil eksperimen menunjukkan bahwa VALL-E secara signifikan mengungguli sistem TTS zero-shot yang canggih dalam hal kealamian ucapan dan kesamaan speaker. Selain itu, kami menemukan VALL-E dapat mempertahankan emosi pembicara dan lingkungan akustik dari prompt akustik dalam sintesis”.

Anda dapat mengetahui lebih lanjut di halaman demo VALL-E di mana terdapat banyak contoh bunyinya berdasarkan berbagai masukan pelatihan.

Kredit gambar: ra2studio / depositphotos

Author: Kenneth Henderson