Ticker

6/random/ticker-posts

Memperkenalkan Voicebox: Model AI generatif pertama untuk ucapan yang dapat menggeneralisasi di berbagai tugas dengan performa terbaik

Peneliti Meta AI telah mencapai terobosan dalam AI generatif untuk ucapan. Kami telah mengembangkan Voicebox, model pertama yang dapat menggeneralisasi ke tugas-tugas pembuatan ucapan yang tidak secara khusus dilatih untuk dicapai dengan performa terbaik.

BACAAN YANG DISARANKAN

Seperti sistem generatif untuk gambar dan teks, Voicebox membuat output dalam berbagai gaya yang sangat beragam, dan dapat membuat output dari awal serta memodifikasi sampel yang diberikan. Namun alih-alih membuat gambar atau bagian teks, Voicebox menghasilkan klip audio berkualitas tinggi. Model ini dapat mensintesis ucapan dalam enam bahasa, serta melakukan penghapusan noise, pengeditan konten, konversi gaya, dan pembuatan sampel yang beragam.

Sebelum Voicebox, AI generatif untuk ucapan memerlukan pelatihan khusus untuk setiap tugas menggunakan data pelatihan yang disiapkan dengan hati-hati. Voicebox menggunakan pendekatan baru untuk belajar hanya dari audio mentah dan transkrip yang menyertainya. Berbeda dengan model autoregresif untuk pembuatan audio, Voicebox dapat memodifikasi bagian mana pun dari sampel yang diberikan, bukan hanya akhir dari klip audio yang diberikan.

Voicebox didasarkan pada metode yang disebut Flow Matching, yang telah terbukti meningkatkan model difusi. Voicebox mengungguli model bahasa Inggris terbaik saat ini VALL-E pada teks-ke-ucapan zero-shot dalam hal keterbacaan (5,9 persen vs 1,9 persen tingkat kesalahan kata) dan kemiripan audio (0,580 vs 0,681), sambil menjadi 20 kali lebih cepat. Untuk transfer gaya lintas bahasa, Voicebox mengungguli YourTTS untuk mengurangi rata-rata tingkat kesalahan kata dari 10,9 persen menjadi 5,2 persen, dan meningkatkan kemiripan audio dari 0,335 menjadi 0,481.

Voicebox Performance Chart

Voicebox mencapai hasil terbaik baru, mengungguli Vall-E dan YourTTS pada tingkat kesalahan kata.

Audio Style Similarity Metrics

Voicebox juga mencapai hasil terbaik baru pada metrik kemiripan gaya audio pada benchmark bahasa Inggris dan multibahasa.

Ada banyak kasus penggunaan yang menarik untuk model ucapan generatif, tetapi karena potensi risiko penyalahgunaan, kami tidak membuat model atau kode Voicebox tersedia untuk umum saat ini. Meskipun kami percaya penting untuk terbuka dengan komunitas AI dan berbagi penelitian kami untuk memajukan teknologi AI, juga perlu untuk mencapai keseimbangan yang tepat antara keterbukaan dengan tanggung jawab. Dengan pertimbangan ini, hari ini kami membagikan sampel audio dan makalah penelitian yang merinci pendekatan dan hasil yang telah kami capai. Dalam makalah, kami juga merinci bagaimana kami membangun classifier yang sangat efektif yang dapat membedakan antara ucapan autentik dan audio yang dihasilkan dengan Voicebox.

Pendekatan baru untuk pembuatan ucapan

Salah satu batasan utama dari sintesis ucapan yang ada adalah bahwa mereka hanya dapat dilatih pada data yang telah disiapkan khusus untuk tugas itu. Input-input ini – yang dikenal sebagai data monotonik dan bersih – sulit untuk diproduksi, sehingga hanya ada dalam jumlah terbatas, dan menghasilkan output yang terdengar monoton.

Kami membangun Voicebox berdasarkan model Flow Matching, yang merupakan kemajuan terbaru Meta pada model generatif non-autoregresif yang dapat mempelajari pemetaan yang sangat non-deterministik antara teks dan ucapan. Pemetaan non-deterministik berguna karena memungkinkan Voicebox untuk belajar dari data ucapan yang bervariasi tanpa variasi tersebut harus diberi label dengan hati-hati. Ini berarti Voicebox dapat dilatih pada data yang lebih beragam dan skala data yang jauh lebih besar.

Kami melatih Voicebox dengan lebih dari 50.000 jam ucapan yang direkam dan transkrip dari buku audio domain publik dalam bahasa Inggris, Prancis, Spanyol, Jerman, Polandia, dan Portugis. Voicebox dilatih untuk memprediksi segmen ucapan ketika diberikan ucapan di sekitarnya dan transkrip segmen. Setelah belajar untuk mengisi ucapan dari konteks, model kemudian dapat menerapkan ini di berbagai tugas pembuatan ucapan, termasuk menghasilkan bagian di tengah rekaman audio tanpa harus membuat ulang seluruh input.

Serbaguna ini memungkinkan Voicebox untuk berkinerja baik di berbagai tugas, termasuk:

Sintesis teks-ke-ucapan dalam konteks:

Menggunakan sampel audio input hanya dua detik, Voicebox dapat mencocokkan gaya audio sampel dan menggunakannya untuk pembuatan teks-ke-ucapan. Proyek masa depan dapat membangun kemampuan ini dengan membawa ucapan kepada orang-orang yang tidak dapat berbicara, atau dengan memungkinkan orang untuk menyesuaikan suara yang digunakan oleh karakter nonplayer dan asisten virtual.

Transfer gaya lintas bahasa:

Diberikan sampel ucapan dan bagian teks dalam bahasa Inggris, Prancis, Jerman, Spanyol, Polandia, atau Portugis, Voicebox dapat menghasilkan pembacaan teks dalam bahasa tersebut. Kemampuan ini menarik karena di masa depan dapat digunakan untuk membantu orang berkomunikasi dengan cara yang alami dan autentik — bahkan jika mereka tidak berbicara dalam bahasa yang sama.

Denosing dan pengeditan ucapan:

Pembelajaran dalam konteks Voicebox membuatnya baik dalam menghasilkan ucapan untuk mengedit segmen dalam rekaman audio dengan mulus. Ini dapat mensintesis ulang bagian ucapan yang rusak oleh noise berdurasi pendek, atau mengganti kata-kata yang salah diucapkan tanpa harus merekam ulang seluruh ucapan. Seseorang dapat mengidentifikasi segmen mentah mana dari ucapan yang rusak oleh noise (seperti anjing menggonggong), memotongnya, dan menginstruksikan model untuk regenerasi segmen tersebut. Kemampuan ini suatu hari dapat digunakan untuk membuat pembersihan dan pengeditan audio semudah alat pengeditan gambar populer yang telah membuat penyesuaian foto.

Pengambilan sampel ucapan yang beragam:

Setelah belajar dari data liar yang beragam, Voicebox dapat menghasilkan ucapan yang lebih mewakili bagaimana orang berbicara di dunia nyata dan dalam enam bahasa yang tercantum di atas. Di masa depan, kemampuan ini dapat digunakan untuk menghasilkan data sintetis untuk membantu melatih model asisten ucapan dengan lebih baik. Hasil kami menunjukkan bahwa model pengenalan ucapan yang dilatih pada ucapan sintetis yang dihasilkan Voicebox berkinerja hampir sebaik model yang dilatih pada ucapan nyata, dengan degradasi tingkat kesalahan 1 persen dibandingkan dengan degradasi 45 hingga 70 persen dengan ucapan sintetis dari model teks-ke-ucapan sebelumnya.

Berbagi penelitian AI generatif secara bertanggung jawab

Sebagai model serbaguna dan efisien pertama yang berhasil melakukan generalisasi tugas, kami percaya Voicebox dapat memulai era baru AI generatif untuk ucapan. Seperti inovasi AI baru yang kuat lainnya, kami mengakui bahwa teknologi ini membawa potensi penyalahgunaan dan kerugian yang tidak diinginkan. Dalam makalah kami, kami merinci bagaimana kami membangun classifier yang sangat efektif yang dapat membedakan antara ucapan autentik dan audio yang dihasilkan dengan Voicebox untuk mengurangi kemungkinan risiko masa depan ini. Kami percaya penting untuk terbuka tentang pekerjaan kami sehingga komunitas penelitian dapat membangun di atasnya dan melanjutkan percakapan penting yang kami lakukan tentang cara membangun AI secara bertanggung jawab, oleh karena itu kami membagikan pendekatan dan hasil kami dalam makalah penelitian.

Voicebox mewakili langkah penting ke depan dalam penelitian AI generatif. Model AI generatif skalabel lainnya dengan kemampuan generalisasi tugas telah memicu kegembiraan tentang aplikasi potensial di berbagai tugas dalam hal pembuatan teks, gambar, dan video. Kami berharap dapat melihat dampak serupa untuk ucapan di masa depan. Kami menantikan untuk melanjutkan eksplorasi kami di domain audio dan melihat bagaimana peneliti lain membangun di atas pekerjaan kami.

Posting blog ini dimungkinkan oleh karya Matt Le, Apoorv Vyas, Bowen Shi, Brian Karrer, Leda Sari, Rashel Moritz, Mary Williamson, Vimal Manohar, Yossi Adi, Jay Mahadeokar, dan Wei-Ning Hsu.

Post a Comment

0 Comments