Papercup, startup Inggris yang menggunakan AI untuk terjemahan suara yang terdengar realistis, mengumpulkan dana £ 8 juta – TechCrunch

Papercup, startup Inggris yang menggunakan AI untuk terjemahan suara yang terdengar realistis, mengumpulkan dana £ 8 juta - TechCrunch


Papercup, startup AI yang berbasis di Inggris yang telah mengembangkan teknologi ucapan yang menerjemahkan suara orang ke dalam bahasa lain dan telah digunakan dalam industri video dan televisi, telah mengumpulkan dana sebesar £ 8 juta.

Putaran tersebut dipimpin oleh LocalGlobe dan Sands Capital Ventures, bersama Sky, GMG Ventures, Entrepreneur First (EF), dan BDMI. Papercup mengatakan ibu kota baru akan digunakan untuk berinvestasi lebih jauh ke dalam penelitian pembelajaran mesin dan untuk memperluas fungsi kontrol kualitas “manusia-dalam-lingkaran”, yang digunakan untuk meningkatkan dan menyesuaikan kualitas video yang diterjemahkan AI.

Sementara itu, investor malaikat Papercup yang ada termasuk William Tunstall-Pedoe, pendiri Evi Technologies – perusahaan yang diakuisisi oleh Amazon untuk membuat Alexa – dan Zoubin Ghahramani, mantan kepala ilmuwan dan Wakil Presiden AI di Uber dan sekarang menjadi bagian dari tim kepemimpinan Google Brain.

Didirikan pada tahun 2017 oleh Jesse Shemen dan Jiameng Gao saat menjalani program pembangun perusahaan EF, Papercup sedang membangun sistem berbasis AI dan pembelajaran mesin yang dikatakan mampu menerjemahkan suara dan ekspresi seseorang ke dalam bahasa lain. Tidak seperti kebanyakan text-to-speech, startup tersebut mengklaim terjemahan suara yang dihasilkan “tidak dapat dibedakan” dari ucapan manusia, dan, mungkin uniknya, mencoba mempertahankan karakteristik suara pembicara aslinya.

Awalnya, teknologi ini ditargetkan untuk produser video, termasuk sudah digunakan oleh Sky News, Discovery, dan bintang YouTube Yoga with Adriene, bersama dengan pembuat konten DIY. Ini dinaikkan sebagai alternatif yang jauh lebih terukur dan karena itu berbiaya lebih rendah untuk sulih suara manusia murni.

“Sebagian besar konten video dan audio di dunia terikat pada satu bahasa,” kata salah satu pendiri dan CEO Papercup, Shemen. “Itu termasuk miliaran jam video di YouTube, jutaan episode podcast, puluhan ribu kelas di Skillshare dan Coursera, dan ribuan jam konten di Netflix. Hampir setiap pemilik konten berusaha untuk go internasional, tetapi belum ada cara yang sederhana dan hemat biaya untuk menerjemahkan konten selain subtitling ”.

Untuk “studio berkantong tebal”, tentu saja ada opsi untuk menggunakan sulih suara kelas atas melalui studio sulih suara profesional dan aktor suara, tetapi ini terlalu mahal bagi sebagian besar pemilik konten. Dan bahkan studio kaya pun sering kali dibatasi dalam hal berapa banyak bahasa yang dapat mereka tampung.

“Hal ini membuat pemilik konten menengah dan panjang – secara harfiah 99% dari semua konten – terdampar dan tidak mampu menjangkau pemirsa internasional melampaui subtitling,” kata Shemen, yang, tentu saja, di sinilah Papercup berperan. “Tujuan kami adalah untuk menghasilkan suara terjemahan yang terdengar sedekat mungkin dengan pembicara aslinya”.

Untuk melakukan itu, dia mengatakan bahwa Papercup perlu menangani empat hal. Yang pertama adalah menciptakan suara yang “terdengar natural”, yaitu seberapa jelas dan mirip manusiawi suara sintetis tersebut. Tantangan kedua adalah mempertahankan emosi dan mondar-mandir untuk mencerminkan bagaimana pembicara asli mengekspresikan diri mereka (pikirkan: senang, sedih, marah, dll.). Ketiga, menangkap keunikan suara seseorang (misalnya Morgan Freeman, tetapi dalam bahasa Jerman). Terakhir, terjemahan yang dihasilkan membutuhkan penyelarasan audio yang benar ke video itu sendiri.

Menjelaskan Shemen: “Kami memulai dengan membuat suara kami sealami manusia dan terdengar sealami mungkin, di mana kami telah membuat lompatan yang cukup signifikan dalam hal kualitas dengan mengasah teknologi kami untuk tugas tersebut, dan hari ini kami memiliki salah satu yang terbaik Sistem sintesis bicara bahasa Spanyol dalam produksi.

“Kami sekarang berfokus pada penyimpanan dan transfer yang lebih baik dari emosi dan ekspresi asli dalam penutur asli lintas bahasa, dan sementara itu mencari tahu apa sebenarnya yang membuat sulih suara berkualitas”.

Tantangan berikutnya dan yang bisa dibilang paling sulit untuk dipecahkan adalah “adaptasi pembicara,” yang digambarkan sebagai menangkap keunikan suara seseorang. “Ini adalah lapisan adaptasi terakhir,” kata CEO Papercup, “tetapi ini juga salah satu terobosan pertama kami dalam penelitian kami. Meskipun kami memiliki model yang dapat mencapai ini, kami lebih memfokuskan waktu kami pada emosi dan ekspresi ”.

Itu tidak berarti Papercup sepenuhnya bertenaga mesin, bahkan jika itu mungkin suatu hari nanti. Perusahaan juga menggunakan proses “human-in-the-loop” untuk membuat koreksi dan penyesuaian pada trek audio yang diterjemahkan. Ini termasuk mengoreksi kesalahan pengenalan ucapan atau terjemahan mesin yang muncul, membuat penyesuaian pada pengaturan waktu audio, serta menegakkan emosi (misalnya senang, sedih) dan mengubah kecepatan suara yang dihasilkan.

Seberapa banyak human-in-the-loop dibutuhkan tergantung pada jenis konten dan prioritas pemilik konten, yaitu seberapa realistis atau sempurna video yang mereka butuhkan. Dengan kata lain, ini bukanlah permainan zero-sum, karena cukup bagus sudah lebih dari cukup untuk sebagian besar pemilik konten dalam skala besar.

Ditanya tentang awal mula teknologi, Shemen mengatakan Papercup dimulai dengan penelitian yang dilakukan oleh salah satu pendiri dan CTO Jiameng Gao “yang sangat pintar dan anehnya terobsesi dengan pemrosesan ucapan”. Gao menyelesaikan dua Magister di University of Cambridge (dalam pembelajaran mesin dan teknologi bahasa ucapan) dan menulis tesis tentang pemrosesan ucapan adaptif pembicara. Di Cambridge itulah dia menyadari bahwa sesuatu seperti Papercup itu mungkin.

“Saat kami mulai bekerja bersama di Entrepreneur First pada akhir 2017, kami membangun sistem prototipe awal kami yang menunjukkan bahwa teknologi ini bahkan mungkin dilakukan meski belum ada preseden untuk itu,” kata Shemen. “Berdasarkan percakapan awal, permintaan jelas sangat banyak untuk apa yang kami bangun – itu hanya fungsi dari benar-benar membangun sesuatu yang dapat digunakan dalam lingkungan produksi”.

Posted By : Togel Online

About: sevastopol