WaveOne bertujuan untuk membuat video AI-native dan membalikkan streaming – TechCrunch

WaveOne bertujuan untuk membuat video AI-native dan membalikkan streaming - TechCrunch


Video telah bekerja dengan cara yang sama untuk waktu yang sangat lama. Dan karena kualitasnya yang unik, video sebagian besar kebal terhadap industri peningkatan ledakan pembelajaran mesin setelah industri. WaveOne berharap untuk mengubahnya dengan mengambil paradigma codec video yang telah berusia puluhan tahun dan menjadikannya bertenaga AI – sambil menghindari jebakan yang akan menjadi pembuat revolusi codec dan startup “bertenaga AI” yang sering terjadi.

Startup tersebut hingga saat ini membatasi dirinya untuk menunjukkan hasilnya dalam makalah dan presentasi, tetapi dengan putaran seed $ 6,5 juta yang baru saja dikumpulkan, mereka siap untuk beralih ke pengujian dan menerapkan produk aktual mereka. Ini bukan ceruk: kompresi video mungkin tampak sedikit mengganggu bagi sebagian orang, tetapi tidak diragukan lagi ini menjadi salah satu proses terpenting dari internet modern.

Inilah cara kerjanya cukup banyak sejak masa lalu ketika video digital pertama kali menjadi mungkin. Pengembang membuat algoritme standar untuk mengompresi dan mendekompresi video, sebuah codec, yang dapat dengan mudah didistribusikan dan dijalankan pada platform komputasi umum. Ini adalah hal-hal seperti MPEG-2, H.264, dan semacamnya. Kerja keras untuk mengompresi video dapat dilakukan oleh penyedia konten dan server, sedangkan pekerjaan dekompresi yang relatif lebih ringan dilakukan pada mesin pengguna akhir.

Pendekatan ini cukup efektif, dan peningkatan pada codec (yang memungkinkan kompresi lebih efisien) telah menghasilkan kemungkinan situs seperti YouTube. Jika video 10 kali lebih besar, YouTube tidak akan pernah bisa diluncurkan ketika itu terjadi. Perubahan besar lainnya mulai bergantung pada akselerasi perangkat keras dari codec tersebut – komputer atau GPU Anda mungkin memiliki chip aktual di dalamnya dengan codec yang dipanggang, siap untuk melakukan tugas dekompresi dengan kecepatan yang jauh lebih tinggi daripada CPU serba guna biasa dalam telepon. Hanya satu masalah: ketika Anda mendapatkan codec baru, Anda memerlukan perangkat keras baru.

Tetapi pertimbangkan ini: banyak ponsel baru dikirimkan dengan chip yang dirancang untuk menjalankan model pembelajaran mesin, yang seperti codec dapat dipercepat, tetapi tidak seperti mereka, perangkat kerasnya tidak dipesan lebih dahulu untuk model tersebut. Jadi mengapa kita tidak menggunakan chip yang dioptimalkan untuk ML ini untuk video? Nah, itulah yang WaveOne bermaksud untuk melakukannya.

Saya harus mengatakan bahwa saya awalnya berbicara dengan salah satu pendiri WaveOne, CEO Lubomir Bourdev dan CTO Oren Rippel, dari posisi skeptisisme yang signifikan meskipun latar belakang mereka mengesankan. Kami telah melihat perusahaan codec datang dan pergi, tetapi industri teknologi telah menggabungkan beberapa format dan standar yang direvisi dengan cara yang sangat lambat. H.265, misalnya, diperkenalkan pada 2013, tetapi beberapa tahun kemudian pendahulunya, H.264, baru mulai populer di mana-mana. Ini lebih seperti sistem 3G, 4G, 5G daripada versi 7, versi 7.1, dll. Jadi pilihan yang lebih kecil, bahkan yang lebih unggul yang gratis dan open source, cenderung berada di bawah roda standar industri yang mencakup.

Rekam jejak untuk codec ini, ditambah fakta bahwa startup suka mendeskripsikan secara praktis semuanya adalah “AI-powered,” membuat saya mengharapkan sesuatu yang paling salah arah, paling buruk scammy. Tapi saya sangat terkejut: Sebenarnya WaveOne adalah jenis hal yang tampak jelas dalam retrospeksi dan tampaknya memiliki keunggulan penggerak pertama.

Hal pertama yang dijelaskan oleh Rippel dan Bourdev adalah bahwa AI sebenarnya memiliki peran untuk dimainkan di sini. Meskipun codec seperti H.265 tidak bodoh – mereka sangat maju dalam banyak hal – mereka juga tidak terlalu pintar. Mereka dapat mengetahui di mana harus memasukkan lebih banyak bit ke dalam pengkodean warna atau detail secara umum, tetapi mereka tidak dapat, misalnya, memberi tahu di mana ada wajah dalam foto yang seharusnya mendapatkan cinta ekstra, atau tanda atau pepohonan yang bisa dilakukan dengan cara khusus untuk menghemat waktu.

Tapi deteksi wajah dan pemandangan praktis memecahkan masalah dalam penglihatan komputer. Mengapa codec video tidak memahami bahwa ada wajah, lalu mendedikasikan sumber daya yang proporsional untuk itu? Itu pertanyaan yang sangat bagus. Jawabannya adalah codec tersebut tidak cukup fleksibel. Mereka tidak menerima masukan semacam itu. Mungkin mereka akan melakukannya di H.266, kapan pun itu keluar, dan beberapa tahun kemudian akan didukung pada perangkat kelas atas.

Jadi, bagaimana Anda melakukannya sekarang? Nah, dengan menulis algoritma kompresi dan dekompresi video yang berjalan pada akselerator AI, banyak ponsel dan komputer memiliki atau akan segera memilikinya, dan mengintegrasikan deteksi pemandangan dan objek di dalamnya sejak awal. Seperti Krisp.ai memahami apa itu suara dan mengisolasinya tanpa analisis spektrum yang sangat kompleks, AI dapat membuat penentuan seperti itu dengan data visual yang sangat cepat dan meneruskannya ke bagian kompresi video yang sebenarnya.

Kredit Gambar: WaveOne

Alokasi data yang bervariasi dan cerdas berarti proses kompresi bisa sangat efisien tanpa mengorbankan kualitas gambar. WaveOne mengklaim dapat mengurangi ukuran file sebanyak setengahnya, dengan peningkatan yang lebih baik dalam adegan yang lebih kompleks. Saat Anda menyajikan video ratusan juta kali (atau hingga satu juta orang sekaligus), bahkan sepersekian persen pun bertambah, apalagi keuntungan sebesar ini. Bandwidth tidak memerlukan biaya sebanyak dulu, tapi tetap tidak gratis.

Memahami gambar (atau diberi tahu) juga memungkinkan codec melihat jenis kontennya; video call harus memprioritaskan wajah jika memungkinkan, tentu saja, tetapi streamer game mungkin ingin memprioritaskan detail kecil, sementara animasi memerlukan pendekatan lain untuk meminimalkan artefak di wilayah satu warna yang besar. Ini semua dapat dilakukan dengan cepat dengan skema kompresi bertenaga AI.

Ada implikasi di luar teknologi konsumen juga: Mobil yang dapat mengemudi sendiri, mengirimkan video antar komponen atau ke server pusat, dapat menghemat waktu dan meningkatkan kualitas video dengan berfokus pada apa yang dianggap penting oleh sistem otonom – kendaraan, pejalan kaki, hewan – dan bukan membuang-buang waktu dan sedikit di langit yang tidak memiliki ciri khas, pepohonan di kejauhan, dan sebagainya.

Pengkodean dan penguraian kode yang sadar konten mungkin adalah yang paling serbaguna dan mudah untuk memahami keuntungan yang ditawarkan WaveOne, tetapi Bourdev juga mencatat bahwa metode ini jauh lebih tahan terhadap gangguan dari masalah bandwidth. Ini adalah salah satu kegagalan lain dari codec video tradisional yang kehilangan beberapa bit dapat mengganggu keseluruhan operasi – itulah mengapa Anda mendapatkan bingkai dan gangguan yang membeku. Tetapi decoding berbasis ML dapat dengan mudah membuat “tebakan terbaik” berdasarkan bit apa pun yang dimilikinya, jadi ketika bandwidth Anda tiba-tiba dibatasi, Anda tidak membekukan, cukup kurangi detail durasinya.

Contoh codec berbeda yang mengompresi bingkai yang sama.

Manfaat ini terdengar bagus, tetapi sebelumnya pertanyaannya bukan “dapatkah kita meningkatkan status quo?” (jelas kita bisa) tetapi “dapatkah kita meningkatkan skala itu?”

“Jalan ini dipenuhi dengan upaya yang gagal untuk membuat codec baru yang keren,” aku Bourdev. “Sebagian alasannya adalah akselerasi perangkat keras; bahkan jika Anda mendapatkan codec terbaik di dunia, semoga berhasil jika Anda tidak memiliki akselerator perangkat keras yang menjalankannya. Anda tidak hanya membutuhkan algoritme yang lebih baik, Anda harus dapat menjalankannya dengan cara yang dapat diskalakan di berbagai perangkat, di edge dan di cloud. ”

Itulah mengapa inti AI khusus pada perangkat generasi terbaru sangat penting. Ini adalah akselerasi perangkat keras yang dapat diadaptasi dalam milidetik ke tujuan baru. Dan WaveOne kebetulan telah bekerja selama bertahun-tahun pada pembelajaran mesin yang berfokus pada video yang akan berjalan pada inti tersebut, melakukan pekerjaan yang telah dilakukan akselerator H.26X selama bertahun-tahun, tetapi lebih cepat dan dengan fleksibilitas yang jauh lebih besar.

Tentu saja, masih ada pertanyaan tentang “standar”. Apakah sangat mungkin ada orang yang akan masuk ke metode kompresi video milik satu perusahaan? Nah, seseorang harus melakukannya! Bagaimanapun, standar tidak terukir pada loh batu. Dan seperti yang dijelaskan Bourdev dan Rippel, mereka sebenarnya menggunakan standar – bukan cara kita memikirkannya.

Sebelumnya, “standar” dalam video berarti mengikuti metode software yang ditentukan secara kaku sehingga aplikasi atau perangkat Anda dapat bekerja dengan video yang kompatibel dengan standar secara efisien dan benar. Tapi itu bukan satu-satunya standar. Alih-alih menjadi metode sup-to-kacang, WaveOne adalah implementasi yang mematuhi standar di sisi ML dan penerapan.

Mereka membangun platform agar kompatibel dengan semua distribusi ML utama dan penerbit pengembangan seperti TensorFlow, ONNX, CoreML Apple, dan lainnya. Sementara itu, model yang sebenarnya dikembangkan untuk encoding dan decoding video akan berjalan seperti perangkat lunak lain yang dipercepat di perangkat edge atau cloud: terapkan di AWS atau Azure, jalankan secara lokal dengan modul komputasi ARM atau Intel, dan seterusnya.

Rasanya seperti WaveOne mungkin menjadi sesuatu yang menandai semua kotak acara b2b utama: itu secara tidak terlihat meningkatkan hal-hal bagi pelanggan, berjalan pada perangkat keras yang ada atau yang akan datang tanpa modifikasi, menghemat biaya dengan segera (berpotensi, bagaimanapun) tetapi dapat diinvestasikan untuk ditambahkan nilai.

Mungkin itu sebabnya mereka berhasil menarik putaran benih yang begitu besar: $ 6,5 juta, dipimpin oleh Khosla Ventures, dengan $ 1 juta masing-masing dari Vela Partners dan Incubate Fund, ditambah $ 650K dari Omega Venture Partners dan $ 350K dari Blue Ivy.

Saat ini, WaveOne masih dalam tahap pra-alfa, telah mendemonstrasikan teknologinya dengan memuaskan tetapi tidak membangun produk skala penuh. Putaran awal, kata Rippel, adalah untuk mengurangi risiko teknologinya, dan sementara masih banyak R&D yang belum dilakukan, mereka telah membuktikan bahwa penawaran inti berhasil – membangun infrastruktur dan lapisan API datang berikutnya dan jumlahnya sangat banyak. fase yang berbeda untuk perusahaan. Meski begitu, katanya, mereka berharap dapat menyelesaikan pengujian dan mengantre beberapa pelanggan sebelum mereka mengumpulkan lebih banyak uang.

Masa depan industri video mungkin tidak terlihat seperti beberapa dekade terakhir, dan itu bisa menjadi hal yang sangat bagus. Tidak diragukan lagi kita akan mendengar lebih banyak dari WaveOne saat berpindah dari lab ke produk.

Posted By : Togel Online

About: sevastopol