9 investor membahas rintangan, peluang, dan dampak vendor cloud di data lake perusahaan – TechCrunch


Sekitar satu dekade lalu, saya ingat mengobrol dengan seorang teman tentang data besar. Pada saat itu, kami berdua sepakat bahwa ini adalah bidang perusahaan besar seperti Facebook, Yahoo, dan Google, dan bukan sesuatu yang perlu dikhawatirkan oleh kebanyakan perusahaan.

Ternyata, kami berdua salah. Dalam waktu singkat, semua orang akan berurusan dengan data besar. Faktanya, ternyata data dalam jumlah besar adalah bahan bakar aplikasi pembelajaran mesin, sesuatu yang tidak saya dan teman saya duga.

Kerangka kerja sudah muncul seperti Hadoop dan Spark dan konsep seperti gudang data berkembang. Ini baik-baik saja jika melibatkan data terstruktur seperti info kartu kredit, tetapi gudang data tidak dirancang untuk data tidak terstruktur yang Anda perlukan untuk membuat algoritme pembelajaran mesin, dan konsep danau data dikembangkan sebagai cara untuk mengambil data yang belum diproses dan menyimpannya hingga dibutuhkan. . Itu tidak duduk rapi di rak di gudang semua berlabel dan diatur, itu lebih amorf dan mentah.

Seiring waktu, ide ini menarik perhatian vendor cloud seperti Amazon, Microsoft, dan Google. Terlebih lagi, ini menarik perhatian investor karena perusahaan seperti Snowflake dan Databricks membangun perusahaan besar dengan konsep danau data.

Bahkan ketika itu terjadi, pendiri startup mulai mengidentifikasi masalah lain yang berdekatan untuk diserang seperti memindahkan data ke danau data, membersihkannya, memprosesnya, dan menyalurkan ke aplikasi dan algoritme yang benar-benar dapat menggunakan data tersebut. Saat ini terjadi, ilmu data berkembang di luar dunia akademis dan menjadi lebih utama dalam bisnis.

Pada saat itu terdapat ekosistem modern yang sama sekali baru dan ketika sesuatu seperti itu terjadi, ide berkembang, perusahaan dibangun dan investor datang. Kami berbicara dengan sembilan investor tentang ide danau data dan mengapa mereka begitu tertarik dengannya, peran perusahaan cloud di ruang ini, bagaimana investor menemukan perusahaan baru di pasar yang semakin matang dan di mana peluang dan tantangan berada di area yang menguntungkan ini. .

Untuk mempelajari semua ini, kami bertanya kepada investor berikut:

  • Caryn Marooney, mitra umum, Manajemen Coatue
  • Dharmesh Thakker, partner umum, Battery Ventures
  • Casey Aylward, kepala sekolah, Costanoa Ventures
  • Derek Zanutto, mitra umum, CapitalG
  • Navin Chaddha, direktur pelaksana, Mayfield
  • Jon Lehr, salah satu pendiri dan partner umum, Work-Bench
  • Peter Wagner, mitra pendiri, Wing Ventures
  • Nicole Priel, direktur pelaksana, Ibex Ventures
  • Ilya Sukah, partner, Matrix Partners

Di mana peluang untuk startup di ruang data lake dengan pemain seperti Snowflake dan vendor infrastruktur cloud yang begitu mapan?

Caryn Marooney: Pasar data sangat besar, didorong oleh peluang untuk membuka nilai melalui transformasi digital. Baik arsitektur data lake dan data warehouse akan menjadi penting dalam jangka panjang karena keduanya memenuhi kebutuhan yang berbeda.

Untuk perusahaan yang sudah mapan (seperti bank besar, merek besar) dengan infrastruktur data yang signifikan, memindahkan semua datanya ke gudang data bisa jadi mahal dan memakan waktu. Untuk perusahaan ini, data lake bisa menjadi solusi yang baik karena memungkinkan opsionalitas dan kueri gabungan di seluruh sumber data.

Dharmesh Thakker: Databricks (tempat Battery telah berinvestasi) dan Snowflake telah menjadi nama rumah tangga masing-masing di pasar data lake dan gudang. Tetapi persyaratan teknis dan kebutuhan bisnis terus berubah di pasar ini – dan penting bagi kedua perusahaan untuk terus berinvestasi secara agresif untuk mempertahankan keunggulan kompetitif. Mereka harus terus berinovasi untuk terus sukses.

Terlepas dari bagaimana hasilnya, kami merasa senang dengan ekosistem yang muncul di sekitar para pemain ini (dan lainnya) mengingat penyebaran data besar-besaran yang terjadi di cloud dan beban kerja di lokasi, dan di sekitar berbagai vendor penyimpanan data. Menurut kami ada peluang yang signifikan bagi vendor untuk terus muncul sebagai “lapisan penyatuan” antara sumber data dan berbagai jenis pengguna akhir (termasuk ilmuwan data, insinyur data, analis bisnis, dan lainnya) dalam bentuk middleware integrasi (vendor cloud ELT ); streaming dan analitik waktu nyata; tata kelola dan manajemen data; keamanan data; dan pemantauan data. Pasar-pasar ini tidak boleh diremehkan.

Casey Aylward: Ada beberapa peluang besar di ruang data lake bahkan dengan banyak pemain infrastruktur cloud yang sudah mapan:

  • Kecerdasan bisnis / analitik / SQL mungkin akhirnya menyatu dengan pembelajaran mesin / kode seperti Scala atau Python di produk tertentu, tetapi domain ini memiliki pengguna akhir dan komunitas yang berbeda, preferensi bahasa pemrograman, dan keterampilan teknis. Secara umum, penguncian arsitektural adalah titik ketakutan besar dalam infrastruktur inti. Hal ini berlaku untuk pengguna akhir dengan penyedia cloud, solusi penyimpanan, mesin komputasi, dll. Solusi akan beragam karena hal itu dan teknologi yang memungkinkan fleksibilitas ini menjadi penting.
  • Saat data bergerak hari ini, data diproses ulang di setiap platform, yang pada skala tertentu tidak efisien dan mahal. Ada peluang untuk membangun teknologi yang memungkinkan pengguna memindahkan data tanpa menulis ulang transformasi, pipeline data, dan prosedur tersimpan.
  • Akhirnya, kami melihat lebih banyak daya tarik di sekitar kerangka pemrosesan data umum yang bukan MapReduce di bawah tenda, terutama dalam ekosistem ilmu data Python. Ini adalah transisi dari Hadoop atau bahkan Spark, karena mereka tidak selalu paling cocok untuk algoritma yang tidak terstruktur dan lebih modern.

Posted By : Toto HK