Tantangan data gelap

Memahami data statis dan dinamis

Aliran data

Diperkirakan pada tahun 2025, konsumsi data global tahunan akan mencapai 181 zettabytes — lebih dari sepuluh kali lipat dibandingkan tahun 2015. Apakah ini berarti kita akan membuat keputusan bisnis dengan informasi yang lebih baik sepuluh kali lipat? Kemungkinan besar tidak, dan alasannya sederhana: menurut sumber yang berbeda, 75 persen atau lebih data yang dikumpulkan perusahaan bersembunyi dalam kegelapan.

‘Data gelap’ adalah sejumlah besar informasi yang dikumpulkan oleh bisnis tetapi tidak pernah dianalisis atau digunakan. Ini bisa berupa log web dan aplikasi, korespondensi email, data pelacakan pengunjung, informasi yang dihasilkan oleh perangkat IoT, dll. Saat ini, setiap aktivitas bisnis direkam. Sebagian besar data ini tidak terstruktur dan dikumpulkan dalam format yang berbeda. Banyaknya informasi ini harus diproses, disimpan, diamankan, dan dipelihara. Alih-alih meningkatkan ROI, ini meningkatkan kebisingan, biaya tersembunyi, dan masalah keamanan karena perusahaan bertanggung jawab secara hukum atas semua data yang dikumpulkan, bahkan jika mereka tidak menggunakannya.

Beberapa data gelap dapat dilacak, dibuka kuncinya, dikelompokkan, dan disiapkan untuk analisis dengan alat bertenaga AI dan ML yang sudah tersedia. Meski begitu, menggunakan otomatisasi kognitif untuk mengidentifikasi data gelap memerlukan keterampilan khusus yang sulit ditemukan dan sumber daya analitik yang substansial karena volumenya seringkali cukup ekstrem.

Namun, ada kemungkinan kecil bahwa siapa pun akan berhasil menciptakan strategi yang sangat tepat sehingga tidak ada data yang berlebihan, usang, atau sepele yang dikumpulkan. Jadi apakah ada jalan keluar dari tantangan data gelap? Saya tidak akan menyelidiki praktik manajemen data internal yang rusak dalam artikel ini karena cakupan topik yang luas. Sebagai gantinya, saya akan segera membahas kesalahan umum yang kami perhatikan yang dilakukan perusahaan saat mengumpulkan data besar dari sumber eksternal, yang mengakibatkan kualitas data yang buruk.

Hype data eksternal

Salah satu alasan mengapa perusahaan akhirnya mengumpulkan data yang berlebihan adalah FOMO dan kurangnya strategi yang jelas. Banyak bisnis merasa tertekan untuk mengumpulkan data sebanyak mungkin — mereka khawatir jika tidak, mereka akan dirugikan dan tidak akan dapat mengambil keputusan yang tepat. Oleh karena itu, praktik pengumpulan data seringkali kehilangan tujuan yang jelas sejak awal.

Proliferasi alat pengikis web baru-baru ini membuat data publik dalam jumlah besar lebih mudah diakses oleh bisnis dari semua ukuran. Sayangnya, banyaknya data gelap menyiratkan bahwa perusahaan gagal untuk mengimbangi peningkatan cepat dalam kemampuan pengumpulan data dengan kemampuan yang memadai untuk membersihkan dan menganalisisnya.

Dalam artikel saya tentang tujuan data, saya berpendapat bahwa data harus memberikan deskripsi akurat tentang aktivitas bisnis faktual dan dengan sengaja mengarahkan kita ke perbaikan yang dapat ditindaklanjuti. Itu tidak melakukan apa-apa dengan sendirinya sampai kita menafsirkannya, memberinya makna. Salah satu kesalahan terbesar adalah mencari data tanpa memiliki tujuan yang beralasan dan daftar pertanyaan yang perlu Anda jawab. Dengan kata lain, tanpa rencana bagaimana data ini akan digunakan. Karena pengumpulan, penyimpanan, dan pemrosesan data memiliki biaya bisnis yang terkait, pengumpulan informasi yang berlebihan akan membuang sumber daya.

Data web berisik

Menentukan jenis data apa yang dibutuhkan perusahaan dan tujuan apa yang harus dilayaninya hanyalah langkah pertama menuju kesuksesan. Mengekstraknya membawa tantangannya sendiri karena data web tersebar melalui berbagai sumber dan hadir dalam berbagai standar dan format. Mengumpulkan data eksternal yang berkualitas memerlukan keterampilan pemrograman dan pengalaman teknis khusus: konten web mungkin sulit diambil dan dianalisis, terutama dalam skala besar.

Misalnya, sebuah bisnis mungkin memutuskan untuk mengikis ribuan situs web eCommerce untuk mendapatkan harga, deskripsi, dan ulasan produk tertentu. Biasanya, semuanya muncul mawar sampai tampaknya produk yang sama diberi nama berbeda di situs berbeda atau ada beberapa versi dari produk yang sama dengan hanya sedikit perbedaan fungsi. Pencocokan produk bisa menjadi cukup merepotkan bagi pemula, dan hasil akhirnya mungkin berupa data yang tidak konsisten atau tidak akurat.

Selain itu, misalkan bisnis tidak memiliki keahlian yang cukup dalam ekstraksi data dan mencoba mengumpulkan data dari berbagai sumber tanpa pandang bulu. Dalam hal ini, dapat dengan mudah jatuh ke dalam apa yang disebut honeypots – data palsu dan berpotensi berbahaya yang diumpankan sistem keamanan ke perayap dan pencakar yang tidak menaruh curiga.

Masalah rumit lain yang mungkin dihadapi perusahaan adalah bahwa situs web terus berubah dan memperbarui strukturnya. Biasanya, rutinitas pengikisan disesuaikan dengan kondisi spesifik masing-masing situs, dan pembaruan yang sering cenderung mengganggunya. Oleh karena itu, scraper memerlukan perawatan rutin untuk memastikan integritas data.

Seringkali, terlalu mahal untuk mengembangkan solusi pengikisan yang komprehensif di rumah. Penelitian terbaru Oxylabs menunjukkan bahwa 36 persen perusahaan jasa keuangan Inggris mengalihdayakan aktivitas pengikisan web untuk mengatasi tantangan ekstraksi data yang rumit, dan 27 persen lainnya menggunakan kemampuan pihak ketiga dan in-house. Kecuali jika Anda memiliki tim ilmuwan dan pengembang data internal yang berpengalaman, menggunakan perangkat lunak pihak ketiga yang disesuaikan atau tugas ekstraksi outsourcing dapat menjadi cara yang paling hemat biaya untuk mengumpulkan data web.

Kolaborasi terbuka adalah kuncinya

Karena data web berisik, perusahaan harus terus-menerus mengaudit data yang dikumpulkannya untuk menghilangkan informasi yang bertentangan, salah, atau tidak perlu. Audit membantu mengidentifikasi sumber yang memberikan informasi terbaik untuk tujuan pengikisan Anda dan memungkinkan memfilter situs dengan terlalu banyak data berlebihan atau sampah.

Jika masih ada terlalu banyak data di database Anda atau terlihat tidak konsisten, kemungkinan besar Anda telah mengumpulkan data yang tidak akurat, atau mungkin, beberapa data Anda tidak lagi valid. Karena siloing data dan integrasi data yang buruk, perusahaan sering kehilangan jejak atau melupakan apa yang mereka kumpulkan, berakhir (sekali lagi) dengan data yang berlebihan atau usang.

Terakhir, meskipun upaya pengumpulan data berhasil, perusahaan harus memastikan bahwa anggota timnya dapat dengan mudah menemukan data tersebut. Jika perusahaan tidak menstandarkan pengumpulan data di semua saluran dan menggunakan alat integrasi yang tepat, karyawan dapat mengalami masalah nyata saat mencoba menemukan dan menganalisisnya.

Kembali pada tahun 2018, penelitian DTC menunjukkan bahwa profesional data membuang sekitar 30 persen dari jam kerja mingguan mereka karena mereka tidak dapat menemukan, melindungi, atau menyiapkan data. Yang lebih menarik lagi, 20 persen waktu mereka dihabiskan dengan membangun aset informasi yang sudah ada di perusahaan mereka.

Seiring berkembangnya organisasi, kemungkinan bahwa sejumlah besar data akan terkotak-kotak dalam beberapa basis data yang terputus dengan hanya metadata dasar dan kemampuan pencarian yang terbatas meningkat. Ini berarti bahwa departemen dan tim yang berbeda tidak melihat data yang sama tetapi hanya memiliki akses ke potongan kecil. Tidak ada yang melihat keseluruhan gambar, sehingga sulit untuk membuat keputusan bisnis yang tepat dan tidak memihak.

Data tidak melakukan apa-apa dengan sendirinya

Mungkin beberapa tantangan yang saya sebutkan di sini terdengar terlalu umum; namun, dasar-dasar itulah yang paling sering dilupakan atau ditukar untuk hasil yang lebih cepat. Big data mungkin adalah peluang terbesar yang ada di luar bisnis apa pun: digunakan dengan cara yang benar, dapat mengidentifikasi dan memecahkan masalah dalam suatu organisasi, memberikan wawasan tentang siklus hidup pelanggan, dan menginformasikan cara untuk meningkatkan penjualan. Tapi data hanya bagus jika disengaja dan mendorong kita untuk bertindak.

Seringkali, bisnis memperlakukan memiliki lebih banyak atau memiliki data sama sekali sebagai barang yang diperlukan. Untungnya atau tidak, tampaknya ada data untuk semuanya — minat pelanggan, pengunjung situs web, tingkat churn, sentimen, demografi, dan banyak lagi. Dengan banyaknya informasi yang tersedia, tugas terpenting sebelum perusahaan memulai perjalanan pengumpulan data berikutnya adalah memutuskan apa yang berharga untuk bisnisnya dan apa yang tidak.

Kredit gambar: agsandrew/ depositphotos

Julius ńĆerniauskas adalah CEO di Oxylabs.io.

Author: Kenneth Henderson