Data web real-time — sumber baru intelijen kompetitif [Q&A]

Data web real-time -- sumber baru intelijen kompetitif [Q&A]

Mengumpulkan data web publik real-time untuk intelijen bisnis adalah aset kompetitif baru bagi beberapa perusahaan, tetapi hanya sedikit informasi yang tersedia tentang kasus penggunaan data tersebut.

Kami berbicara dengan Aleksandras Šulženko, pemilik produk di Oxylabs.io, untuk mempelajari lebih lanjut tentang bagaimana data web dapat menjadi sumber daya yang berharga bagi perusahaan.

BN: Bagaimana bisnis menggunakan kecerdasan web real-time?

AS: Data web publik digunakan oleh semakin banyak perusahaan. Misalnya, penelitian terbaru oleh Oxylabs dan Censuswide terhadap lebih dari 1.000 pembuat keputusan utama di perusahaan jasa keuangan menemukan bahwa hampir setengah dari mereka (44 persen) berencana untuk berinvestasi paling banyak ke dalam web scraping di tahun-tahun mendatang. Ini tidak mengherankan karena seperempat (26 persen) responden mengatakan web scraping memiliki dampak terbesar pada pendapatan dibandingkan dengan metode pengumpulan data lainnya.

Perusahaan keuangan dan e-niaga adalah yang terdepan dalam intelijen web yang kompetitif, tetapi yang lain juga mengejar. Internet menawarkan sejumlah besar data publik yang sempurna untuk menggali wawasan bisnis yang unik dan meningkatkan pengambilan keputusan dan penjualan. Salah satu kasus penggunaan yang terkenal adalah agregasi dan perbandingan tarif perjalanan — layanan seperti Skyscanner tidak akan ada tanpa teknologi pengikisan web, dan kami tidak akan dapat memperoleh penawaran penerbangan yang sempurna karena tidak mungkin untuk memantaunya. banyak maskapai berbeda secara manual.

Perusahaan e-niaga mengumpulkan harga waktu nyata dan intelijen pesaing untuk mengoptimalkan penetapan harga dan bermacam-macam yang dinamis atau memantau rantai pasokan. Anda mungkin memperhatikan bahwa harga di pasar utama dapat berubah beberapa kali per hari — ini hanya mungkin dengan bantuan intelijen pesaing publik. Perusahaan keuangan dan investasi mengandalkan wawasan unik yang berasal dari data alternatif untuk menemukan peluang investasi yang paling menguntungkan. Agen pemasaran mengumpulkan intelijen web publik, seperti data sentimen konsumen, untuk memahami tren ekonomi atau perilaku dan preferensi pembeli.

Ada banyak kasus penggunaan lainnya, termasuk pengoptimalan peringkat pencarian, keamanan siber, deteksi konten ilegal, dan anti-pemalsuan. Digitalisasi bisnis dan kehidupan sehari-hari berarti ada data untuk hampir semua hal yang tersebar di internet. Ini tersedia untuk umum bagi kita semua; namun, volumenya sangat ekstrem sehingga organisasi yang mencoba memahami data web membutuhkan teknologi canggih untuk mengumpulkan, membersihkan, dan memprosesnya.

BN: Mengumpulkan data pada skala seperti itu membutuhkan sumber daya yang sangat besar. Apakah perusahaan biasanya mengekstrak data web sendiri atau dengan mengalihkannya ke vendor pihak ketiga?

AS: Beberapa perusahaan, seperti perusahaan keamanan siber yang bekerja dengan informasi sensitif, lebih suka mengikis data secara internal. Namun, mereka membutuhkan infrastruktur proxy yang kuat untuk mendistribusikan permintaan dan melewati blokir geografis dan tindakan anti-scraping.

Untuk bisnis yang perlu mengumpulkan data web publik tetapi tidak memiliki sumber daya untuk melakukannya sendiri, solusi scraping siap pakai adalah pilihan yang paling hemat biaya. Mereka harus mempertimbangkan Scraper API yang dirancang untuk target yang berbeda, termasuk mesin telusur dan pasar utama. Mereka memungkinkan pengumpulan data web dengan lebih sedikit pengkodean dan dalam skala besar.

Perusahaan yang mengumpulkan data web secara internal harus mengatasi berbagai kesulitan teknis yang dapat menghabiskan waktu dan uang. Misalnya, mengelola infrastruktur proxy, menjalankan browser tanpa kepala, memelihara pipa pengikisan dan penguraian yang dapat rusak karena perubahan konstan dalam tata letak halaman web, dan membuat sidik jari khusus untuk mem-bypass tindakan anti-pengikisan.

BN: Apa tantangan utama dalam mengumpulkan data web real-time?

AS: Mengumpulkan data web publik adalah proses yang menantang secara umum. Pertama, untuk mengumpulkan data web apa pun, Anda perlu mencari tahu URL apa yang ingin Anda akses. Ini dapat dilakukan dengan membuat URL (jika mengikuti pola tertentu) atau dengan merayapi situs untuk mencari tahu URL apa yang ada di dalamnya. Setelah memiliki URL, Anda dapat mencoba mengambil konten dari web. Konten biasanya dalam format HTML, jadi langkah selanjutnya adalah mengurai HTML menjadi struktur data yang lebih sederhana, seperti JSON atau CSV, yang hanya berisi data tempat menarik. Dalam kasus data real-time, kerumitan bertambah karena tidak ada ruang untuk kesalahan: sistem harus aktif dan berjalan setiap saat.

Salah satu tantangan terbesar adalah mengumpulkan data yang akurat, karena konten yang salah datang dengan berbagai cara. Beberapa respons gesekan mungkin tampak asli, meskipun mengandung CAPTCHAS atau, lebih buruk lagi, informasi palsu dari apa yang disebut pot madu. Situs web juga dapat melacak dan memblokir pencakar berdasarkan sidik jari, yang mencakup alamat IP, header HTTP, cookie, atribut sidik jari JavaScript, dan data lainnya.

Tindakan anti-scraping dan sidik jari browser menjadi semakin canggih. Untuk menghindari gangguan yang tidak diinginkan, perusahaan harus bermain dengan kombinasi parameter yang berbeda untuk situs yang berbeda, yang sekali lagi meningkatkan kompleksitas solusi pengumpulan data mereka. Untungnya, merakit sidik jari yang melewati solusi anti-goresan tertentu dapat diotomatisasi dan dioptimalkan dengan bantuan pembelajaran mesin.

Namun, diblokir oleh solusi anti-scraping tidak berarti web scraping adalah tindakan yang buruk atau tidak sah. Dengan tindakan anti-scraping, situs web hanya mencoba mengamankan server mereka dari kelebihan permintaan dan tindakan yang dilakukan oleh pihak yang tidak bertanggung jawab atau jahat. Memisahkan antara aktor jahat ini dan pencakar yang sah akan sangat sulit, jadi administrator hanya mendorong larangan menyeluruh pada keduanya. Terkadang, data dikunci karena lokasinya — banyak situs menampilkan konten yang berbeda di negara yang berbeda. Namun, jika sebuah perusahaan sedang mengumpulkan intelijen pesaing, misalnya harga produk, ia perlu mengumpulkan data publik di berbagai lokasi. Tidak mungkin tanpa jaringan proxy yang luas.

Saat mem-parsing data, tantangan utamanya adalah beradaptasi dengan perubahan tata letak halaman web yang konstan. Hal ini memerlukan pemeliharaan parser yang konstan — tugas yang tidak terlalu sulit tetapi sangat memakan waktu, terutama jika perusahaan mengorek banyak jenis halaman yang berbeda.

Tantangan lain yang menarik saat mengumpulkan data publik dari pasar ecommerce adalah pemetaan produk. Bayangkan sebuah perusahaan yang perlu mengumpulkan harga dan ulasan dari lima model headphone Samsung yang berbeda. Di pasar online yang berbeda, produk semacam itu dapat dicantumkan di departemen dan subkategori yang berbeda atau memiliki nama produk yang sedikit berbeda. Ini menyulitkan untuk melacak produk yang sama di beberapa situs e-niaga, bahkan dengan penggunaan scraping.

BN: Apakah ada kasus penggunaan untuk menggunakan data alternatif di luar sektor bisnis?

AS: Bahkan di antara bisnis, pengumpulan intelijen web publik baru-baru ini mulai mendapatkan daya tarik. LSM, sektor publik, dan akademisi masih tertinggal, tetapi minat terhadap data web publik juga tumbuh di sana. Ada pemain ‘avant-garde’, seperti Bank of Japan, yang melakukan penelitian sosial dan ekonomi yang menarik berdasarkan analisis data alternatif. Akademisi di bidang-bidang seperti psikologi juga sudah mulai mengungkap manfaat data web, mengorek komentar publik, dan forum untuk mengumpulkan data guna menganalisis perilaku manusia.

Organisasi nirlaba sering kali memiliki topik penelitian menarik yang memungkinkan penggunaan teknologi pengikisan web untuk kebaikan bersama.

BN: Apa yang akan mendorong kemajuan industri intelijen web di tahun-tahun mendatang?

AS: Tanpa diragukan lagi, teknologi ML dan AI. Mereka memungkinkan mengotomatiskan pola pengikisan web berulang, sehingga meminimalkan beban kerja untuk pengembang dan risiko kesalahan manusia. Web Unblocker terutama didasarkan pada algoritme ML berbeda yang membantu melakukan tugas rumit seperti manajemen proxy, sidik jari dinamis, dan pengenalan respons.

Sangat menarik bahwa pengikisan web adalah salah satu pendorong utama di balik perkembangan AI dan ML. ML membutuhkan data dalam jumlah besar untuk pelatihan guna meningkatkan prediksi algoritmik dan akurasi. Membeli kumpulan data yang sudah jadi dari penyedia pihak ketiga seringkali tidak cukup untuk teknologi ML modern. Di sinilah data web yang tersedia untuk umum datang untuk membantu. Oleh karena itu, kedua bidang saling menguatkan secara positif.

Kredit foto: Maksim Kabakou / Shutterstock

Author: Kenneth Henderson