Pengikisan web etis dan hak data [Q&A]

Berapa nilai akun streaming Anda di Web Gelap?

Pengikisan web, secara otomatis memanen dan mengekstraksi data dari situs web, dapat menjadi alat yang berguna bagi bisnis untuk mempelajari pelanggan mereka.

Tetapi mudah untuk jatuh ke dalam perangkap pengambilan data hanya karena data itu ada di sana, menyebabkan kelebihan informasi belum lagi masalah privasi bagi konsumen. Untuk mengetahui lebih lanjut tentang pengikisan web dan bagaimana penggunaannya secara etis, kami berbicara dengan pendiri dan CEO Rayobyte, Neil Emeigh.

BN: Apa itu scraping etis dan bagaimana penggunaannya untuk mengumpulkan data konsumen?

NE: Percaya atau tidak, pengikisan web adalah sesuatu yang kita semua lakukan setiap hari. Anda bahkan dapat melakukannya tanpa perangkat lunak. Jika Anda adalah pengguna media sosial yang secara teratur memeriksa jumlah suka yang didapat dari kiriman Anda, atau seseorang yang menjual produk yang secara teratur memeriksa harga pesaing mereka, Anda sebenarnya sedang mengorek, karena Anda mengumpulkan data waktu nyata tertentu dari situs web publik.

Sekarang katakanlah Anda adalah agensi yang mengelola seratus akun media sosial, atau penjual eCommerce dengan ribuan produk yang bersaing. Jelas akan memakan waktu terlalu lama bagi Anda untuk mengamati dan mengumpulkan semua informasi itu sendiri, dan pada saat Anda melakukannya, itu sudah ketinggalan zaman. Itu sebabnya kebanyakan dari kita memilih untuk menggunakan perangkat lunak untuk menemukan informasi itu untuk kita. Ini disebut ‘scraping’ karena perangkat lunak mengambil informasi yang BENAR-BENAR Anda cari — katakanlah data harga — dari halaman dengan banyak informasi lain yang tidak Anda minati.

Bahkan jika Anda tidak melakukan scraping secara langsung, kemungkinan besar siapa pun yang memiliki bisnis saat ini mengandalkan scraping dalam beberapa bentuk. Alat SEO besar mengikis informasi dari halaman hasil mesin pencari, buku sosial dan aplikasi ulasan film menarik informasi dari database untuk memastikan mereka memiliki daftar judul yang paling luas, dan bahkan mengorek adalah mesin yang menggerakkan semua hasil mesin pencari! Jadi seperti yang Anda lihat, gesekan telah ada selama bertahun-tahun dan tidak akan hilang dalam waktu dekat.

Masalah etika berkaitan dengan dua faktor. Pertama: penggunaan. Apakah Anda hanya mengorek data yang tersedia untuk umum yang tidak dapat diidentifikasi dan gratis untuk digunakan siapa saja? Apakah Anda mengikuti semua undang-undang setempat tentang pengumpulan data? Dan kedua: etika dari alat pengikis itu sendiri. Poin ini agak teknis.

Semua pencakar membutuhkan alamat IP proxy, yang dijual oleh perusahaan saya. Itu karena ketika sebagian besar situs web mendeteksi bot scraping, mereka akan mencekal alamat IP bot tersebut. Jadi untuk mengikis jutaan halaman secara efektif, Anda memerlukan sejumlah besar alamat IP — idealnya, alamat IP yang terkait dengan penyedia layanan internet nyata, atau lebih baik lagi pengguna nyata. Banyak dari sesama penyedia proxy saya, pada berbagai waktu dalam sejarah industri, mengambil proxy tanpa sepengetahuan pengguna sebenarnya, dan tanpa memberikan kompensasi untuk mereka. Banyak ‘jaringan proxy’ sebenarnya adalah botnet tingkat lanjut, diperoleh secara ilegal dan/atau digunakan untuk mengumpulkan data pribadi tentang konsumen.

Jadi ‘pengikisan etis’ sebenarnya tentang menegakkan penggunaan etis dan akuisisi proxy.

BN: Apakah pengikisan web legal dan apakah Anda berharap aktivitas tersebut diatur?

NE: Ini adalah pertanyaan yang rumit, yang biasanya menurut saya paling mudah dijawab dengan perbandingan. Pengikis web dan proksi yang mendukungnya adalah alat, jadi mari pertimbangkan alat lain: palu sederhana. Adalah sah untuk membeli dan menjual palu. Ada banyak penggunaan palu yang bagus dan legal – Anda dapat membuat furnitur untuk Anda dan keluarga, atau tempat berlindung untuk tetangga. Di sisi lain, Anda juga bisa menggunakan palu untuk melukai atau membunuh seseorang, yang tentunya ilegal.

Jadi ya, keberadaan pengikis — di sebagian besar keadaan, di sebagian besar tempat di bumi — cukup legal. Tetapi garis yang tepat tentang bagaimana legal untuk menggunakannya sedang ditarik saat kita berbicara, oleh kasus seperti HiQ Labs v LinkedIn di sini di Amerika Serikat, atau peraturan privasi konsumen di negara bagian seperti California, Colorado, dan Virginia. Merupakan tugas para pengikis seperti saya untuk memastikan bahwa perusahaan saya — dan klien kami — selalu mematuhi hukum.

Saya akui bahwa ini adalah sesuatu yang mengkhawatirkan saya – industri kita tidak ada dalam ruang hampa, dan privasi data, dengan tepat, telah menjadi pokok pembicaraan publik akhir-akhir ini. Jika industri proxy tidak dapat menghilangkan bau perilaku tidak etis dari kita, kita akan melihat lebih banyak langkah untuk mengatur mode operasi kita saat ini baik dari sektor publik maupun swasta. Itulah bagian dari mengapa saya berbicara dengan Anda, dan kepada pewawancara seperti Anda, untuk mencoba membantu orang memahami bahwa teknologi ini memiliki sisi yang berguna dan perlu serta kasus penggunaan samar yang lebih terkenal.

BN: Dari sisi konsumen, apa yang dapat dilakukan orang untuk memastikan datanya aman dan terlindungi?

NE: Dari para pengikis etis seperti saya — yang saya benar-benar yakin merupakan mayoritas industri kami — Anda aman dari apa pun yang tersembunyi di balik login. Alat kami tidak dapat digunakan untuk mendapatkan informasi kartu kredit Anda, kata sandi Anda, dll.

Jadi, jika Anda memiliki informasi yang Anda khawatirkan akan dihapus, hal paling aman yang dapat Anda lakukan adalah sederhana: jangan mempostingnya! Ini masuk akal, tetapi kita semua harus memikirkan dengan sangat hati-hati tentang apa yang kita posting secara online. Sekarang saya menganggap sebagian besar dari kita tahu bahwa jika Anda memposting nomor telepon Anda di situs web Anda, beberapa penelepon spam akan menemukannya, atau jika Anda memposting sesuatu yang memalukan di Twitter, itu akan ada dalam bentuk tangkapan layar selamanya. Saya sendiri tidak memiliki akun media sosial pribadi, yang merupakan bentuk keamanan tersendiri.

Adapun untuk melindungi diri Anda dari pengikis tidak etis yang mencoba menemukan informasi pribadi, Anda berbicara tentang peretas pada saat itu – jadi sarannya sama untuk jenis serangan berbahaya lainnya. Terapkan kata sandi aman di seluruh organisasi Anda, rekrut tim keamanan yang baik, batasi akses ke informasi sensitif, hal-hal semacam itu. Jangan gunakan kata sandi yang sama di semua situs Anda. Dan jika Anda adalah pemilik situs yang tidak ingin tergores, cantumkan itu dalam persyaratan layanan situs web Anda. Itu jelas tidak akan menghentikan seseorang yang benar-benar berkomitmen untuk mengorek, tetapi itu akan memberi Anda jalan hukum jika dan kapan itu harus terjadi.

BN: Bagaimana pengikisan web dibuat tidak terlalu mengganggu?

NE: Sekali lagi, kuncinya menurut saya hanya mengorek informasi publik. Data yang dikeluarkan orang di sana sendiri ke ruang publik.

Saya juga tidak merasa bahwa informasi identitas pribadi benar-benar diperlukan — dan menurut saya ini adalah kesalahpahaman umum yang dimiliki banyak orang tentang pengumpulan data. Pelanggan kami tertarik untuk menyaring data bisnis dalam jumlah besar, bukan kebiasaan menjelajah pribadi Joe Whoever.

Kredit gambar: deyangeorgiev2/depositphotos.com

Author: Kenneth Henderson