Penelusuran perusahaan: Mitos vs kenyataan

Penelusuran perusahaan: Mitos vs kenyataan

pencarian data

Ketika Anda memikirkan mesin pencari, Anda mungkin mengaitkannya dengan Google atau Bing. Itu bagus untuk menavigasi web publik. Tetapi mereka tidak akan membiarkan Anda menemukan pertukaran email dari sembilan tahun lalu atau menemukan referensi catatan kaki di jutaan file kantor. Untuk itu, Anda memerlukan kategori produk yang berbeda, pencarian perusahaan.

Dengan pencarian perusahaan, satu atau beberapa utas pencarian bersamaan dapat langsung mencari terabyte data organisasi, termasuk lebih dari 25 opsi pencarian teks lengkap dan metadata yang berbeda dan tampilan item yang diambil dengan klik yang disorot. Kedengarannya dipotong-dan-kering, bukan? Tapi gores sedikit lebih dalam, dan Anda akan menemukan beberapa mitos tentang pencarian perusahaan yang sangat bertentangan dengan kenyataannya. Sementara beberapa mitos relatif tidak penting, yang lain dapat memiliki efek yang perlu Anda waspadai dalam hal jangkauan pencarian perusahaan.

Mitos 1: Pencarian membutuhkan banyak sumber daya. Pada kenyataannya, pencarian — bahkan pencarian bersamaan — menggunakan sumber daya yang dapat diabaikan. Dan pencarian online dapat berjalan dengan cara yang sepenuhnya tanpa kewarganegaraan, membuatnya sangat mudah untuk diskalakan. Langkah yang mendahului pencarian instan adalah intensif sumber daya. Untuk mencari terabyte secara instan, pencarian perusahaan terlebih dahulu harus mengindeks data. Tetapi sementara pengindeksan awal menghabiskan sumber daya sistem, itu tidak memerlukan campur tangan manusia. Yang perlu Anda lakukan hanyalah menunjuk ke folder, arsip email, repositori data online, dll. untuk diindeks, dan pencarian perusahaan akan mengambilnya dari sana. Selanjutnya, memperbarui indeks untuk mencerminkan file baru, dimodifikasi atau dihapus dapat terjadi secara berkala sesuai jadwal dengan pencarian bersamaan terus berlanjut tanpa terpengaruh.

Mitos 2: Penelusuran perusahaan mendekati data dengan cara yang sama seperti Anda. Anda mungkin menggunakan aplikasi Microsoft Word untuk melihat dokumen Word, PowerPoint untuk menampilkan file PowerPoint, OneNote untuk melihat file OneNote, Access untuk menampilkan database Access, Excel untuk melihat spreadsheet, penampil seperti Adobe Acrobat Reader untuk melihat PDF, program email untuk menampilkan email, dll. Pencarian perusahaan tidak melakukan itu, langsung menuju ke format file biner. Akses format biner ini berlaku untuk file kantor klasik dan file cloud seperti Office 365 dan file SharePoint tertentu yang muncul di sistem folder Windows standar tetapi sebenarnya jauh.

Mitos 3: Ekstensi file yang salah diterapkan, seperti .DOCX untuk PDF, dapat mengganggu pencarian perusahaan. Mendasari mitos ini adalah asumsi yang benar bahwa pencarian perusahaan harus secara definitif mengidentifikasi format file sebelum mem-parsing file. Spesifikasi format file biner tunggal bisa ratusan halaman, dan menerapkan yang salah tidak akan cantik. Namun yang terlewatkan oleh mitos ini adalah bahwa pencarian perusahaan dapat melihat ke dalam format biner untuk menentukan jenis file yang berlaku; ekstensi file tidak relevan.

Mitos 4: Konfigurasi file bersarang, seperti lampiran ZIP atau RAR ke email termasuk dokumen Word dengan spreadsheet Excel yang disematkan di dalamnya, dapat mengaburkan beberapa konten. Sama seperti pencarian perusahaan menggunakan format biner untuk identifikasi format file awalnya, itu juga dapat menggunakan format biner untuk mengidentifikasi situasi file bersarang. Anda mungkin tidak melihat teks lengkap dari spreadsheet Excel bersarang dari dalam Microsoft Word, tetapi semuanya akan tersedia untuk pencarian perusahaan dalam format biner.

Mitos 5: Jika Anda tidak melihat teks dalam file, pencarian perusahaan juga tidak akan melihatnya. Karena pencarian perusahaan mendekati file dalam format binernya, ini memiliki tampilan file yang jauh lebih komprehensif daripada yang Anda lakukan melalui tampilan file standar. Misalnya, teks hitam dengan latar belakang hitam atau teks putih dengan latar belakang putih mungkin terlihat tidak terlihat di dalam tampilan file standar. Namun, dalam format biner, teks semacam itu berada pada level yang sama dengan teks lainnya. Metadata “tersembunyi” yang mungkin membutuhkan banyak klik sebelum Anda bahkan menemukan bahwa itu ada dalam tampilan file standar segera terlihat dalam format biner. Jika file memiliki lacak perubahan yang tetap ada di dalamnya, bahkan jika Anda mungkin tidak melihatnya secara default dalam tampilan file standar, perubahan tersebut akan tetap dapat diakses dalam format biner dan oleh karena itu untuk pencarian perusahaan.

Ada tandingan yang melibatkan teks yang dapat Anda lihat tetapi pencarian perusahaan tidak bisa, dan itu adalah PDF “hanya gambar” yang berisi gambar teks. (Anda tahu ketika Anda mencoba menyalin dan menempelkan teks dari PDF tetapi tidak ada yang menyalin? Itu kemungkinan adalah PDF “hanya gambar”.) Pencarian perusahaan dapat menandai ini untuk Anda setelah pengindeksan, memberi tahu Anda bahwa Anda perlu menerapkan OCR aplikasi seperti Adobe Acrobat untuk mendigitalkan teks. Anda kemudian dapat mengirimkannya kembali ke pencarian perusahaan dengan teks yang tersedia untuk digunakan.

Mitos 6: Pencarian perusahaan menawarkan pengambilan teks, yang berbasis kata. Faktanya, selain operasi seperti “semua kata”, “kata apa saja”, kata dan frasa Boolean (dan/atau/tidak) dan pencarian kedekatan, pencarian perusahaan juga dapat meluas ke angka. Pencarian berorientasi numerik mencakup pencarian teks lengkap plus metadata (atau metadata saja) untuk nomor tertentu, rentang numerik, tanggal dan rentang tanggal (bahkan secara otomatis diperluas ke berbagai format tanggal), nilai hash, dan bahkan urutan numerik tertentu. Misalnya, pencarian perusahaan dapat mengidentifikasi nomor kartu kredit yang mungkin ada dalam data. Setelah pencarian, sama seperti pencarian kata dan frasa biasa, pencarian perusahaan dapat menampilkan salinan lengkap dari file yang diambil dengan klik yang disorot.

Kredit Gambar: alphaspirit / Shutterstock

Elizabeth Thede adalah direktur penjualan di dtSearch Corp. Perusahaan ini menawarkan produk perusahaan dan pengembang yang berjalan “di tempat” atau di cloud untuk mencari terabyte secara instan dengan lebih dari 25 opsi pencarian. Filter dokumen dtSearch sendiri mendukung file, email, database, dan data web.

Author: Kenneth Henderson