Masalah data tidak terstruktur dalam model pondasi [Q&A]

Kecerdasan buatan hanya sebagus data yang harus dikerjakannya dan itu berarti bahwa sejumlah besar informasi diperlukan untuk melatih perangkat lunak agar mendapatkan hasil terbaik.

Oleh karena itu, memastikan kualitas data merupakan tugas utama dalam implementasi AI apa pun. Kami berbicara dengan CEO Snorkel AI, Alex Ratner, untuk mengetahui lebih lanjut tentang masalah yang terlibat dan bagaimana organisasi dapat mengatasinya.

BN: Apa tantangan utama yang dihadapi perusahaan saat bekerja dengan model AI saat ini, khususnya model bahasa?

AR: Kendala paling signifikan yang dihadapi perusahaan dalam menggunakan AI, termasuk model dasar terbaru atau model bahasa besar — seperti ChatGPT, BERT, CLIP, Difusi Stabil, dan lainnya — adalah volume besar ‘data pelatihan’ berlabel yang diperlukan. Model AI memerlukan data berkelanjutan untuk dipelajari dan tetap diperbarui. Data harus diklasifikasikan dan diberi label, dan sebagian besar pelabelan data saat ini masih dilakukan dengan tangan. Itu mahal, memakan waktu dan rawan kesalahan.

Pelabelan data manual juga menghadirkan tantangan besar lainnya: mempersulit pengelolaan bias dalam sistem berbasis AI, yang mengarah pada konsekuensi yang berpotensi membahayakan dan tantangan kepatuhan.

BN: Apa itu ‘halusinasi model’ dan bagaimana cara mencegahnya?

AR: Halusinasi adalah salah satu tantangan utama yang mungkin dihadapi perusahaan mana pun yang memanfaatkan model bahasa besar. Model seperti GPT-3 dan ChatGPT dilatih untuk menghasilkan teks yang terdengar paling masuk akal dengan beberapa prompt atau konteks. Mereka tidak dirancang untuk mengoptimalkan keakuratan fakta, angka, atau statistik dalam output tersebut. Mereka juga tidak terlatih dengan baik untuk mengatakan ‘Saya tidak tahu’. Dan seringkali, tanggapannya jauh dari kebenaran. Ini karena, pada akhirnya, modelnya sama bagusnya dengan data yang dilatihkan, dan banyak data yang dihasilkan di dunia tidak terstruktur. Itu tidak berlabel dan tidak terklasifikasi. Sekitar 2,5 juta terabyte data baru muncul di dunia setiap hari.

Singkatnya, ini adalah masalah pelabelan data yang sangat besar. Label yang tidak akurat pada data pelatihan dapat mendistorsi pembelajaran dan kesimpulan model, sehingga jawaban mungkin berupa halusinasi dan sangat salah yang tidak dapat diprediksi.

Pada akhirnya, seorang model tidak cerdas seperti manusia; itu tidak dapat membedakan antara data yang baik dan, katakanlah, data yang mengandung konten beracun atau tidak dapat diandalkan.

BN: Apakah perusahaan siap untuk menerapkan model ini sekarang atau apakah ini lebih merupakan proposisi masa depan?

AR: Jawabannya ya dan tidak. Jika Anda mengambil model dasar, model AI skala besar yang dilatih pada data tak berlabel dalam jumlah besar dalam skala besar, mereka dengan cepat dikomersialkan. Mereka dapat disesuaikan dengan berbagai tugas hilir, dan perusahaan besar tertarik dan bereksperimen. Industri tertentu seperti keuangan, perawatan kesehatan, dan layanan pelanggan sudah menjadi pengguna aktif. Secara khusus, mereka menggunakan model yang sudah terbukti seperti BERT, tetapi di perusahaan lain, biaya di muka dan biaya berkelanjutan menghambat adopsi — dibutuhkan investasi, teknologi, dan orang-orang terampil untuk menjalankan model dasar.

Ada juga kekhawatiran tentang kinerja dan privasi. Tanggung jawab mengeluarkan atau bertindak atas jawaban halusinasi bisa menjadi sangat signifikan. Mengenai privasi, tugas apa pun yang melibatkan akses ke informasi pribadi perusahaan dapat berisiko mengungkap data tersebut, karena model yang menghadap publik memanfaatkan semua yang mereka lihat.

Dalam kasus penggunaan perusahaan tertentu seperti terjemahan, model yayasan dapat bekerja dengan sangat baik, selama pekerjaan mereka diverifikasi. Menariknya, bisnis kecil yang tak terhitung jumlahnya seperti agen penjual secara aktif menggunakan model AI untuk tujuan pemasaran. Banyak perusahaan menggunakannya untuk membuat postingan sosial dengan cepat, yang diharapkan dapat diperiksa oleh manusia sebelum dipublikasikan.

BN: Apa pertimbangan utama bagi perusahaan yang menerapkan perangkat lunak model bahasa saat ini? Dan pertanyaan apa yang harus ditanyakan perusahaan kepada vendor yang menawarkan teknologi yang berjalan pada AI model bahasa?

AR: Ini benar-benar perhitungan pengorbanan, dan memperkirakan beberapa hal yang tidak diketahui, seperti semua kasus penggunaan potensial dan manfaat dari mengadopsi model bahasa besar (LLM). Itu ditimbang dengan investasi yang dibutuhkan (teknologi, bakat, pelatihan, dan anggaran) dan risikonya, yang terutama tentang privasi data, kewajiban, dan keluaran yang salah atau di bawah standar — bukan hanya halusinasi, tetapi juga salinan pemasaran yang membosankan dan berulang.

Sebelum mengadopsi LLM, perusahaan harus mengajukan pertanyaan kunci calon vendor. Misalnya, apa risiko LLM memberikan jawaban yang tidak masuk akal atau berpotensi merusak jika ditindaklanjuti? Ini analog dengan membeli mobil tanpa pengemudi. Anda tahu itu akan menjadi luar biasa, tetapi Anda tidak tahu apakah itu akan mendapatkan tilang atau menganggap pejalan kaki hanyalah bayangan. Memahami perlindungan di tempat sangat penting.

Bisakah kita melatih LLM lebih lanjut di domain spesifik kita, sehingga menjadi lebih andal, dan berapa biayanya? Apa yang sebenarnya terlibat dalam pelabelan dan penyiapan data pelatihan baru agar model tetap terkini? Bagaimana kami menggunakan model ini dengan aman, sehingga data rahasia pelanggan dan perusahaan kami tidak akan terungkap? Bagaimana LLM ini lebih baik dari yang lain untuk penggunaan khusus kami? Saya bisa melanjutkan.

Mengambil langkah maju dengan memperoleh model dasar atau model bahasa yang diadaptasi secara vertikal adalah komitmen besar. Anda perlu membangun pengetahuan dan keahlian dalam model AI, dan memahami keterampilan dan alat apa yang diperlukan untuk menjadikannya sesuai dengan harga dengan memberikan kinerja jangka panjang yang berharga. Rencanakan beberapa kesuksesan awal dengan proyek, serta kemungkinan jangkauan yang lebih jauh. AI dan penggunaan perangkat lunak model bahasa tidak dapat dihindari; pertanyaan terbesar dari semuanya mungkin adalah apakah Anda bergerak ke dalamnya sekarang, dengan risiko dan manfaat dari pengadopsi awal, atau Anda mundur untuk mengurangi risiko yang juga berarti — mungkin — keunggulan kompetitif AI yang lebih sedikit.

Kredit gambar: agsandrew/ depositphotos

Masalah data tidak terstruktur dalam model pondasi [Q&A]

Author: Kenneth Henderson

Archives

Categories

Meta