Membuat AI yang dapat diakses untuk semua

Dengan perkembangan AI baru-baru ini, kami telah melihat prioritas perusahaan teknologi besar adalah penciptaan model bahasa yang semakin besar. Meskipun skala besar memiliki keuntungan, biaya yang meningkat terkait dengan pelatihan dan menjalankan model besar ini telah menjadi hambatan yang signifikan, terutama untuk usaha kecil dan menengah. Dengan mengingat hal ini, dan saat pengembang baru memasuki ruang angkasa, kami melihat tren ini perlahan-lahan bergeser, fokus beralih dari model skala, dan sekarang ke bagaimana teknologi AI dapat diakses dan terjangkau oleh semua orang.

Dengan keterbatasan dana yang menjadi tantangan signifikan bagi organisasi kecil yang ingin berinvestasi di AI, kami dapat melihat model yang sangat mahal menghambat inovasi dan keragaman di pasar. Menyesuaikan model seperti GPT-4 untuk kasus penggunaan bisnis tertentu saat ini disertai dengan label harga yang lumayan, seringkali mencapai puluhan ribu dolar. Selain itu, karena model menjadi lebih kompleks, biaya operasional jangka panjang melonjak. Misalnya, memelihara server untuk ChatGPT dapat menimbulkan biaya harian yang luar biasa dengan nyaman dalam enam angka. Perusahaan yang lebih kecil memerlukan arsitektur model yang cerdas dan dioptimalkan yang dapat bersaing dengan kemampuan model yang lebih besar dengan harga yang sesuai dengan ukuran bisnis mereka.

Biaya selangit ini dapat dengan mudah membuat penyesuaian model besar untuk aplikasi khusus domain tidak dapat dicapai oleh banyak organisasi. Namun, ada solusi potensial untuk masalah ini karena ada metode untuk mengatasi dan menurunkan biaya yang terkait dengan pelatihan dan pengoperasian model AI.

Strategi untuk Pengembangan Hemat Biaya

Ada beberapa tahapan dalam pelatihan dan penyetelan model AI, masing-masing dengan metode dan pertimbangannya sendiri dalam hal pengurangan biaya. Salah satu pendekatan umum adalah mengambil model sumber terbuka yang ada dan melatihnya agar selaras dengan kebutuhan khusus organisasi. Untuk meminimalkan biaya pelatihan dan pengoperasian, penting untuk menentukan jumlah parameter dan penyetelan paling sedikit yang diperlukan untuk setiap kasus penggunaan tertentu.

Tiga jenis penyetelan model memainkan peran penting dalam membuat model sesuai untuk tujuan: penyetelan halus, penyetelan set instruksi, dan penyetelan cepat.

Mengoptimalkan Model melalui Penyempurnaan

Penyetelan halus melibatkan penyesuaian kecil pada cara model memahami dan menyandikan bahasa dalam domain tertentu. Ini memungkinkan pengguna untuk mengatasi masalah token yang kurang terwakili, sehingga meningkatkan pemahaman kontekstual model. Misalnya, jika sebuah model awalnya dirancang untuk mengenali dan mengkategorikan makalah ilmiah, menyempurnakannya untuk kasus penggunaan serupa, seperti penelitian paten, bisa jadi lebih efisien daripada melatih model yang lebih umum dari awal.

Dengan rajin menyusun kumpulan data, sering kali menggabungkan data hak milik bisnis, model yang disetel dengan baik dapat melampaui keakuratan model generik asalnya. Pendekatan yang menekankan kualitas daripada kuantitas meningkatkan akurasi sekaligus meminimalkan total waktu pelatihan.

Pendekatan yang Lebih Cerdas untuk Instruksi Model

Penyesuaian set instruksi dapat menawarkan biaya dan efisiensi data dibandingkan dengan penyetelan halus, meskipun membutuhkan perumusan instruksi dan petunjuk yang cermat. Mengotomatiskan pengumpulan data untuk mengaktifkan skalabilitas menimbulkan tantangan lain untuk pendekatan ini.

Diperkenalkan pada tahun 2021 melalui makalah ‘Fine-tuned Language Models Are Zero-Shot Learners’ oleh peneliti Google, penyetelan set instruksi adalah teknik yang relatif baru. Ini memerlukan model dengan pemahaman tentang instruksi spesifik, menghilangkan kebutuhan pengguna untuk memberikan panduan langkah demi langkah.

Namun, pendekatan ini memiliki keterbatasan, khususnya dalam mengelola kerugian kinerja yang disebabkan oleh instruksi yang kontraproduktif atau tumpang tindih. Mengatasi tantangan ini melibatkan penggunaan kumpulan data yang sangat disesuaikan dan dikuratori dengan instruksi rahasia, biasanya membutuhkan pembuatan dan kurasi manual. Alternatifnya, menyebarkan “segerombolan” model bahasa khusus yang cerdas dapat secara otomatis menghasilkan kumpulan data berkualitas tinggi, mengurangi kebutuhan akan tenaga kerja manusia yang ekstensif.

Mengekstraksi Pengetahuan dari Model

Penyesuaian cepat memungkinkan organisasi untuk mengekstraksi pengetahuan khusus dari model berdasarkan informasi yang disandikan, mirip dengan merumuskan permintaan mesin pencari untuk mendapatkan hasil yang tepat. Saat kami memperkecil ke pengoptimalan tingkat tinggi ini, penting untuk diingat bahwa keefektifan penyetelan cepat bergantung pada kualitas penyetelan halus dan instruksi apa pun yang telah dilakukan.

Jika informasi yang diperlukan telah dikodekan dengan benar dalam model, penyempurnaan mungkin tidak diperlukan. Namun, karena bahasa memiliki banyak arti dalam konteks yang berbeda, penyesuaian sering kali menjadi sangat diperlukan untuk mengoptimalkan model untuk memenuhi domain khusus. Demikian pula, jika model memiliki kemampuan untuk mengeksekusi instruksi multi-langkah dan menyajikan informasi dengan cara yang mudah digunakan, penyetelan instruksi mungkin tidak diperlukan.

Menyeimbangkan Ukuran dan Kemampuan

Jumlah parameter dalam model, sering kali diukur dalam miliaran, menandakan jumlah komponen yang diaktifkan selama respons. Sementara jumlah parameter yang lebih tinggi mungkin menunjukkan hasil yang lebih baik, ini mungkin tidak efisien.

Untuk meningkatkan efektivitas biaya, memperlakukan ukuran dan kemampuan sebagai perkembangan linier harus dihindari. Sebaliknya, model harus lebih pintar dan menampilkan arsitektur yang dioptimalkan, bergerak melampaui pendekatan brute-force untuk setiap kasus penggunaan.

Pengembang harus mempertimbangkan tugas yang ingin diselesaikan oleh model AI mereka. Misalnya, dalam kasus model bahasa, penting untuk menentukan apakah model tersebut perlu unggul dalam bidang pemrosesan bahasa alami tertentu, seperti disambiguasi batas kalimat, validasi faktual, atau penandaan bagian ucapan. Analisis ini akan menyoroti area dalam arsitektur yang memerlukan perhatian terfokus dan mengidentifikasi peluang untuk penyederhanaan.

Pembuatan model yang disederhanakan memerlukan kemampuan untuk melakukan penyetelan halus, penyetelan set instruksi, dan penyetelan cepat dengan cara yang hemat biaya. Ini menetapkan “zona sedang” untuk jumlah parameter yang optimal. Terlalu sedikit dapat mengganggu kinerja, sementara terlalu banyak akan melebihi ambang batas dan mungkin membuat titik harga tidak dapat dicapai oleh bisnis kecil. Seperti halnya upaya intensif sumber daya apa pun, menjaga keseimbangan adalah kuncinya.

Pendekatan Data-Centric untuk AI

Konsep ‘Data-centric AI’, yang didukung oleh tokoh berpengaruh seperti Andrew Ng, menekankan pentingnya kualitas data daripada kuantitas. Dengan kemajuan algoritme dan proliferasi model bahasa besar sumber terbuka untuk model pelatihan, inilah saatnya untuk berfokus pada cara merekayasa data dalam membangun model hemat biaya tanpa mengorbankan kinerja. Pemimpin industri seperti Microsoft, melalui inisiatif seperti Phi-1, sudah menuju ke arah ini.

Aspek kuncinya adalah penekanan pada pengumpulan kumpulan data berkualitas tinggi yang dikuratori dengan hati-hati untuk penyempurnaan. Pendekatan ini memastikan akurasi tinggi dan mengurangi risiko menghasilkan informasi palsu sambil meminimalkan total waktu pelatihan. Ke depan, penggunaan kumpulan data sintetik mungkin menjadi pilihan yang layak, sehingga memungkinkan untuk mendapatkan data yang diperlukan dalam jumlah banyak, bahkan untuk domain yang sangat terspesialisasi.

Dalam membuat alat AI layak secara finansial untuk organisasi yang lebih kecil, penting untuk mengembangkan model bahasa yang lebih cerdas yang hanya menggunakan sumber daya komputasi dalam jumlah minimum. Biaya yang dihemat melalui ini akan memperluas akses ke alat canggih ini dan memastikan kami mengambil langkah signifikan menuju demokratisasi AI dan membuatnya tersedia untuk semua orang terlepas dari ukuran perusahaan atau spesialisasi domain mereka.

Kredit gambar: Laurent T / Shutterstock

Victor Botev adalah CTO dan salah satu pendiri Iris.ai. Victor adalah Peneliti AI dari Chalmers University of Technology, dan pemimpin teknologi di perusahaan internasional dan pengembang beberapa sistem otonom.

Membuat AI yang dapat diakses untuk semua

Strategi untuk Pengembangan Hemat Biaya

Mengoptimalkan Model melalui Penyempurnaan

Pendekatan yang Lebih Cerdas untuk Instruksi Model

Mengekstraksi Pengetahuan dari Model

Menyeimbangkan Ukuran dan Kemampuan

Pendekatan Data-Centric untuk AI

Author: Kenneth Henderson

Archives

Categories

Meta