AIOps modern tidak hanya memperbaiki pemadaman — tetapi juga mencegahnya

AIOps modern tidak hanya memperbaiki pemadaman -- tetapi juga mencegahnya

Apakah bisnis Anda hanya berjarak satu klik yang tidak disengaja dari pemadaman besar? Kami melihat itu terjadi dengan Atlassian awal tahun ini. Anda mungkin sudah memiliki strategi dan pemantauan manajemen insiden, tetapi apakah itu disesuaikan dengan infrastruktur TI dan arsitektur aplikasi yang selalu berubah? Menerapkan protokol yang sesuai memastikan bahwa satu dorongan kode manusia tidak dapat mematikan seluruh sistem selama tiga minggu.

Alat pemantauan lama untuk tim TI sangat membantu dengan infrastruktur monolitik yang lebih tua. Ketika kami memiliki infrastruktur statis, menemukan korelasi langsung antara insiden dan aplikasi jauh lebih mudah. Pada akhirnya, sinyal membutuhkan pemrosesan yang lebih cepat, tetapi alat lama tidak dapat mengimbanginya.

Pertumbuhan pesat DevOps selama dekade terakhir dan evolusi percepatan infrastruktur mengungkapkan bahwa strategi ini harus beradaptasi. Lingkungan infrastruktur terus berubah dengan kontainer, layanan mikro, dan aplikasi baru lainnya, secara dramatis meningkatkan kompleksitas dan kerapuhan sistem. Faktanya, 42 persen pemimpin teknologi menghubungkan faktor-faktor ini dengan peningkatan kompleksitas dalam sistem TI. Dan menambahkan lebih banyak komponen membuat waktu henti lebih sering dan lebih sulit untuk diselesaikan.

Harapan pelanggan juga berdampak pada lanskap TI modern. Orang-orang sangat bergantung pada berbagai aplikasi digital untuk bekerja dan bermain. Saat aplikasi atau layanan digital mogok, organisasi terkadang menghadapi hukuman yang meningkat dari menit ke menit. Ketidakmampuan untuk memenuhi standar berdampak negatif pada penjualan dan merek.

Masukkan AIOps: solusi yang dirancang untuk mendeteksi insiden dan meningkatkan waktu henti dengan memprioritaskan peristiwa penting dan belajar dari insiden sebelumnya untuk mengaktifkan dan menjalankan aplikasi dengan cepat.

Mengapa AIOps lama tidak lagi memotongnya

Mendeteksi peristiwa saja tidak cukup dalam ekonomi digital pertama saat ini. Setelah sistem mendeteksi anomali dalam data, sudah terlambat. Alih-alih pencegahan, tim TI yang menggunakan alat pemantauan lama hanya dapat fokus pada mitigasi. Dan dampaknya tidak luput dari perhatian pengguna.

Ketika ekspektasi pelanggan meningkat, perusahaan memiliki perjanjian tingkat layanan (SLA) yang semakin sempit. Namun tim TI yang berusaha mencegah insiden dan meningkatkan ketersediaan kesulitan untuk memenuhi target ini. Menambahkan alat pemantauan lama ke tumpukan bukanlah solusi yang efektif. Informasi menjadi tertutup dan lebih sulit untuk melacak solusinya. Dan saat perusahaan menambahkan alat pemantauan lama ke tumpukan alat mereka, semakin banyak yang mereka butuhkan untuk mengumpulkan informasi yang disembunyikan ini. Tim akan menghabiskan sebagian besar waktu mereka untuk memantau hanya untuk menemukan solusi yang tepat. Singkatnya, solusi AIOps harus beradaptasi — tidak hanya untuk kepentingan pengguna, tetapi juga untuk mencegah kelelahan tim TI.

Mencegah pemadaman sejak awal

Solusi AIOps modern mendeteksi masalah sebelum menjadi kritis dan memengaruhi pengguna akhir. Solusi ini menggunakan pembelajaran mesin (ML) untuk mengidentifikasi pola yang mengarah ke insiden dan mencegahnya terjadi lagi. Untuk mendeteksi insiden, AIOps modern tidak hanya menyerap data peristiwa seperti AIOps lama. Ini mencakup metrik, jejak dan log untuk memberikan gambaran yang lebih jelas dan tanda-tanda peringatan dini masalah. AIOps modern adalah solusi holistik, dan dengan menggabungkan banyak kemampuan dan menganalisis data yang diserap, pada akhirnya dapat menjadi satu-satunya alat pemantauan yang dibutuhkan tim.

Fokus paling signifikan dari AIOps modern adalah ketersediaan. Dengan menyatukan data ke dalam satu alat, AIOps membantu tim teknik mengurangi jumlah alat yang diperlukan untuk pemantauan. Tim TI dapat memperoleh gambaran menyeluruh tentang sistem hanya dengan melihat satu layar, meningkatkan visibilitas, dan meningkatkan ketersediaan.

Perusahaan mempersiapkan target Mean Time to Resolution (MTTR) mereka untuk memberikan pengalaman pelanggan terbaik, dan untuk melakukannya, alat AIOps modern adalah kunci untuk tetap berada di jalur yang benar. Ini menciptakan insiden yang lebih terorganisir dan terperinci melalui penyerapan data dan korelasi, menggabungkan peringatan. Ketika AIOps memberikan lebih banyak konteks pada sebuah insiden, tim yang bertanggung jawab dapat memperbaikinya dengan cepat. Penangkapan pengetahuan otomatis menyimpan informasi dan pelajaran dari resolusi masa lalu yang menyediakan dan sumber daya tambahan untuk menemukan solusi untuk menyelesaikan insiden baru dan masa depan.

Terlepas dari seberapa awal suatu organisasi mengadopsi AIOps, strategi pemantauan insiden asli harus berkembang untuk menjaga pengguna tetap aman dan nyaman. Perusahaan tidak dapat lagi kehilangan reputasi dan pelanggan mereka karena satu klik yang salah menyebabkan waktu henti berhari-hari.

Kredit gambar: Momius/depositphotos.com

Chris Boyd adalah seorang pemimpin teknik yang berpengalaman, fanatik observabilitas dan suka menantang status quo. Didorong oleh peningkatan kehidupan sesama teknolog saat bekerja dengan produk Observability, dia bangga dengan tim yang dia bangun dan solusi inovatif yang mereka kembangkan bersama. Anda mungkin mengenalnya dari pekerjaannya sebagai Direktur Teknik Keandalan Situs di GoDaddy sejak awal hingga peluncuran IPO yang sukses. Dia saat ini tinggal di Mesa, AZ, dan merupakan VP of Engineering untuk Moogsoft, pemimpin dalam AI dan Service Assurance.

Author: Kenneth Henderson