Kendalikan hal-hal menakutkan: churn, insiden, dan waktu henti

Kendalikan hal-hal menakutkan: churn, insiden, dan waktu henti

kegagalan data

Tiga kata singkat menunjukkan dampak besar (dan ketakutan) bagi organisasi: churn, insiden, dan waktu henti. Mengingat bahwa Gartner melaporkan perusahaan mungkin berisiko kehilangan hingga setengah juta USD setiap jam dari insiden parah (berdasarkan kerugian dan waktu untuk memulihkan), dewan direksi harus menganggap serius kesehatan operasi digital perusahaan. Untungnya, mereka yang bertanggung jawab atas operasi digital dan respons insiden memiliki sejumlah besar kemampuan dan layanan yang dapat mereka gunakan secara drastis yang dapat mengurangi dampak waktu henti dan ketidakstabilan pada organisasi mereka.

Dengan perkiraan resesi yang panjang untuk Inggris, memanfaatkan alat ini untuk lebih memahami, merencanakan, dan memprediksi sangatlah penting. Mencapai tingkat kedewasaan operasional ini berarti bisnis dilengkapi dengan analitik, komunikasi, pemahaman, dan kemampuan yang tepat untuk mengambil tindakan untuk mengelola semua ancaman dan insiden — dan mencoba untuk mencegah sebanyak mungkin agar tidak terjadi sejak awal. Kematangan operasional sejati melampaui teknologi yang ada untuk juga mencakup orang dan proses yang terlibat. Elemen ‘manusia’ ini tidak kalah pentingnya karena terkait dengan metrik dan hasil penting seperti jam kerja, kelelahan staf, dan gesekan.

Apa itu kematangan operasional?

Setiap organisasi jatuh ke dalam salah satu dari lima tahap kematangan operasional, dari manual hingga preventif. Tujuannya adalah untuk mencapai keadaan preventif kematangan operasional, tetapi banyak organisasi merasa kurang siap. Kelima tahapan tersebut dapat digambarkan sebagai berikut (masing-masing bangunan di atas):

1. MANUAL — tidak ada integrasi masuk dengan alat observasi (insiden dimulai secara manual).

2. REAKTIF — organisasi hanya memiliki beberapa integrasi masuk tetapi tidak ada proses yang ditetapkan untuk mengelola insiden.

3. RESPONSIF — ada jadwal pemanggilan yang ditentukan dan beberapa tingkat eskalasi; dengan tim bergerak menuju kepemilikan layanan penuh.

4. PROAKTIF — integrasi masuk dan keluar, ketergantungan layanan, peristiwa perubahan, dan pemutaran respons tersedia untuk memperbaiki masalah sebelum pelanggan menyadarinya.

5. PREVENTATIF — organisasi mengadopsi fitur intelijen peristiwa dan/atau menggunakan analitik untuk memungkinkan remediasi prediktif.

Saat bisnis menaiki ‘tangga’ kematangan operasional menuju keadaan preventif, ia akan menemukan bahwa dengan setiap anak tangga insiden dikelola dengan lebih lancar, cepat, dan dengan sumber daya yang berkurang.

Ada dua faktor penting yang mendasari tangga kedewasaan: tanggap dan proaktif. Sederhananya, daya tanggap adalah seberapa cepat dan efisien suatu organisasi mampu mengelola pekerjaan yang mendesak, tidak terencana, dan sangat penting seperti yang terlihat. Daya tanggap organisasi adalah hasil dari pelatihan, proses, dan solusi yang dimilikinya untuk mengidentifikasi dan meremediasi insiden yang terjadi. Pertanyaan penting untuk ditanyakan saat mengidentifikasi tingkat kematangan operasional organisasi meliputi:

“Berapa lama waktu yang diperlukan untuk suatu insiden diakui?” “Seberapa cepat kita dapat memobilisasi responden?” “Berapa lama waktu yang kita perlukan untuk menyelesaikan insiden?” dalam bulan biasa?”

Jika ketanggapan adalah bagaimana suatu organisasi menanggapi suatu insiden, proaktif harus dianggap sebagai seberapa cepat suatu organisasi mengidentifikasi insiden itu. Terlalu sering, pelanggan adalah orang pertama yang memperhatikan dan memperingatkan bisnis tentang masalah tersebut. Sebuah tim internal untuk bisnis tersebut kemudian membuat tiket secara manual, dan proses respons insiden akhirnya dapat dimulai. Tapi ada cara yang lebih baik. Dengan pendekatan yang tepat untuk operasi digital, sebuah organisasi dapat menjadi yang pertama mengetahui kapan insiden terjadi dan menyelesaikannya — bahkan sebelum pelanggan terkena dampaknya. Saat menentukan tingkat keproaktifan perusahaan, penting untuk mempertimbangkan:

“Siapa atau apa yang mengidentifikasi insiden kita?” “Bagaimana proses untuk memberi tahu tim yang tepat tentang insiden tersebut?”

Jalan menuju kedewasaan

Mencapai keadaan akhir kematangan operasional penuh akan bergantung pada dari mana Anda berasal dan, khususnya, keadaan operasi dan infrastruktur TI bisnis. Jika fungsi-fungsi itu difokuskan hanya untuk bertahan hidup, mulailah dengan mengakui dan mendukung tim yang membuat piring terus berputar, lalu memetakan strategi untuk mencapai stabilitas. Kurangnya sumber daya bukan berarti rencana tidak boleh dibuat — bersiaplah.

Tingkat kematangan operasional yang lebih tinggi dan penerapan transformasi digital memperkenalkan manfaat seperti respons yang lebih cepat terhadap insiden dan kemampuan untuk mengelola beban kerja dalam jam-jam inti. Hal ini penting karena memungkinkan pemerataan pekerjaan di seluruh tim dan mengurangi kerja keras dan stres yang akan menghasilkan gesekan yang lebih rendah. Dengan jadwal pemanggilan yang ditentukan dan prosedur eskalasi, keandalan respons meningkat. Hal ini akan berdampak langsung pada stabilitas lingkungan operasional dan aplikasi yang bergantung, mengurangi biaya yang dikeluarkan dan/atau kerusakan reputasi yang disebabkan oleh kejadian tak terduga dan, pada gilirannya, akan mengurangi ketidakpuasan dan churn pelanggan.

Ada angka di balik ini. Laporan Operasi Digital PagerDuty tahun 2022 menunjukkan, berdasarkan data pelanggan, bahwa 42 persen tim teknis bekerja lebih lama pada tahun 2021 dibandingkan tahun sebelumnya. Sebagian besar (54 persen) diinterupsi di luar jam kerja normal dengan pekerjaan break-fix. Mereka yang memiliki kematangan operasional yang lebih besar menderita lebih sedikit dari pekerjaan yang mahal dan tidak terencana.

Kematangan operasional memastikan keunggulan, menghilangkan kekhawatiran

Bersama-sama, kematangan operasional, DevOps, dan kepemilikan layanan penuh menawarkan model akuntabilitas dan kontrol lingkungan digital ini. Otomasi tak pelak lagi merupakan bagian penting dari keadaan lanjut ini: alat semacam itu mendukung respons yang cepat dan terfokus terhadap kejadian dan insiden operasional. Di bawah tenda, alat-alat ini sering menggunakan pembelajaran mesin untuk menyaring ‘kebisingan’, mengingatkan operasi hanya bila diperlukan dan menghilangkan ‘kelelahan waspada’ yang biasanya dikaitkan dengan peran teknik panggilan.

Sekarang, lebih dari sebelumnya, penting bagi dewan untuk menghargai sejauh mana kematangan dalam operasi digital mendukung garis bawah organisasi mereka – dengan bersikap proaktif dan preventif dalam pengelolaan insiden, dan dalam upaya untuk memastikan bahwa risiko kebakaran kecil tidak pernah terjadi. neraka. Untuk itu, kepemimpinan senior tidak hanya harus berinvestasi, tetapi juga memahami bagaimana tantangan churn, insiden, dan downtime paling baik dilawan. Setiap bisnis adalah bisnis digital, pada tingkat yang lebih besar atau lebih kecil, dan harus membayar lebih dari basa-basi untuk kebutuhan operasional digital mereka jika ingin bertahan dan berkembang.

Kredit foto: pathdoc / Shutterstock

Lee Fredricks adalah Direktur Solusi Konsultasi, EMEA dari PagerDuty.

Author: Kenneth Henderson