Fri. Aug 19th, 2022

Metode baru mengidentifikasi akar penyebab outlier statistik – Outlier adalah pengamatan langka di mana suatu sistem menyimpang dari perilaku biasanya. Mereka muncul di banyak aplikasi dunia nyata (misalnya, kedokteran, keuangan) dan menghadirkan permintaan penjelasan yang lebih besar daripada peristiwa biasa. Bagaimana kita bisa mengidentifikasi “akar penyebab” outlier setelah terdeteksi?

Metode baru mengidentifikasi akar penyebab outlier statistik

brainmysteries – Masalah outlier adalah salah satu masalah tertua dalam statistik. Ini telah menjadi subjek penyelidikan akademis selama lebih dari satu abad. Meskipun banyak yang telah dilakukan untuk mendeteksi outlier , cara formal untuk mendefinisikan “akar penyebab” outlier masih kurang.

Minggu ini, di Konferensi Internasional tentang Pembelajaran Mesin ( ICML ), kami mempresentasikan pekerjaan kami dalam mengidentifikasi akar penyebab outlier. Tugas pertama kami adalah memperkenalkan definisi formal “akar penyebab”, karena kami tidak dapat menemukannya dalam literatur akademis.

Baca juga : Apakah Semua Orang Bisa Membedakan Molekul Dari Atom

Definisi kami mencakup formalisasi kontribusi kausal kuantitatif dari masing-masing akar penyebab dari outlier yang diamati. Dengan kata lain, kontribusi menggambarkan sejauh mana variabel bertanggung jawab atas kejadian outlier. Ini juga berkaitan dengan pertanyaan filosofis; bahkan pertanyaan kualitatif murni apakah suatu peristiwa adalah “penyebab sebenarnya” dari yang lain adalah perdebatan yang sedang berlangsung di antara para filsuf.

Pendekatan kami didasarkan pada model kausal grafis , kerangka kerja formal yang dikembangkan oleh pemenang Penghargaan Turing Judea Pearl untuk memodelkan hubungan sebab-akibat antara variabel dalam suatu sistem. Ini memiliki dua bahan utama. Yang pertama adalah diagram kausal, yang secara visual mewakili hubungan sebab-akibat antara variabel yang diamati, dengan panah dari node yang mewakili penyebab ke node yang mewakili efek. Yang kedua adalah seperangkat mekanisme kausal, yang menggambarkan bagaimana nilai setiap simpul dihasilkan dari nilai induknya (yaitu, penyebab langsung) dalam diagram kausal.

Bayangkan, misalnya, situs web ritel yang didukung oleh layanan web terdistribusi. Pelanggan mengalami waktu pemuatan yang sangat lambat. Mengapa? Apakah ini database yang lambat di bagian belakang? Layanan pembelian yang tidak berfungsi?

Ada banyak algoritma deteksi outlier . Untuk mengidentifikasi akar penyebab outlier yang terdeteksi oleh salah satu algoritme ini, pertama-tama kami memperkenalkan skor outlier teoretis informasi (TI), yang secara probabilistik mengkalibrasi skor outlier yang ada.

Skor outlier kami bergantung pada gagasan probabilitas ekor – probabilitas bahwa variabel acak melebihi nilai ambang batas. Skor outlier TI dari suatu peristiwa adalah logaritma negatif dari probabilitas ekor peristiwa di bawah beberapa transformasi. Ini terinspirasi oleh definisi Claude Shannon tentang konten informasi dari peristiwa acak dalam teori informasi .

Semakin rendah kemungkinan untuk mengamati peristiwa yang lebih ekstrem daripada peristiwa yang dimaksud, semakin banyak informasi yang dibawa oleh peristiwa tersebut, dan semakin besar skor outlier TI-nya. Kalibrasi probabilistik juga membuat skor outlier TI dapat dibandingkan di seluruh variabel dengan dimensi, rentang, dan penskalaan yang berbeda.

Kontrafaktual

Untuk mengatribusikan kejadian outlier ke suatu variabel, kita mengajukan pertanyaan kontrafaktual “Apakah kejadian tersebut tidak akan menjadi outlier seandainya mekanisme kausal variabel itu normal?” Counterfactuals adalah anak tangga ketiga di tangga penyebab Pearl dan karenanya membutuhkan model kausal fungsional (FCMs) sebagai mekanisme kausal variabel.

Dalam FCM, setiap variabel X j adalah fungsi dari orang tua yang diamati PA j (dengan panah langsung ke X j ) dalam diagram kausal dan variabel kebisingan yang tidak teramati N j . Karena node root yang tidak memiliki parent yang diamati hanya memiliki variabel noise, distribusi bersama dari variabel noise menimbulkan sifat stokastik dari variabel yang diamati.

Variabel noise yang tidak teramati memainkan peran khusus: kita dapat menganggap N j sebagai saklar acak yang memilih fungsi deterministik (atau mekanisme) dari sekumpulan fungsi F j yang didefinisikan dari penyebab langsung PA j ke efeknya X j . Jika, alih-alih memperbaiki nilai suku noise N j , kita menetapkannya ke nilai acak yang diambil dari beberapa distribusi, maka fungsi dari himpunan F j juga dipilih secara acak, dan kita dapat menggunakan prosedur ini untuk menetapkan mekanisme deterministik normal ke Xj .

Meskipun operasi pengacakan ini mungkin tampak tidak layak jika kita menganggap variabel kebisingan sebagai sesuatu yang tidak berada di bawah kendali kita dan lebih buruk lagi, bahkan tidak dapat diamati kita dapat menafsirkannya sebagai intervensi pada variabel yang diamati.

By rainmys