Deteksi dan Penghilangan Pencilan/Outlier
Pencilan/Outlier adalah data atau pengamatan yang tampak menyimpang secara nyata dari pengamatan lain dalam sampel. Biasanya pencilan terletak jauh atau sangat berbeda dari nilai-nilai lain dalam sampel acak dari suatu populasi. Dengan pengertian ini, definisi mengenai pencilan ini menyerahkan kepada analis (atau proses konsensus) untuk memutuskan apa yang akan dianggap tidak normal. Sebelum data atau observasi abnormal dipilih, data/observasi yang normal perlu dikarakterisasi.
Identifikasi pencilan potensial penting karena alasan berikut.
- Pencilan mungkin menunjukkan data yang buruk. Misalnya, data mungkin telah dikodekan dengan tidak benar atau eksperimen mungkin tidak dilakukan dengan benar. Jika dapat ditentukan bahwa titik terluar ternyata keliru, maka nilai terluar harus dihapus dari analisis (atau dikoreksi jika memungkinkan).
- Dalam beberapa kasus, tidak mungkin untuk menentukan apakah data terpencil adalah data yang buruk. Pencilan mungkin karena variasi acak atau mungkin menunjukkan sesuatu yang menarik secara ilmiah. Biasanya peneliti tidak ingin begitu saja menghapus data yang dianggap pencilan ini. Namun, jika data mengandung pencilan yang signifikan, mungkin perlu dipertimbangkan penggunaan teknik statistik yang sesuai.
Iglewicz dan Hoaglin (Boris Iglewicz and David Hoaglin (1993), “Volume 16: How to Detect and Handle Outliers”, The ASQC Basic References in Quality Control: Statistical Techniques, Edward F. Mykytka, Ph.D., Editor.) menyarankan tiga pendekatan berikut sehubungan dengan pencilan.
- pelabelan pencilan — tandai pencilan potensial untuk penyelidikan lebih lanjut (yaitu, apakah pencilan adalah data yang keliru dan menunjukkan model distribusi yang tidak tepat).
- akomodasi pencilan — gunakan teknik statistik yang sesuai yang tidak akan terlalu terpengaruh oleh pencilan. Artinya, jika tidak memungkinkan untuk menentukan bahwa dugaan pencilan adalah pengamatan yang salah, apakah memodifikasi analisis statistik diperlukan agar lebih tepat menjelaskan pengamatan?
- identifikasi pencilan — secara formal menguji apakah data/pengamatan merupakan pencilan.
Mengidentifikasi pengamatan sebagai pencilan bergantung pada distribusi data yang mendasarinya. Jika asumsi normalitas untuk data yang diuji tidak valid, maka penentuan bahwa ada pencilan mungkin sebenarnya disebabkan oleh non-normalitas data daripada adanya pencilan.
Dua cara penting untuk mengkarakterisasi data:
- Pemeriksaan data dalam bentuk grafik untuk mengamati fitur-fitur penting seperti simetri dan penyimpangan dari asumsi. Biasanya metode Exploratory Data Analysis (EDA) digunakan untuk mengamati asumsi dan fitur data secara rinci.
- Pemeriksaan data untuk mengamati data yang tidak biasa, yaitu data yang jauh dari titik massa data. Titik-titik yang jauh dari titik massa data seringkali disebut sebagai pencilan. Dua teknik grafis untuk mengidentifikasi pencilan, kurva distribusi (histogram atau kurva densitas) dan kurva kotak (boxplot), disamping prosedur analitik untuk mendeteksi pencilan ketika distribusinya normal (Tes Grubbs).
Boxplot adalah tampilan grafis yang berguna untuk menggambarkan perilaku data di tengah maupun di ujung distribusi. Boxplot menggunakan median dan kuartil bawah (Q1) dan atas (Q3) (didefinisikan sebagai persentil ke — 25 dan ke — 75 ).Perbedaan (Q3 — Q1) disebut rentang interkuartil atau IQ.
Boxplot dibuat dengan menggambar kotak antara kuartil atas dan bawah dengan garis lurus yang ditarik melintasi kotak untuk menemukan median. Nilai batas atas dan bawah kotak adalah nilai Q3 dan Q1. Dengan nilai Minimal : Q1–1.5 * IQ dan nilai Maksimal Q3 + 1.5 * IQ
Berikut ini adalah beberapa pengujian pencilan yang lebih umum digunakan untuk data yang terdistribusi normal.
1. Uji Grubbs
Uji Grubbs digunakan untuk mendeteksi pencilan tunggal dalam kumpulan data univariat yang mengikuti distribusi yang mendekati normal .
Persamaan untuk Uji Grubbs
dimana: G = Statistik uji untuk tes Grubbs, Yi = Satu elemen dalam dataset yang sedang diuji, Y = Rata-rata sampel, dan s = Deviasi standar sampel
Dengan persamaan nilai kritis
Dimana: n adalah ukuran sampel yang diambil dari populasi dan t adalah nilai yang diambil dari distribusi-t Student; itu memiliki area ekor kanan sama dengan tingkat signifikansi dan n — 2 derajat kebebasan (df).
Uji Grubbs juga dikenal sebagai tes residual normed maksimum.
2. Uji Tietjen-Moore
Uji Tietjen-Moore digunakan untuk mendeteksi beberapa pencilan dalam kumpulan data univariat yang mengikuti distribusi yang mendekati normal .
Uji Tietjen-Moore adalah generalisasi dari Uji Grubbs untuk kasus beberapa pencilan. Jika menguji satu pencilan,Uji Tietjen-Moore kurang lebih akan sama dengan Uji Grubbs.
Penting untuk dicatat bahwa UjiTietjen-Moore mensyaratkan jumlah pencilan yang dicurigai harus ditentukan dengan tepat. Jika ini tidak diketahui, disarankan untuk menggunakan Uji Generalized Extreme Studentized Deviate (ESD) sebagai gantinya (tes ini hanya memerlukan batas atas pada jumlah pencilan yang dicurigai).
3. Uji Generalized Extreme Studentized Deviate (ESD)
Uji ini hanya memerlukan batas atas pada jumlah pencilan yang dicurigai dan merupakan tes yang disarankan ketika jumlah pasti pencilan tidak diketahui. Uji ESD umum digunakan untuk mendeteksi satu atau lebih pencilan dalam kumpulan data univariat yang mengikuti distribusi yang mendekati normal .
Batasan utama uji Grubbs dan uji Tietjen-Moore adalah bahwa jumlah pencilan yang dicurigai, k , harus ditentukan dengan tepat. Jika k tidak ditentukan dengan benar, ini dapat merusak kesimpulan dari pengujian ini. Di sisi lain, tes ESD umum hanya mensyaratkan bahwa batas atas untuk jumlah pencilan yang dicurigai harus ditentukan.
Sebelum mempertimbangkan kemungkinan penghapusan titik-titik ini dari data, kita harus mencoba memahami mengapa titik-titik itu muncul dan apakah kemungkinan nilai-nilai serupa akan terus muncul. Tentu saja, pencilan sering kali merupakan titik data yang buruk.
Sumber: NIST/SEMATECH e-Handbook of Statistical Methods, http://www.itl.nist.gov/div898/handbook/, 14/04/2021.