Belajar Uji Normalitas Suatu Distribusi
Uji normalitas merupakan langkah penting untuk menentukan metode statistik yang sesuai untuk analisis data. Ketika data mengikuti distribusi normal, tes parametrik dilakukan. Jika tidak, metode nonparametrik digunakan untuk menguji data. Metode yang dapat digunakan untuk menguji normalitas data bisa menggunakan metode numerik dan visual. Setiap metode memiliki kelebihan dan kekurangan masing-masing.
Metode visual menggambarkan data dalam bentuk kurva dan dibandingkan dengan distribusi yang sesuai. Metode visual yang dapat digunakan untuk uji normalitas antara lain:
- Histogram
- Boxplot
- QQ-plot
Metode numerik untuk uji normalitas antara lain:
- Uji Saphiro-Wilk
- Uji Anderson-Darling
Histogram
Misalnya kita punya dua buah distribusi A dan B. Dengan rata-rata (loc) untuk A = 0 dan simpangan baku (scale) = 5. Distribusi B merupakan distribusi skewnormal yang mempunyai (x - loc)/scal= 5.
Bentuk histogram distribusi A dan B digambarkan sebagai berikut:
Distribusi A tersebar merata di sisi kiri dan kanan mean, sementara distribusi B mempunyai ekor lebih panjang di sisi kanan.
Lihat karakteristik distribusi normal di: https://van-plaosan.medium.com/belajar-distribusi-normal-7b385745e157
Boxplot
Boxplot distribusi A menunjukkan data tersebar merata di sisi kiri (Q1 dan nilai minimal) dan kanan (Q3 dan nilai maksimal) nilai mean dan mediannya, walau di whisker sisi kiri nampak ada beberapa data pencilan yang mengumpul.
Boxplot distribusi B lebih memanjang di sisi Q3 dengan nilai maksimal yang lebih panjang daripada nilai minimal, begitu pula sisa pencilan terkumpul hanya di sisi kanan.
QQ-Plot
Sebaran data distrbusi A mengikuti dengan baik pola garis merah yang merupakan garis nilai untuk data dengan bentuk distribusi normal. Nilai r2 juga menunjukan kesesuain yang sempurna antara distribusi normal dengan acuan data distribusi normal.
Kurva qq-plot untuk distribusi B menyimpang dari acuan garis merah yang merupakan sebaran untuk data dengan bentuk distribusi normal.
Shapiro-Wilk test
Hasil test Shapiro untuk Distribusi A: ShapiroResult(statistic=0.9998517036437988,pvalue=0.791450202465057)
p-value untuk distribusi A lebih besar daripada 0,05 sehingga disimpulkan tidak ada perbedaan signifikan antara distribusi A dengan distribusi normal
Hasil test Shapiro untuk Distribusi B: ShapiroResult(statistic=0.9528053998947144, pvalue=0.0)
Distribusi B mempunyai p-value lebih kecil daripada 0,05 sehingga ada perbedaan signifikan antara distribusi B dengan distribusi normal.
Anderson-Darling test
Hasil test Anderson untuk Distribusi A: AndersonResult(statistic=0.22188630309210566, critical_values=array([0.576, 0.656, 0.787, 0.918, 1.092]), significance_level=array([15. , 10. , 5. , 2.5, 1. ]))
Distribusi A dengan selang kepercayaan 5% mempunyai nilai statistik lebih kecil dari nilai kritisnya yaitu 0,656, sehingga dikatakan, distribusi A tidak berbeda secara signifikan dengan acuan distribusi normal.
Hasil test Anderson untuk Distribusi B: AndersonResult(statistic=115.5433167905212, critical_values=array([0.576, 0.656, 0.787, 0.918, 1.092]), significance_level=array([15. , 10. , 5. , 2.5, 1. ]))
Nilai statistik distribusi B 115,543 jauh lebih besar daripada nilai kritis disemua selang kepercayaan. Dapat disimpulkan bahwa distribusi B tidak mengikuti bentuk distribusi normal.