Belajar Uji Normalitas Suatu Distribusi

Suprapto van Plaosan
3 min readOct 24, 2020

--

Uji normalitas merupakan langkah penting untuk menentukan metode statistik yang sesuai untuk analisis data. Ketika data mengikuti distribusi normal, tes parametrik dilakukan. Jika tidak, metode nonparametrik digunakan untuk menguji data. Metode yang dapat digunakan untuk menguji normalitas data bisa menggunakan metode numerik dan visual. Setiap metode memiliki kelebihan dan kekurangan masing-masing.

Metode visual menggambarkan data dalam bentuk kurva dan dibandingkan dengan distribusi yang sesuai. Metode visual yang dapat digunakan untuk uji normalitas antara lain:

  • Histogram
  • Boxplot
  • QQ-plot

Metode numerik untuk uji normalitas antara lain:

  • Uji Saphiro-Wilk
  • Uji Anderson-Darling

Histogram

Misalnya kita punya dua buah distribusi A dan B. Dengan rata-rata (loc) untuk A = 0 dan simpangan baku (scale) = 5. Distribusi B merupakan distribusi skewnormal yang mempunyai (x - loc)/scal= 5. Bentuk histogram distribusi A dan B digambarkan sebagai berikut:

Distribusi A tersebar merata di sisi kiri dan kanan mean, sementara distribusi B mempunyai ekor lebih panjang di sisi kanan.

Lihat karakteristik distribusi normal di: https://van-plaosan.medium.com/belajar-distribusi-normal-7b385745e157

Boxplot

Boxplot distribusi A menunjukkan data tersebar merata di sisi kiri (Q1 dan nilai minimal) dan kanan (Q3 dan nilai maksimal) nilai mean dan mediannya, walau di whisker sisi kiri nampak ada beberapa data pencilan yang mengumpul.

Boxplot distribusi B lebih memanjang di sisi Q3 dengan nilai maksimal yang lebih panjang daripada nilai minimal, begitu pula sisa pencilan terkumpul hanya di sisi kanan.

QQ-Plot

Sebaran data distrbusi A mengikuti dengan baik pola garis merah yang merupakan garis nilai untuk data dengan bentuk distribusi normal. Nilai r2 juga menunjukan kesesuain yang sempurna antara distribusi normal dengan acuan data distribusi normal.

Kurva qq-plot untuk distribusi B menyimpang dari acuan garis merah yang merupakan sebaran untuk data dengan bentuk distribusi normal.

Shapiro-Wilk test

Hasil test Shapiro untuk Distribusi A: ShapiroResult(statistic=0.9998517036437988,pvalue=0.791450202465057)

p-value untuk distribusi A lebih besar daripada 0,05 sehingga disimpulkan tidak ada perbedaan signifikan antara distribusi A dengan distribusi normal

Hasil test Shapiro untuk Distribusi B: ShapiroResult(statistic=0.9528053998947144, pvalue=0.0)

Distribusi B mempunyai p-value lebih kecil daripada 0,05 sehingga ada perbedaan signifikan antara distribusi B dengan distribusi normal.

Anderson-Darling test

Hasil test Anderson untuk Distribusi A: AndersonResult(statistic=0.22188630309210566, critical_values=array([0.576, 0.656, 0.787, 0.918, 1.092]), significance_level=array([15. , 10. ,  5. ,  2.5,  1. ]))

Distribusi A dengan selang kepercayaan 5% mempunyai nilai statistik lebih kecil dari nilai kritisnya yaitu 0,656, sehingga dikatakan, distribusi A tidak berbeda secara signifikan dengan acuan distribusi normal.

Hasil test Anderson untuk Distribusi B: AndersonResult(statistic=115.5433167905212, critical_values=array([0.576, 0.656, 0.787, 0.918, 1.092]), significance_level=array([15. , 10. ,  5. ,  2.5,  1. ]))

Nilai statistik distribusi B 115,543 jauh lebih besar daripada nilai kritis disemua selang kepercayaan. Dapat disimpulkan bahwa distribusi B tidak mengikuti bentuk distribusi normal.

Kode yang dipakai pada materi di atas ada dalam video berikut:

--

--