Belajar Aplikasi Regresi Linier

Suprapto van Plaosan
3 min readNov 4, 2020

--

Nilai skor BMI, sesuai data di bawah, (lihat: https://van-plaosan.medium.com/belajar-jenis-data-dalam-dataset-74f2a9fd8d1e) dapat dihitung dari nilai berat badan dibagi kwadrat tinggi badan. Sehingga ada hubungan antara berat badan, tinggi badan dan BMI. Mungkin kah kita bisa memprediksi BMI hanya dari nilai berat badan?

Kurva korelasi antara ringgi badan, berat badan dan BMI adalah sebagai berikut:

image by author

Dari kurva pairplot terlihat bahwa ada korelasi baik antara tinggi badan dengan BMI, berat badan dengan BMI maupun antara berat badan dan tinggi badan.

Kurva regresi antara tinggi badan dengan BMI dan berat badan dengan BMI dibuat untuk mengetahui korelasi antar ketiga variabel.

Persamaan regresi untuk variabel tinggi badan dengan BMI adalah:

BMI = 18.44619429 * Tinggi Badan - 5.61995741

Dengan nilai r2 dan MSE

Koefisien korelasi = 0.44782745848583205, Mean Squared Error = 4.006500966330176

Persamaan regresi untuk variabel berat badan dengan BMI adalah:

BMI = 0.16580697 * Berat Badan + 13.33373481

Dengan nilai r2 dan MSE

Koefisien korelasi = 0.8036017087136652, Mean Squared Error = 1.4250435953706435

Dari nilai korelasi dan MSE sepertinya variabel berat badan lebih bagus untuk digunakan memprediksi skor BMI.

Berikut adalah sebaran data prediksi dan data awalnya.

image by author

Untuk memvalidasi kehandalan prediksi skor BMI menggunakan metode regresi linier, data dipecah menjadi 70% untuk training model regresi dan 30% untuk mengetes akurasinya.

image by author
Koefisien korelasi = -0.0005510580749554794, Mean Squared Error = 7.392056585043911
image by author
Koefisien korelasi = 0.8039663294798832, Mean Squared Error = 1.4482938910150052

Perbandingan antara nilai BMI awal dengan nilai BMI hasil prediksi dengan variabel prediktor berat badan ditunjukan pada diagram batang berikut:

Sepuluh data prediksi dan data awal dengan menggunakan prediktor berat badan adalah sebagai berikut:

y_test     y_pred
0 24.814771 25.516787
1 26.133215 26.476723
2 24.140073 24.826632
3 26.029346 25.756136
4 23.141954 23.744709
5 29.178230 30.528007
6 28.346900 26.800093
7 24.254917 24.204372
8 24.188169 25.579037
9 29.717664 27.869796

Konversi nilai prediktor ke 1/Tinggi Badan² hanya menaikan koefisien korelasi sekitar 1% menjadi:

Koefisien korelasi = 0.4581977082022348, Mean Squared Error = 3.931255617483385

Penggunaan prediktor dengan melibatkan kedua data tinggi badan dan berat badan, meningkatkan akurasi prediksi cukup baik.

image by author

Koefisien korelasi dan MSE yang diperoleh adalah sebagai berikut:

Koefisien korelasi = 0.980935428540095, Mean Squared Error = 0.13796751223734124

Persamaan multilinier yang diperoleh adalah:

BMI = 0.35473655 * Berat Badan - 30.39459686 * Tinggi Badan + 50.73502704

Hasil prediksi dengan prediktor tinggi badan dan berat badan adalah sebagai berikut:

y_test     y_pred
0 29.689269 30.948396
1 29.958425 30.189015
2 26.008970 25.745726
3 22.779750 22.927073
4 21.639463 22.335970
5 22.965041 23.159797
6 23.045776 22.958225
7 27.684478 27.848219
8 22.001010 22.170408
9 24.735106 24.602111

Diagram batang di bawah ini menunjukkan perbandingan hasil prediksi dan data awal dengan prediktor berat badan dan tinggi badan.

image by author

--

--

Suprapto van Plaosan
Suprapto van Plaosan

Written by Suprapto van Plaosan

Penulis adalah Staf Pengajar Kimia Analitik

No responses yet