Belajar Aplikasi Regresi Linier
Nilai skor BMI, sesuai data di bawah, (lihat: https://van-plaosan.medium.com/belajar-jenis-data-dalam-dataset-74f2a9fd8d1e) dapat dihitung dari nilai berat badan dibagi kwadrat tinggi badan. Sehingga ada hubungan antara berat badan, tinggi badan dan BMI. Mungkin kah kita bisa memprediksi BMI hanya dari nilai berat badan?
Kurva korelasi antara ringgi badan, berat badan dan BMI adalah sebagai berikut:
Dari kurva pairplot terlihat bahwa ada korelasi baik antara tinggi badan dengan BMI, berat badan dengan BMI maupun antara berat badan dan tinggi badan.
Kurva regresi antara tinggi badan dengan BMI dan berat badan dengan BMI dibuat untuk mengetahui korelasi antar ketiga variabel.
Persamaan regresi untuk variabel tinggi badan dengan BMI adalah:
BMI = 18.44619429 * Tinggi Badan - 5.61995741
Dengan nilai r2 dan MSE
Koefisien korelasi = 0.44782745848583205, Mean Squared Error = 4.006500966330176
Persamaan regresi untuk variabel berat badan dengan BMI adalah:
BMI = 0.16580697 * Berat Badan + 13.33373481
Dengan nilai r2 dan MSE
Koefisien korelasi = 0.8036017087136652, Mean Squared Error = 1.4250435953706435
Dari nilai korelasi dan MSE sepertinya variabel berat badan lebih bagus untuk digunakan memprediksi skor BMI.
Berikut adalah sebaran data prediksi dan data awalnya.
Untuk memvalidasi kehandalan prediksi skor BMI menggunakan metode regresi linier, data dipecah menjadi 70% untuk training model regresi dan 30% untuk mengetes akurasinya.
Koefisien korelasi = -0.0005510580749554794, Mean Squared Error = 7.392056585043911
Koefisien korelasi = 0.8039663294798832, Mean Squared Error = 1.4482938910150052
Perbandingan antara nilai BMI awal dengan nilai BMI hasil prediksi dengan variabel prediktor berat badan ditunjukan pada diagram batang berikut:
Sepuluh data prediksi dan data awal dengan menggunakan prediktor berat badan adalah sebagai berikut:
y_test y_pred
0 24.814771 25.516787
1 26.133215 26.476723
2 24.140073 24.826632
3 26.029346 25.756136
4 23.141954 23.744709
5 29.178230 30.528007
6 28.346900 26.800093
7 24.254917 24.204372
8 24.188169 25.579037
9 29.717664 27.869796
Konversi nilai prediktor ke 1/Tinggi Badan² hanya menaikan koefisien korelasi sekitar 1% menjadi:
Koefisien korelasi = 0.4581977082022348, Mean Squared Error = 3.931255617483385
Penggunaan prediktor dengan melibatkan kedua data tinggi badan dan berat badan, meningkatkan akurasi prediksi cukup baik.
Koefisien korelasi dan MSE yang diperoleh adalah sebagai berikut:
Koefisien korelasi = 0.980935428540095, Mean Squared Error = 0.13796751223734124
Persamaan multilinier yang diperoleh adalah:
BMI = 0.35473655 * Berat Badan - 30.39459686 * Tinggi Badan + 50.73502704
Hasil prediksi dengan prediktor tinggi badan dan berat badan adalah sebagai berikut:
y_test y_pred
0 29.689269 30.948396
1 29.958425 30.189015
2 26.008970 25.745726
3 22.779750 22.927073
4 21.639463 22.335970
5 22.965041 23.159797
6 23.045776 22.958225
7 27.684478 27.848219
8 22.001010 22.170408
9 24.735106 24.602111
Diagram batang di bawah ini menunjukkan perbandingan hasil prediksi dan data awal dengan prediktor berat badan dan tinggi badan.
Kode yang digunakan pada pembelajaran ini dapat dilihat di video berikut: