Belajar Regresi Linier

Suprapto van Plaosan
3 min readOct 28, 2020

--

Regresi linier adalah jenis analisis dasar yang banyak digunakan untuk menganalisis data kuantitatif atau data kontinu.

Ide dasar regresi adalah untuk memeriksa dua hal:

  • Apakah variabel prediktor (variabel independent) dapat dengan baik memprediksi variabel hasil (variabel dependent)?
  • Apakah variabel prediktor memberi pengaruh signifikan terhadap variabel hasil dan sejauh mana memengaruhi variabel hasil?

Estimasi regresi digunakan untuk menjelaskan hubungan antara variabel dependen dan satu atau lebih variabel independen. Bentuk paling sederhana dari persamaan regresi dengan variabel dependen dan independen ditentukan oleh rumus y = c + b * x, di mana y = variabel dependen, c = intersept, b = slope dan x = variabel independen.

Variabel dependen dapat disebut sebagai variabel hasil, variabel kriteria atau variabel endogen.

Variabel independen dapat disebut sebagai variabel eksogen atau variabel prediktor.

Aplikasi utama analisis regresi adalah

  • menentukan pengaruh prediktor,
  • memprediksi efek, dan
  • perkiraan tren.

Pertama, regresi dapat digunakan untuk mengidentifikasi kekuatan efek yang dimiliki variabel independen terhadap variabel dependen. Misalnya hubungan antara dosis dan efek, konsentrasi dan adsorbansi, atau rasio pereaksi dan yield.

Metode regresi linier yang umum didasarkan pada pencarian persamaan garis dengan nila sum squared error (SSE) yang paling kecil.

Misalnya kita mempunyai data dengan sebaran x dan y sebagai berikut:

image by author

Pencarian persamaan atau garis linier dengan SSE yang paling minimal dilakukan dengan menarik garis melalui titik dengan koordinat (rata-rata x, rata-rata y), titik merah pada Gambar di bawah ini.

image by author

Model linier akan membuat garis linier melalui titik merah untuk mencari nilai SSE yang paling minimal dan dipilih sebagai model prediksi linier. Bila digambarkan secara manual, langkah yang dilakukan adalah sebagai berikut:

image by author

Masing-masing garis dicari nilai SSE-nya, nilai SSE yang paling kecil yang dipilih. Nilai SSE dibagi jumlah data disebut sebagai Mean Squared Error (MSE).

image by author

Kurva MSE sebagai fungsi perpotongan garis linier ke sumbu y menunjukkan bahwa MSE terkecil dicapai ketika intersept berada di 3,8 an.

Nilai slope dapat dicari dari perkalian (x — rata-rata(x))*(y — rata-rata(y)) dibagi dengan (x — rata-rata(x))²

Nilai intersept dapat dihitung dari nilai rata-rata (y) — slope * nilai rata-rata (x).

Namun seringkali, dengan bantuan perangkat lunak, kita bisa langsung dapat persamaan linier, bahkan nilai SSE atau MSE dan nilai r2-nya. Dari penentuan menggunakan model regresi linier nilai intersept yang didapat adalah 3,79 dengan MSE sebesar 0.0816.

Persamaan regresinya adalah y = 0.22664548 * x + 3.79320492
Mean squared Error = 0.08158234938129112

Nilai koefisien regresi atau koefisien korelasi dapat dicari dari perbandingan SSE penjumlahan kwadrat selisih antara nilai awal dengan nilai hasil prediksi.

image by author
Nilai SSE untuk jumlah kwadrat (y - y_pred) adalah:  0.9049583346963981

Nilai Sum of Squared Total (SST) yang merupakan penjumlahan dari kwadrat selisih y awal dikurangi nilai rata-rata y adalah:

image by author
Nilai SST untuk jumlah kwadrat (y - y_mean) adalah:  8.167369691734079

Sehingga nilai r2 yang didapat dari 1 — (SSE/SST) adalah:

Nilai r2 yang merupakan nilai dari (1-SSE/SST) adalah:  0.8891983136734614

Kode yang dipakai pada pembelajaran ini adalah sebagai berikut:

--

--

Suprapto van Plaosan
Suprapto van Plaosan

Written by Suprapto van Plaosan

Penulis adalah Staf Pengajar Kimia Analitik

No responses yet