Belajar Jenis Data dalam Dataset
Jenis dan karakteristik data atau nilai variabel yang dianalisis harus dipahami dulu sebelum dianalisis. Hal ini karena jenis data yang berbeda akan memerlukan cara pengolahan data yang berbeda. Secara umum data dapat dikelompokan dalam dua jenis:
- Data/variabel kategori membagi sampel ke dalam kelas. Nama lain untuk variabel kategori adalah level atau faktor. Variabel kategori dapat mewakili nilai peringkat, nilai rasio maupun nilai interval.
- Data/variabel kuantitatif adalah variabel hasil operasi aritmatika dan/atau hasil pengukuran yang biasanya berupa data kontinu.
Variabel kategori bisa berupa nama atau angka nominal, ordinal, interval, rasio.
- Variabel kategori nominal berupa angka yang hanya sebagai lambang untuk mewakili kategori, misalnya, angka 0 untuk Pria dan angka 1 untuk Wanita.
- Variabel ordinal mengurutkan angka berdasarkan tingkatan kategorinya. Contoh variabel ordinal misalnya penggunaan angka 0 untuk mewakili kategori ‘kurang’, 1 untuk ‘baik’, dan 2 untuk ‘sangat baik’.
- Variabel interval menggunakan simbol atau angka untuk mewakili suatu rentang nilai. Misalnya nilai BMI 0 mewakili kategori ‘Kurus’ dengan skor BMI dibawah 18,5. BMI 1 mewakili kategori ‘Normal’ dengan skor BMI antara 18,5–24,9. BMI 2 mewakili kategori ‘Gemuk’ dengan skor BMI antara 25,0–29,9. Sedangkan nilai BMI 3 mewakili kategori ‘Obesitas’ dengan skor BMI di atas 30.
- Variabel rasio adalah angka atau lambang yang mewakili perbandingan atau rasio nilai. Misalnya nilai Indeks Massa Tubuh (Body Mass Index/BMI), yang didapatkan dari rasio berat badan dibagi kuadrat tinggi badan, sebagaimana persamaan berikut.
𝐵𝑀𝐼 = 𝐵𝑒𝑟𝑎𝑡𝐵𝑎𝑑𝑎𝑛/(𝑇𝑖𝑛𝑔𝑔𝑖𝐵𝑎𝑑𝑎𝑛)^2
Tinggi Badan dalam meter dan Berat Badan dalam Kg
- Kurus (< 18,5)
- Normal (18,5–24,9)
- Gemuk (25,0–29,9)
- Obesitas (30,0 >).
Data yang digunakan pada pembelajaran ini adalah data hasil konversi tinggi dan berat badan yang dimuat di: https://gist.github.com/nstokoe/7d4717e96c21b8ad04ec91f361b000cb
Berikut adalah contoh 10 data pertama dari 10.000 dataset yang digunakan.
Data kategori akan memberikan nilai rata-rata dan simpangan baku yang kurang tepat. Hal ini karena data kategori tidak bisa dirata-rata atau nilai rata-ratanya tidak memberikan informasi yang relatif berguna. Begitu pula dengan data rasio, walau perhitungan rata-rata dan simpangan bakunya masih informatif. Data kuantitatif seperti berat badan dan tinggi badan akan memberikan nilai rata-rata dan simpangan baku yang mewakili pusat data dan sebarannya.
Kategori Nominal
Data gender merupakan data kategori dengan dua variabel, Male dan Female. Data Male dan Female bisa dikonversi ke dalam simbul angka, misalnya 0 untuk laki-laki (Male) dan 1 untuk perempuan (Female). Kita bisa melihat kecenderungan data kuantitatif berdasarkan data kategorinya. Misalnya, bagaimana sebaran data tinggi badan dan berat badan berdasarkan jenis kelaminnya.
Data Ordinal
Data kategori BMI merupakan data kategori berdasar tingkatan skor BMI-nya. Sehingga data ini termasuk dalam data kategori ordinal.
Data Rasio
Contoh data rasio adalah nilai skor BMI yang diperoleh dari rasio berat badan dibagi kuadrat tinggi badan dalam kg dan m.