Sample dan Populasi
Data memberikan informasi tentang sampel. Sampel ini biasanya adalah perwakilan dari populasi yang diteliti. Populasi adalah sekelompok entitas yang memiliki karakteristik tertentu. Karakter dari populasi disebut sebagai parameter. Karakteristik dari sampel disebut sebagai statistik.
Parameter adalah ukuran yang menggambarkan keseluruhan populasi.
Statistik adalah ukuran yang menggambarkan sampel.
Statistik dapat digunakan untuk membuat generalisasi ilmiah tentang parameter populasi
Populasi
- nilai rata-rata, μ
- simpangan baku, σ
Sampel
- nilai rata-rata, x¯
- simpangan baku, 𝑠
Jadi, penting untuk mempelajari bagaimana mendefinisikan suatu populasi, bagaimana memilih sampel dalam populasi dan bagaimana mengumpulkan data mengenai sampel.
- Sampel adalah objek yang dideskripsikan oleh data.
- Variabel adalah karakteristik suatu sampel.
Sampel yang merupakan sebagian kecil dari populasi dianalisis untuk mendapatkan parameter dari populasi yang diwakilinya. Contoh di bawah ini adalah data tinggi dan berat badan mahasiswa laki-laki dan perempuan dengan jumlah data 10.000.
Bila kita asumsikan bahwa data tersebut adalah data tinggi dan berat badan mahasiswa di suatu universitas, maka bisa kita anggap data tersebut merupakan populasi. Karena data populasi kita ketahui kita bisa membandingkan statistik dari sampel yang kita sampling dari populasi dan parameter dari populasi tersebut.
Data Height dan Weight orisinil ditulis dalam inch dan pounds. Untuk pembelajaran, kita ubah label untuk data Height sebagai Berat Badan dalam kg dan data Weight sebagai tinggi badan dalam cm, tanpa melakukan konversi perhitungan.
Berikut adalah bebrapa informasi mengenai populasi yang kita pelajari.
Analisis statistik deskriptif memberikan kita informasi mengenai variabel jumlah data, nilai rata-rata, nilai standa deviasi, nilai minimal, maksimal, Q1,Q2 dan Q3 untuk populasi kita. Sebagaimana nampak dalam Tabel di bawah ini.
import pandas as pd
df=pd.read_csv(‘https://gist.githubusercontent.com/nstokoe/7d4717e96c21b8ad04ec91f361b000cb/raw/bf95a2e30fceb9f2ae990eac8379fc7d844a0196/weight-height.csv’)
df.columns=[‘Gender’,’Berat Badan’,’Tinggi Badan’]
df.head(10)
df.describe()
plt.plot(df[‘Berat Badan’],’o’);
plt.hist(df[‘Berat Badan’], bins=30);
df[‘Berat Badan’].groupby(df[‘Gender’]).plot(kind=’hist’, bins=30)
plt.legend();
Random Sampling
Semua individu dalam populasi mempunyai peluang yang sama untuk disampling dengan metode Random Sampling.
script Python: df.sample(100) akan men-sampling individu dalam data awal kita dengan mengambil 100 data berat badan secara acak. Setiap pengulangan script df.sample(100) akan menghasilkan kombinasi individu yang berbeda (dengan catatan tidak ada penetapan random.state).
Dari nilai rata-rata tinggi dan berat badan terlihat nilai untuk 100, 1000 dan 10000 individu yang disampling mempunyai nilai yang mendekati.
Berikut adalah histogram dari sampling data dengan jumlah yang divariasi, sesuai script Python berikut:
df.Weight.plot(kind=’hist’, bins=30)
df.Weight.sample(5000).plot(kind=’hist’, bins=30)
df.Weight.sample(2500).plot(kind=’hist’, bins=30)
df.Weight.sample(1000).plot(kind=’hist’, bins=30)
df.Weight.sample(500).plot(kind=’hist’, bins=30)
sns.despine();
Sampling Acak Berkelompok (Random Block Sampling)
Pada random block sampling, populasi dibagi berdasar kelompok tertentu, misalnya gender. Masing-masing kelompok kemudian diambil sampelnya dengan proporsi tertentu. setiap individu dalam kelompok yang sama mendapatkan peluang yang sama untuk diambil sebagai sampel. Misalnya, kita melakukan sampling sebanyak 500 sampel dengan pengelompokan 250 dari mahasiswa perempuan dan 250 data tinggi badan dari mahasiswa laki-laki.
female=df[df[‘Gender’]==’Female’].sample(250)
male=df[df[‘Gender’]==’Male’].sample(250)
rbs=pd.concat([female,male])
df.Height.groupby(df.Gender).plot(kind=’hist’, bins=50)
rbs.Height.groupby(df.Gender).plot(kind=’hist’,bins=50)
plt.legend();
Pengambilan sampel sebanyak 500 dari masing-masing 5000 populasi mahasiswa laki-laki dan 500 sampel dari 5000 populasi mahasiswa perempuan akan mengahasilakn histogram sebagai berikut.
female=df[df[‘Gender’]==’Female’][‘Height’].sample(500)
male=df[df[‘Gender’]==’Male’][‘Height’].sample(500)
rbs=pd.concat([female,male])
df.Height.plot(kind=’hist’, bins=50,label=’Tinggi Badan Populasi’)
rbs.plot(kind=’hist’,bins=50,label=’Tinggi Badan RBS’)
plt.legend();