Sample dan Populasi

Suprapto van Plaosan
4 min readOct 21, 2020

--

Data memberikan informasi tentang sampel. Sampel ini biasanya adalah perwakilan dari populasi yang diteliti. Populasi adalah sekelompok entitas yang memiliki karakteristik tertentu. Karakter dari populasi disebut sebagai parameter. Karakteristik dari sampel disebut sebagai statistik.

Ilustrasi definisi populasi dan sampel

Parameter adalah ukuran yang menggambarkan keseluruhan populasi.

Statistik adalah ukuran yang menggambarkan sampel.

Statistik dapat digunakan untuk membuat generalisasi ilmiah tentang parameter populasi

Populasi

  • nilai rata-rata, μ
  • simpangan baku, σ

Sampel

  • nilai rata-rata, x¯
  • simpangan baku, 𝑠
Simbol nilai rata-rata dan simpangan baku untuk populasi dan sampel

Jadi, penting untuk mempelajari bagaimana mendefinisikan suatu populasi, bagaimana memilih sampel dalam populasi dan bagaimana mengumpulkan data mengenai sampel.

  • Sampel adalah objek yang dideskripsikan oleh data.
  • Variabel adalah karakteristik suatu sampel.

Sampel yang merupakan sebagian kecil dari populasi dianalisis untuk mendapatkan parameter dari populasi yang diwakilinya. Contoh di bawah ini adalah data tinggi dan berat badan mahasiswa laki-laki dan perempuan dengan jumlah data 10.000.

https://gist.githubusercontent.com/nstokoe/7d4717e96c21b8ad04ec91f361b000cb/raw/bf95a2e30fceb9f2ae990eac8379fc7d844a0196/weight-height.csv

Bila kita asumsikan bahwa data tersebut adalah data tinggi dan berat badan mahasiswa di suatu universitas, maka bisa kita anggap data tersebut merupakan populasi. Karena data populasi kita ketahui kita bisa membandingkan statistik dari sampel yang kita sampling dari populasi dan parameter dari populasi tersebut.

Data Height dan Weight orisinil ditulis dalam inch dan pounds. Untuk pembelajaran, kita ubah label untuk data Height sebagai Berat Badan dalam kg dan data Weight sebagai tinggi badan dalam cm, tanpa melakukan konversi perhitungan.

Berikut adalah bebrapa informasi mengenai populasi yang kita pelajari.

Analisis statistik deskriptif memberikan kita informasi mengenai variabel jumlah data, nilai rata-rata, nilai standa deviasi, nilai minimal, maksimal, Q1,Q2 dan Q3 untuk populasi kita. Sebagaimana nampak dalam Tabel di bawah ini.

import pandas as pd

df=pd.read_csv(‘https://gist.githubusercontent.com/nstokoe/7d4717e96c21b8ad04ec91f361b000cb/raw/bf95a2e30fceb9f2ae990eac8379fc7d844a0196/weight-height.csv’)

df.columns=[‘Gender’,’Berat Badan’,’Tinggi Badan’]

df.head(10)

10 Data tinggi dan berat badan berdasar gender

df.describe()

Deskriptif statistik data yang dipelajari

plt.plot(df[‘Berat Badan’],’o’);

Kurva scatter data Berat Badan

plt.hist(df[‘Berat Badan’], bins=30);

Histogram berat badan

df[‘Berat Badan’].groupby(df[‘Gender’]).plot(kind=’hist’, bins=30)
plt.legend();

Histogram berat badan berdasar gender

Random Sampling

Semua individu dalam populasi mempunyai peluang yang sama untuk disampling dengan metode Random Sampling.

script Python: df.sample(100) akan men-sampling individu dalam data awal kita dengan mengambil 100 data berat badan secara acak. Setiap pengulangan script df.sample(100) akan menghasilkan kombinasi individu yang berbeda (dengan catatan tidak ada penetapan random.state).

Dari nilai rata-rata tinggi dan berat badan terlihat nilai untuk 100, 1000 dan 10000 individu yang disampling mempunyai nilai yang mendekati.

Nilai rata-rata untuk 10.000 data dan hasil random sampling 1000 dan 100 sampel

Berikut adalah histogram dari sampling data dengan jumlah yang divariasi, sesuai script Python berikut:

df.Weight.plot(kind=’hist’, bins=30)
df.Weight.sample(5000).plot(kind=’hist’, bins=30)
df.Weight.sample(2500).plot(kind=’hist’, bins=30)
df.Weight.sample(1000).plot(kind=’hist’, bins=30)
df.Weight.sample(500).plot(kind=’hist’, bins=30)
sns.despine();

Histogram hasil sampling dan data awal
Nilai rata-rata untuk sampling sebanyak 100, 1000 dan data awal berdasar Gender

Sampling Acak Berkelompok (Random Block Sampling)

Pada random block sampling, populasi dibagi berdasar kelompok tertentu, misalnya gender. Masing-masing kelompok kemudian diambil sampelnya dengan proporsi tertentu. setiap individu dalam kelompok yang sama mendapatkan peluang yang sama untuk diambil sebagai sampel. Misalnya, kita melakukan sampling sebanyak 500 sampel dengan pengelompokan 250 dari mahasiswa perempuan dan 250 data tinggi badan dari mahasiswa laki-laki.

female=df[df[‘Gender’]==’Female’].sample(250)
male=df[df[‘Gender’]==’Male’].sample(250)
rbs=pd.concat([female,male])
df.Height.groupby(df.Gender).plot(kind=’hist’, bins=50)
rbs.Height.groupby(df.Gender).plot(kind=’hist’,bins=50)
plt.legend();

Histogram berdasar Gender

Pengambilan sampel sebanyak 500 dari masing-masing 5000 populasi mahasiswa laki-laki dan 500 sampel dari 5000 populasi mahasiswa perempuan akan mengahasilakn histogram sebagai berikut.

female=df[df[‘Gender’]==’Female’][‘Height’].sample(500)
male=df[df[‘Gender’]==’Male’][‘Height’].sample(500)
rbs=pd.concat([female,male])
df.Height.plot(kind=’hist’, bins=50,label=’Tinggi Badan Populasi’)
rbs.plot(kind=’hist’,bins=50,label=’Tinggi Badan RBS’)
plt.legend();

Histogram data awal dibandingkan histogram hasil RBS
Nilai rata-rata tinggi badan antara RBS dengan data awal

--

--

Suprapto van Plaosan
Suprapto van Plaosan

Written by Suprapto van Plaosan

Penulis adalah Staf Pengajar Kimia Analitik

No responses yet