Principal Component Analysis (PCA)
Principal Component Analysis ( PCA ) adalah metode statistik menggunakan transformasi ortogonal untuk mengubah data pengamatan dari variabel yang mungkin berkorelasi menjadi seperangkat nilai variabel tidak linear yang disebut komponen utama. Transformasi ini dilakukan untuk mendapatkan komponen utama pertama (PC1) memiliki varians sebesar mungkin (yaitu, menyumbang sebanyak variabilitas dalam data mungkin), dan setiap komponen berikutnya memiliki varians tertinggi yang mungkin di bawah komponen sebelumnya. Vektor yang dihasilkan merupakan kombinasi linear dari variabel dan berisi n pengamatan dan merupakan himpunan basis ortogonal yang tidak berkorelasi.
PCA ditemukan pada tahun 1901 oleh Karl Pearson, sebagai analog dari teorema sumbu utama dalam mekanika; kemudian dikembangkan secara independen dan dinamai oleh Harold Hotelling pada 1930-an. Bergantung pada bidang aplikasi, ia juga dinamai diskrit Karhunen-Loève (KLT) dalam pemrosesan sinyal, transformasi Hotelling dalam kontrol kualitas multivariat, dekomposisi ortogonal yang tepat (POD) dalam teknik mesin, dekomposisi nilai singular (SVD) dari X, dekomposisi nilai eigen (EVD) dari XT X dalam aljabar linier, analisis faktor atau fungsi ortogonal empiris (EOF ) dalam ilmu meteorologi, dekomposisi fungsi eigen empiris, analisis komponen empiris, mode quasiharmonic, dekomposisi spektral dalam kebisingan dan getaran, dan analisis modal empiris dalam dinamika struktural.
PCA sebagian besar digunakan sebagai alat analisis data eksplorasi dan untuk membuat model prediksi . PCA dapat dilakukan dengan dekomposisi nilai eigen dari matriks kovarians data (atau korelasi ) atau dekomposisi nilai singular dari matriks data, biasanya setelah langkah normalisasi data awal. Normalisasi setiap atribut terdiri dari pemusatan rata — rata mengurangkan setiap nilai data dari rata-rata variabel yang diukur sehingga rata-rata empirisnya (rata-rata) adalah nol.
Hasil PCA biasanya dibahas dalam hal skor komponen , kadang-kadang disebut skor faktor (nilai variabel yang ditransformasikan sesuai dengan titik data tertentu), dan pembebanan (bobot di mana setiap variabel asli standar harus dikalikan untuk mendapatkan skor komponen). Jika skor komponen distandarisasi untuk varians unit, berisi varians data di dalamnya (nilai eigen). Jika skor komponen tidak distandarisasi (karena mengandung varians data) maka pemuatan harus berskala-unit, (“dinormalisasi”) dan bobot ini disebut vektor eigen; mereka adalah cosinus dari rotasi orthogonal variabel menjadi komponen utama.
PCA adalah analisis multivariat berbasis vektor eigen yang paling sederhana . Seringkali, operasinya dapat dianggap sebagai mengungkapkan struktur internal data dengan cara yang paling menjelaskan perbedaan dalam data. Jika dataset multivariat divisualisasikan sebagai seperangkat koordinat dalam ruang data dimensi tinggi (1 sumbu per variabel), PCA dapat menyediakan gambar dimensi yang lebih rendah kepada pengguna. Hal ini dilakukan dengan hanya menggunakan beberapa komponen utama pertama sehingga dimensi data yang diubah berkurang.
PCA terkait erat dengan analisis faktor . Analisis faktor biasanya memasukkan lebih banyak asumsi spesifik domain tentang struktur yang mendasarinya dan memecahkan vektor eigen dari matriks yang sedikit berbeda.
PCA juga terkait dengan analisis korelasi kanonik (CCA) . CCA mendefinisikan sistem koordinat yang secara optimal menggambarkan cross-covariance antara dua dataset sementara PCA mendefinisikan sistem koordinat orthogonal baru yang secara optimal menggambarkan varians dalam satu dataset.
Originally published at http://learningbox.coffeecup.com.