ABSTRAK
Dataset berdimensi tinggi, di mana jumlah variabel ‘mathematical equation’ jauh lebih besar dari jumlah sampel ‘mathematical equation’, ada di mana-mana dan sering membuat teknik klasifikasi standar tidak dapat diandalkan karena overfitting. Masalah penelitian yang penting adalah pemilihan fitur, yang memberi peringkat variabel kandidat berdasarkan relevansinya dengan variabel hasil dan mempertahankan variabel yang memenuhi kriteria yang dipilih. Artikel ini mengusulkan metode pemilihan variabel yang efisien secara komputasi berdasarkan analisis komponen utama yang disesuaikan dengan masalah klasifikasi biner atau studi kasus-kontrol. Metode ini dapat diakses dan cocok untuk analisis kumpulan data berdimensi tinggi. Kami menunjukkan kinerja metode kami yang unggul melalui simulasi yang ekstensif. Kumpulan data ekspresi gen semi-nyata, studi ekspresi gen leukemia limfoblastik akut anak yang menantang, dan GWAS yang mencoba mengidentifikasi polimorfisme nukleotida tunggal (SNP) yang terkait dengan panjang bulir padi selanjutnya menunjukkan kegunaan metode kami dalam aplikasi genomik. Kami berharap metode kami dapat mengidentifikasi fitur penting secara akurat dan mengurangi False Discovery Rate (fdr) dengan memperhitungkan korelasi antara variabel dan dengan menghilangkan derau data dalam fase pelatihan, yang juga membuatnya tangguh terhadap outlier ringan dalam data pelatihan. Metode kami hampir sama cepatnya dengan filter univariat, sehingga memungkinkan inferensi statistik yang valid. Kemampuan untuk membuat inferensi semacam itu membedakan metode ini dari sebagian besar alat statistik multivariat terkini yang dirancang untuk data berdimensi tinggi saat ini.
