Model Cox Tertimbang Probabilitas Seleksi Terbalik Baru untuk Menangani Pengambilan Sampel Bergantung Hasil dalam Analisis Kelangsungan Hidup

Model Cox Tertimbang Probabilitas Seleksi Terbalik Baru untuk Menangani Pengambilan Sampel Bergantung Hasil dalam Analisis Kelangsungan Hidup

ABSTRAK
Termotivasi oleh studi tentang pengubah efek genetik kanker, kami meneliti pendekatan pembobotan untuk mengoreksi bias penetapan dalam analisis kelangsungan hidup. Pengambilan sampel yang bergantung pada hasil umum terjadi dalam epidemiologi genetik yang menyebabkan sampel studi dengan terlalu banyak kejadian dibandingkan dengan populasi dan representasi berlebihan dari subjek muda yang terkena dampak. Pendekatan yang biasa dilakukan untuk mengoreksi bias penetapan dalam pengaturan ini adalah dengan menggunakan model Cox dengan pembobotan probabilitas terbalik, menggunakan pembobotan berdasarkan tingkat kejadian spesifik usia berbasis populasi yang tersedia secara eksternal dari jenis kanker yang sedang diselidiki. Namun, pendekatan saat ini tidak cukup umum yang menyebabkan pembobotan tidak valid dalam pengaturan praktis yang relevan jika pengambilan sampel kasus yang berlebihan tidak diamati pada semua kelompok usia. Berdasarkan prinsip yang sama dalam pembobotan observasi dengan probabilitas pemilihan terbaliknya, kami mengusulkan pendekatan baru yang lebih umum, yang disebut pendekatan pembobotan umum. Kami menunjukkan keuntungan dari metode kohort pembobotan umum baru menggunakan simulasi dan dua set data nyata. Dalam kedua aplikasi, tujuannya adalah untuk menilai hubungan antara lokus kerentanan umum yang diidentifikasi dalam studi asosiasi genom-lebar (GWAS) dan kanker (kolorektal dan payudara) menggunakan data yang dikumpulkan melalui pengujian genetik di pusat genetika klinis.

Singkatan
GWAS
studi asosiasi genom secara luas
BRCA
kanker payudara (dan ovarium) terkait (gen)
bias ulang
Bias Relatif
MSE
kesalahan kuadrat rata-rata
CRC
kanker kolorektal
SNP
polimorfisme nukleotida tunggal (varian genetik)
1 Pendahuluan
Pengambilan sampel yang bergantung pada hasil umum dalam epidemiologi genetik. Karena varian berbahaya dalam gen berisiko tinggi yang terkait dengan kanker biasanya langka, strategi pengambilan sampel yang efisien untuk menemukan pembawa varian ini adalah dengan mengambil sampel berlebih pada individu yang terkena dengan riwayat keluarga penyakit tertentu. Misalnya, pembawa varian patogenik pada gen PMS2 yang terkait dengan sindrom Lynch dan gen BRCA1 dan BRCA2 yang terkait dengan kanker payudara dan ovarium , sering kali terdeteksi melalui program skrining genetik di mana pengujian ditargetkan pada keluarga dengan banyak kasus. Karena strategi pengujian ini, kelompok studi yang tersedia untuk menyelidiki pengubah risiko kanker sering kali merupakan sampel yang tidak mewakili populasi target (pembawa mutasi langka gen tertentu). Pembawa dengan diagnosis kanker dini lebih sering dimasukkan dalam populasi sampel dibandingkan dengan mereka yang diagnosis kankernya tertunda atau individu yang tetap bebas penyakit.

Dalam konteks analisis kelangsungan hidup, pengambilan sampel berbasis keluarga yang bergantung pada hasil mengakibatkan representasi kejadian yang berlebihan dan masa hidup yang pendek, yang tanpa penyesuaian, mengarah pada estimasi bias efek kovariat saat menggunakan, misalnya, model bahaya proporsional Cox. Hal ini terjadi karena mekanisme pengambilan sampel memengaruhi distribusi gabungan waktu kejadian dan kovariat.

Untuk memecahkan masalah ini, dua pendekatan utama telah diusulkan dalam literatur: metode berdasarkan kemungkinan retrospektif (Barnes et al. 2013 ; Carayol dan Bonaïti-Pellié 2004 ; Chatterjee et al. 2006 ) dan metode kohort tertimbang (Antoniou et al. 2005 ) berdasarkan regresi Cox tertimbang. Ide umum dari metode berdasarkan kemungkinan retrospektif adalah untuk merumuskan kemungkinan nilai kovariat yang diamati bersyarat pada hasil yang diamati. Metode-metode ini biasanya memerlukan pengetahuan tentang hubungan kekeluargaan dalam sampel dan distribusi kovariat yang diinginkan, yang mengarah ke metode yang secara analitis rumit dan intensif secara komputasi. Tanpa informasi ini, ketika tingkat kejadian spesifik usia secara keseluruhan dalam populasi yang diinginkan diketahui, pendekatan alternatif yang banyak digunakan untuk memperkirakan hubungan antara serangkaian kovariat dan waktu diagnosis kanker di bawah pengambilan sampel yang bergantung pada hasil adalah dengan menggunakan model regresi Cox tertimbang (Antoniou et al. 2005 ). Gagasan umumnya adalah untuk mengusulkan skema pembobotan dengan bobot yang berbeda untuk individu yang terdampak (kejadian yang diamati) dan yang tidak terdampak (disensor kanan) menurut sumber eksternal sehingga sampel terbobot yang dihasilkan meniru populasi target sebenarnya (Antoniou et al., 2005 ; Barnes et al., 2012 ) dalam hal proporsi spesifik usia dari individu yang terdampak dan yang tidak terdampak.

Karena kesederhanaannya, ini merupakan pendekatan yang menarik. Pendekatan terkait juga telah digunakan di bidang lain. Pembobotan untuk menangani pengambilan sampel informatif juga telah diselidiki dalam konteks model bahaya proporsional Cox untuk data terpotong ganda (Mandel et al. 2018 ; Rennert 2022 ), pengambilan sampel yang bias panjang (Wang 1996 ), dan dalam konteks pengaturan kasus-kohort yang ditambah (Barlow 1994 ; Therneau 1999 ). Integrasi informasi kelangsungan hidup eksternal dan data sampel telah diselidiki untuk meningkatkan efisiensi model Cox dalam konteks sampel yang dipilih secara acak (Huang et al. 2016 ).

Meskipun menarik, metode kohort tertimbang (Antoniou et al. 2005 ) memiliki beberapa keterbatasan: metode ini sering menghasilkan bobot yang tidak valid dalam situasi praktis yang relevan karena metode ini hanya dapat diterapkan pada skema pengambilan sampel tertentu, seperti skema yang melibatkan pengambilan sampel kasus yang terlalu banyak.

Tujuan utama dari studi ini adalah untuk memperkenalkan skema pembobotan probabilitas seleksi terbalik yang baru dan lebih serbaguna, dengan memanfaatkan rasio kejadian spesifik usia berbasis populasi dari kejadian yang diinginkan. Hal ini mengarah pada pengembangan metode kohort terbobot umum yang mampu mengakomodasi tingkat pengambilan sampel yang bergantung pada hasil yang berubah-ubah, sehingga menawarkan alternatif yang lebih baik untuk pendekatan yang ada. Sebagai tujuan sekunder, kami bermaksud untuk melakukan analisis sensitivitas guna menilai kinerja pendekatan terbobot dengan adanya heterogenitas yang tidak teramati, khususnya dengan mengeksplorasi korelasi dalam keluarga yang timbul dari faktor-faktor bersama yang tidak teramati. Meskipun sering kali melibatkan beberapa anggota keluarga dalam studi yang menggunakan metode kohort terbobot asli (lihat Tabel S1 untuk detailnya), pengaruh heterogenitas yang tidak teramati dalam konteks ini masih belum dieksplorasi. Aspek ini memerlukan penyelidikan menyeluruh.

Sisa dari paper ini disusun sebagai berikut. Pada Bagian 2 , pendekatan Cox kohort tertimbang yang umum digunakan ditinjau kembali dan asumsinya didiskusikan. Skema pembobotan alternatif baru diusulkan pada Bagian 2.2 . Pada Bagian 3 , kedua skema pembobotan dibandingkan melalui studi simulasi intensif. Pada Bagian 4 , kami menyajikan dua ilustrasi data nyata. Pada kedua ilustrasi tersebut, peran varian genetik sebagai pengubah risiko kanker dipelajari menggunakan kumpulan data individu yang terkena dampak dan anggota keluarga yang dipastikan melalui konseling genetik di pusat genetik klinis. Pada aplikasi pertama, kami fokus pada kanker kolorektal (CRC) pada pembawa varian patogenik PMS2 , dan pada aplikasi kedua, kami menganalisis hubungan antara skor risiko poligenik (PRS) berdasarkan varian terkait kanker payudara umum dan risiko kanker payudara pada keluarga kasus ganda. Kesimpulan utama, rekomendasi, dan diskusi akhir mengikuti pada Bagian 5 .

2 Regresi Cox Tertimbang untuk Menangani Pengambilan Sampel yang Bergantung pada Hasil

 

Tidak berbobot Kelompok tertimbang Kohort tertimbang umum
β Skenario N % sen bias ulang MSE Cakupan bias ulang MSE Cakupan Berat tidak valid bias ulang MSE Cakupan
β=0 A1 250 191 17 0,001 0,001 0,937 tahun 0,001 0,001 0,935
500 381 0,001 0,001 0,938 0,001 0,001 0.941
750 572 <0,001 <0,001 0,945 tahun 0,001 0,001 0,952
A2 250 185 15 0,001 0,001 0,939 0,001 0,001 0.941
500 369 0,001 0,001 0.942 0,001 0,001 0,946 tahun
750 553 -0,001 <0,001 0,944 tahun 0,001 0,001 0.943
Ukuran A3 250 109 11 <0,001 0,005 0.943 -0,002 0,009 0.926
500 219 0,001 0,002 0.962 0,001 0,004 tahun 0,949 tahun
750 328 0,001 0,002 0,954 0,001 0,003 0.943
β=0.3 A1 250 191 18 -0,021 0,001 0,925 0,003 0,001 0,939
500 382 -0,018 0,001 0,939 0,007 tahun 0,001 0,955
750 572 -0,024 0,001 0,933 0,001 0,001 0,947 tahun
A2 250 184 16 -0,057 0,002 0.904 -0,023 0,002 0,933
500 367 -0,053 0,001 0.896 -0,018 0,001 0,937 tahun
750 551 -0,061 0,001 0.859 -0,026 0,001 0,938
Ukuran A3 250 109 11 -0,164 0,007 tahun 0.892 0,018 0,009 0.941
500 219 -0,164 0,005 0.847 0,009 0,004 tahun 0.940
750 328 -0,163 0,004 tahun 0,777 tahun 0,013 0,003 0,949 tahun
β=1 A1 250 191 23 -0,034 0,003 0.858 0,008 0,002 0,947 tahun
500 381 -0,035 0,002 0.780 0,007 tahun 0,001 0.960
750 573 -0,037 0,002 0,687 tahun 0,005 0,001 0,951
A2 250 176 20 -0,069 0,006 0.662 -0,018 0,003 0.930
500 353 -0,070 0,006 0.392 -0,020 0,001 0.910
750 529 -0,072 0,006 0.205 -0,021 0,001 0.881
Ukuran A3 250 109 15 -0,205 0,048 tahun 0.264 0,030 0,013 0,937 tahun
500 219 -0,205 0,045 pukul 0,045 0,055 0,026 0,006 0,934 tahun
750 328 -0,206 0,044 tahun 0,009 0,023 0,004 tahun 0,946 tahun
TABEL 2. Simulasi I. Bias relatif (reBias), kesalahan kuadrat rata-rata (MSE), dan probabilitas cakupan (Coverage) untukβ̂sepanjang 1000 kali percobaan. A1: tingkat kepastian ringan; A2: tingkat kepastian sedang; A3: tingkat kepastian kuat;N: jumlah keluarga. Proporsi bobot yang tidak valid (negatif) sepanjang 1000 percobaan juga dilaporkan untuk pendekatan kohort tertimbang. Pendekatan kohort tertimbang umum tidak menghasilkan bobot negatif. Tingkat penyensoran acak sedang (C∼exp(60)).
Tidak berbobot Kelompok tertimbang Kohort tertimbang umum
β Skenario N % sen bias ulang MSE Cakupan bias ulang MSE Cakupan Berat tidak valid bias ulang MSE Cakupan
β=0 A1 250 122 44 <0,001 0,003 0.943 -0,001 0,003 0,948 tahun 0.000 <0,001 0,003 0,949 tahun
500 243 <0,001 0,002 0,944 tahun <0,001 0,001 0,948 tahun 0.000 <0,001 0,002 0.940
750 365 -0,001 0,001 0.943 -0,001 0,001 0.941 0.000 -0,001 0,001 0,948 tahun
A2 250 74 31 <0,001 0,004 tahun 0,934 tahun -0,001 0,006 0,925 0,003 <0,001 0,005 0,933
500 148 0,002 0,002 0,939 0,001 0,003 0,946 tahun 0.000 0,002 0,003 0,939
750 222 -0,001 0,001 0,939 -0,001 0,002 0.931 0.000 -0,001 0,002 0,938
Ukuran A3 250 59 28 0,004 tahun 0,013 0.942 0,001 0,032 0.931 0.200 0,005 0,038 0,908
500 117 0,001 0,006 0,955 <0,001 0,012 0,945 tahun 0,070 -0,001 0,014 0.931
750 176 0,002 0,004 tahun 0,949 tahun 0,001 0,008 0,944 tahun 0,018 0,001 0,009 0,945 tahun
A1 250 124 44 -0,037 0,003 0.940 -0,093 0,004 tahun 0.910 0.000 -0,043 0,004 tahun 0,939
500 247 -0,037 0,002 0,934 tahun -0,089 0,002 0.887 0.000 -0,041 0,002 0,935
750 370 -0,042 0,001 0.922 -0,098 0,002 0.846 0.000 -0,048 0,001 0.923
A2 250 75 31 -0,202 0,008 0.813 -0,112 0,007 tahun 0.896 0,003 -0,133 0,007 tahun 0,885
500 150 -0,194 0,005 0.733 -0,103 0,004 tahun 0.901 0.000 -0,124 0,004 tahun 0.871
750 225 -0,206 0,005 0,584 tahun -0,117 0,003 0.866 0.000 -0,138 0,003 0.821
Ukuran A3 250 60 27 -0,265 0,018 0,878 -0,048 0,030 0.920 0,185 -0,025 0,035 0.926
500 119 -0,231 0,010 0.861 -0,042 0,012 0.941 0,056 tahun -0,018 0,015 0,933
750 179 -0,217 0,008 0.809 -0,044 0,008 0,948 tahun 0,020 -0,008 0,009 0,947 tahun
A1 250 138 44 -0,063 0,007 tahun 0,779 tahun -0,039 0,006 0.912 0.000 -0,003 0,005 0,946 tahun
500 276 -0,064 0,006 0.631 -0,039 0,003 0.873 0.000 -0,004 0,002 0,954
750 414 -0,065 0,005 0.496 -0,041 0,003 0.807 0.000 -0,005 0,002 0,944 tahun
A2 250 83 31 -0,173 0,034 tahun 0,259 -0,045 0,008 0.901 0.000 -0,061 0,010 0,869
500 167 -0,173 0,032 0,042 tahun -0,047 0,005 0.887 0.000 -0,063 0,007 tahun 0.793
750 250 -0,175 0,032 0,005 -0,050 0,005 0.815 0.000 -0,065 0,006 0.705
Ukuran A3 250 69 28 -0,307 0.107 0,177 tahun 0,005 0,034 tahun 0,908 0,083 tahun 0,027 0,046 tahun 0.882
500 138 -0,282 0,085 0,041 tahun -0,004 0,015 0.926 0,016 0,027 0,020 0,927
750 206 -0,272 0,078 tahun 0,011 -0,003 0,010 0.941 0,003 0,035 0,013 0.923
TABEL 3. Simulasi I. Bias relatif (reBias), kesalahan kuadrat rata-rata (MSE), dan probabilitas cakupan (Coverage) untukβ̂sepanjang 1000 kali percobaan. A1: tingkat kepastian ringan; A2: tingkat kepastian sedang; A3: tingkat kepastian kuat;N: jumlah keluarga. Proporsi bobot yang tidak valid (negatif) sepanjang 1000 percobaan juga dilaporkan untuk pendekatan tertimbang. Tingkat penyensoran acak yang tinggi (C∼exp(40)).
Tidak berbobot Kelompok tertimbang Kohort tertimbang umum
β Skenario N % sen bias ulang MSE Cakupan bias ulang MSE Cakupan Berat tidak valid bias ulang MSE Cakupan
β=0 A1 250 103 51 0,001 0,004 tahun 0,946 tahun 0,002 0,004 tahun 0,949 tahun 0.000 0,002 0,005 0,947 tahun
500 205 0,001 0,002 0,953 0,001 0,002 0.943 0.000 0,001 0,002 0,946 tahun
750 307 -0,001 0,001 0.943 -0,001 0,001 0.940 0.000 -0,001 0,002 0,951
A2 250 47 33 -0,001 0,007 tahun 0,935 <0,001 0,011 0.919 0,053 <0,001 0,010 0,925
500 94 0,002 0,003 0.940 0,001 0,005 0,934 tahun 0,001 0,002 0,005 0,937 tahun
750 141 -0,003 0,002 0.930 -0,003 0,003 0,928 0.000 -0,003 0,003 0.930
Ukuran A3 250 48 33 0,001 0,017 tahun 0,937 tahun -0,003 0,045 pukul 0,045 0.930 0.212 0,002 0,063 tahun 0.894
500 95 <0,001 0,007 tahun 0,956 -0,003 0,017 tahun 0.940 0.102 -0,004 0,026 0,918 tahun
750 143 0,002 0,005 0,951 0,003 0,011 0,936 tahun 0,040 0,004 tahun 0,015 0,928
A1 250 105 51 -0,045 0,004 tahun 0,939 -0,100 0,005 0,918 tahun 0.000 -0,051 0,005 0,944 tahun
500 209 -0,040 0,002 0.940 -0,102 0,003 0,895 0.000 -0,045 0,002 0.940
750 313 -0,050 0,002 0.920 -0,113 0,003 0.832 0.000 -0,058 0,002 0,925
A2 250 48 33 -0,247 0,012 0.816 -0,106 0,011 0,927 0,050 -0,146 0,012 0.897
500 97 -0,244 0,009 0.727 -0,119 0,006 0.912 0,002 -0,146 0,007 tahun 0.897
750 145 -0,256 0,008 0.602 -0,129 0,005 0,878 0.000 -0,159 0,006 0.849
Ukuran A3 250 49 32 -0,291 0,025 0.868 0,004 tahun 0,048 tahun 0.909 0,199 0,015 0,065 tahun 0.892
500 97 -0,264 0,014 0.850 -0,040 0,017 tahun 0,937 tahun 0,082 -0,033 0,026 0.930
750 146 -0,246 0,010 0.808 -0,039 0,011 0,936 tahun 0,027 -0,013 0,015 0.942
A1 250 121 50 -0,076 0,010 0.744 -0,044 0,008 0,908 0.000 -0,004 0,007 tahun 0.942
500 243 -0,075 0,008 0,590 -0,045 0,005 0,879 0.000 -0,005 0,003 0,951
750 364 -0,076 0,007 tahun 0.425 -0,047 0,004 tahun 0.807 0.000 -0,007 0,002 0,953
A2 250 58 33 -0,220 0,055 0.231 -0,048 0,013 0.909 0,012 -0,072 0,017 tahun 0.864
500 117 -0,212 0,048 tahun 0,048 tahun -0,051 0,008 0.897 0.000 -0,070 0,010 0.832
750 175 -0,215 0,049 tahun 0,006 -0,054 0,006 0.843 0.000 -0,074 0,009 0.749
Ukuran A3 250 59 31 -0,332 0,125 0.197 0,010 0,040 0.899 0,097 tahun 0,041 tahun 0,065 tahun 0,877
500 117 -0,313 0,105 0,043 tahun -0,002 0,020 0,925 0,027 0,031 0,030 0.910
750 176 -0,300 0,095 0,010 -0,004 0,012 0,939 0,004 tahun 0,036 hari 0,020 0.916
GAMBAR 1
Simulasi I. Bias Relatif (reBias) untuk sepanjang 1000 percobaan untuk berbagai tingkat penyensoran acak, penentuan, dan ukuran sampel. A1: tingkat penentuan ringan; A2: tingkat penentuan sedang; A3: tingkat penentuan kuat.
GAMBAR 2
Simulasi I. Bias Relatif (reBias) untuk sepanjang 1000 percobaan untuk berbagai tingkat penyensoran acak, penentuan, dan ukuran sampel. A1: tingkat penentuan ringan; A2: tingkat penentuan sedang; A3: tingkat penentuan kuat.

Tidak berbobot Kelompok tertimbang Kohort tertimbang umum Kelemahan bersama
θ β Skenario N bias ulang MSE Cakupan bias ulang MSE Cakupan Berat tidak valid bias ulang MSE Cakupan bias ulang MSE Cakupan
θ=0.1 β=0 A1 500 0,002 0,002 0,953 0,002 0,002 0,953 0.000 0,003 0,002 0,947 tahun 0,001 0,002 0,951
A2 500 0,002 0,002 0,953 0,002 0,003 0,946 tahun 0.000 0,003 0,003 0,953 0,002 0,002 0,961 tahun
Ukuran A3 500 -0,001 0,006 0,949 tahun <0,001 0,013 0,939 0,060 0,001 0,015 0,938 -0,001 0,006 0,957 tahun
β=0.3 A1 500 -0,062 0,002 0.912 -0,092 0,002 0.896 0.000 -0,060 0,002 0,929 -0,062 0,002 0.923
A2 500 -0,202 0,006 0.728 -0,078 0,003 0,929 0.000 -0,119 0,004 tahun 0.898 -0,202 0,006 0.747
Ukuran A3 500 -0,251 0,012 0.821 -0,042 0,014 0,947 tahun 0,049 tahun -0,039 0,016 0,934 tahun -0,251 0,012 0.836
β=1 A1 500 -0,090 0,010 0.417 -0,058 0,006 0.764 0.000 -0,032 0,003 0.901 -0,090 0,010 0.425
A2 500 -0,195 0,040 0,027 -0,055 0,007 tahun 0.853 0.000 -0,080 0,010 0.730 -0,194 0,040 0,024
Ukuran A3 500 -0,295 0,093 0,034 tahun -0,015 0,017 tahun 0.917 0,011 0,002 0,023 0.909 -0,295 0,093 0,046 tahun
θ=1 β=0 A1 500 -0,001 0,002 0.960 -0,001 0,002 0,955 0.000 -0,001 0,002 0,951 -0,001 0,002 0,970
A2 500 -0,001 0,002 0,952 <0,001 0,005 0,954 0.000 -0,001 0,004 tahun 0,949 tahun -0,001 0,002 0,957 tahun
Ukuran A3 500 -0,001 0,007 tahun 0.943 -0,002 0,022 0.922 0,071 tahun -0,006 0,024 0,925 -0,001 0,007 tahun 0,952
β=0.3 A1 500 -0,186 0,005 0.722 -0,118 0,004 tahun 0.894 0.000 -0,137 0,004 tahun 0,877 -0,134 0,003 0.856
A2 500 -0,252 0,008 0.603 0,031 0,006 0,939 0.000 -0,072 0,005 0.923 -0,243 0,008 0.640
Ukuran A3 500 -0,299 0,015 0,768 tahun -0,008 0,022 0.923 0,055 -0,095 0,024 0,915 -0,302 0,015 0,775 tahun
β=1 A1 500 -0,209 0,046 tahun 0,006 -0,133 0,021 0,370 tahun 0.000 -0,144 0,024 0,336 tahun -0,117 0,016 0.303
A2 500 -0,264 0,072 0,002 -0,034 0,007 tahun 0,929 0.000 -0,010 0,016 0.710 -0,210 0,048 tahun 0,048 tahun
Ukuran A3 500 -0,340 0.123 0,030 -0,039 0,030 0.872 0,015 -0,098 0,041 tahun 0.859 -0,340 0.123 0,032

3.4 Implementasi Perangkat Lunak
Metode kohort tertimbang umum yang dikembangkan dalam karya ini diimplementasikan dalam paket R yang mudah digunakan “wcox,” yang dapat diunduh dari https://github.com/vharntzen/wcox . Selain itu, semua kode yang digunakan dalam studi Simulasi tersedia sebagai Informasi Pendukung.

4 Aplikasi Data Nyata
Kami menyajikan dua aplikasi untuk menggambarkan kinerja metode kohort tertimbang umum yang baru dibandingkan dengan pendekatan tradisional pada data riil. Dalam kedua aplikasi, tujuannya adalah untuk menilai hubungan antara lokus kerentanan umum (lokasi gen pada kromosom) yang diidentifikasi dalam GWAS dan kanker, menggunakan data yang dikumpulkan melalui pengujian genetik di unit genetika klinis. Secara khusus, aplikasi pertama ditujukan untuk mempelajari hubungan antara polimorfisme nukleotida tunggal (SNP) dan CRC pada pembawa varian patogenik dalam gen PMS2 sementara yang kedua berfokus pada hubungan PRS berbasis 161 SNP dengan kanker payudara. Pemilihan kedua set data didasarkan pada riwayat keluarga kanker dengan oversampling kasus kanker dengan tujuan menemukan pembawa varian genetik tertentu. Hasilnya, sampel yang digunakan dalam aplikasi pertama terdiri dari pembawa mutasi PMS2 . Dalam aplikasi kedua, sampel terdiri dari wanita dengan riwayat keluarga kanker payudara dan tanpa mutasi BRCA1 atau BRCA2 .

4.1 Aplikasi untuk CRC
Dalam aplikasi ini, kami mempertimbangkan sampel pembawa laki-laki dari mutasi germline PMS2 . Termotivasi oleh temuan menjanjikan sebelumnya yang dilaporkan oleh ten Broeke et al. ( 2018 ), kami mempelajari hubungan antara SNP rs1321311 dan CRC pada laki-laki. Sampel terdiri dari 191 laki-laki yang termasuk dalam 102 keluarga berbeda yang dikumpulkan di delapan pusat genetika klinis Belanda antara tahun 2007 dan 2016. Rincian tentang kriteria seleksi dapat ditemukan di ten Broeke et al. ( 2015 ). Distribusi jumlah individu yang termasuk dalam keluarga yang sama sangat miring, jumlah rata-rata individu per keluarga adalah 1,83 dan sebagian besar keluarga (55%) berkontribusi dengan satu anggota tunggal (Gambar 3 , panel kiri). Usia tindak lanjut terakhir berkisar antara 25 dan 88 tahun, tetapi mengingat tidak ada kejadian yang diamati setelah usia 75 tahun, kami menyensor pengamatan pada usia 75 tahun. Kisaran usia yang diamati saat diagnosis CRC bervariasi antara 25 dan 75, dan 58 kejadian diamati (70% penyensoran). Dari 191 individu yang diteliti, 116 adalah homozigot dari alel nonrisk, 65 adalah heterozigot, dan 10 adalah homozigot dari alel risiko. Karena ukuran kategori terakhir terbatas, kami mengevaluasi efek indikator menjadi pembawa alel rs1321311.

GAMBAR 3
Aplikasi 1: Studi tentang hubungan antara SNP rs1321311 dan kanker CRC pada pembawa laki-laki dari varian patogenik pada gen PMS2 . Panel kiri: Ukuran keluarga yang termasuk dalam sampel. Panel kanan: Insiden kumulatif kanker kolorektal pada usia yang berbeda. Garis abu-abu menunjukkan risiko yang diamati dalam sampel. Garis hitam mencerminkan risiko kanker kolorektal kumulatif yang diharapkan untuk populasi pembawa mutasi PMS2 berdasarkan literatur sebelumnya (ten Broeke et al. 2015 ). Secara khusus, tingkat insiden CRC spesifik usia dari pembawa mutasi PMS2 diperoleh dengan mengalikan estimasi titik rasio bahaya yang bergantung pada usia seperti yang dilaporkan dalam Tabel 2 dalam ten Broeke et al. ( 2015 ) dengan tingkat insiden berbasis populasi dasar CRC untuk pria di Belanda pada tahun 2011 menurut Netherlands Cancer Registry (NCR).

Kami mempertimbangkan empat model berbeda: regresi Cox tanpa bobot, metode kohort berbobot terkini, metode kohort berbobot umum baru kami yang berdasarkan skema pembobotan baru dan lebih umum, dan model frailty gamma bersama sebagai analisis sensitivitas untuk mengukur dampak potensial dari heterogenitas spesifik keluarga yang tidak teramati. Kedua metode berbobot yang dipelajari memerlukan pengetahuan tentang tingkat kejadian CRC pada pembawa varian patogenik dalam PMS2 . Ini diperoleh dengan mengalikan tingkat kejadian CRC berbasis populasi di Belanda pada tahun 2011 (NCR 2021 ) dengan rasio bahaya CRC yang bergantung pada usia yang diterbitkan sebelumnya (ten Broeke et al. 2015 ) untuk pembawa PMS2 . Pilihan tahun 2011 sebagai referensi dibenarkan karena merupakan titik tengah periode pengumpulan data (2007–2016). Interval spesifik usia dan tingkat kejadian yang digunakan dalam aplikasi ini dapat ditemukan di Tabel S2 . Seperti dalam studi simulasi, kesalahan standar yang kuat diperoleh dengan menggunakan penaksir sandwich Huber–White untuk pendekatan terbobot sementara perkiraan normal yang biasa digunakan untuk model Cox dan kelemahan yang tidak terbobot.

Dari hasil yang dilaporkan di baris bawah Tabel 5 , diamati bahwa metode kohort tertimbang umum yang baru memberikan efek estimasi yang sedikit lebih besar daripada regresi Cox (tidak tertimbang) yang terkenal. Sesuai dengan hasil yang diperoleh dengan metode tidak tertimbang, asosiasi estimasi antara alel risiko rs1321311 dan CRC signifikan secara statistik pada tingkat 5% yang biasa ketika menggunakan metode kohort tertimbang umum. Yang penting, pendekatan kohort tertimbang tradisional tidak dapat digunakan karena bobot negatif diperoleh. Secara khusus, oversampling kasus tidak cukup kuat dalam kelompok usia 65-70 tahun, dan pembatasan (10) yang dibahas dalam Bagian 2.1 tidak terpenuhi yang mengarah ke bobot negatif untuk individu yang tidak terpengaruh dalam kelompok usia ini. Model kelemahan bersama memberikan efek kovariat estimasi yang lebih rendah di antara metode yang dievaluasi. Hal ini mungkin disebabkan oleh ukuran kelompok keluarga yang terbatas dan heterogenitas dasar yang tidak teramati. Varians kelemahan yang diestimasikan adalah 0,15 dengan interval keyakinan yang luas (0,1), yang menunjukkan kesulitan model untuk memberikan estimasi yang andal mengenai tingkat heterogenitas yang tidak teramati. Kemungkinan penyebab utama yang mendorong kesulitan ini adalah ukuran kluster yang terbatas dari aplikasi ini karena sebagian besar keluarga menyumbangkan satu individu untuk analisis. Akibatnya, pendekatan kelemahan bersama tidak direkomendasikan dalam aplikasi ini dan orang lebih suka memilih pendekatan kohort tertimbang umum yang baru.

TABEL 5. Aplikasi pada CRC pada pembawa PMS2 pria . Koefisien regresi yang diperkirakan (
) dan interval kepercayaan 95% yang sesuai untuk efek SNP rs1321311 untuk berbagai model Cox. Bobot kasus dihitung berdasarkan tingkat kejadian CRC untuk pembawa mutasi PMS2 yang didefinisikan sebagai estimasi titik rasio bahaya tergantung usia yang dilaporkan dalam sepuluh Broeke et al. ( 2018 ) dikalikan dengan tingkat CRC berbasis populasi di Belanda pada tahun 2011.

Model β̂(95% CI)
Tidak berbobot 0,723 (0,182–1,265)
Kelemahan 0,671 (0,149–1,192)
Kelompok tertimbang − ( bobot negatif )
Kohort tertimbang umum 0,771 (0,234–1,308)

4.2 Aplikasi untuk Kanker Payudara
Dalam aplikasi ini, hubungan antara skor PRS dan kanker payudara dianalisis menggunakan sampel 579 wanita yang dipastikan secara klinis yang termasuk dalam 101 keluarga. Rata-rata, enam wanita disertakan per keluarga (ukuran keluarga rata-rata = 5,73 dan deviasi standar = 4,66, panel kiri Gambar 4 ). Kriteria inklusi ada dua. Per keluarga, salah satu wanita harus dites negatif untuk varian patogenik BRCA1 atau BRCA2 . Ini adalah fitur khusus dari sampel ini dan berarti bahwa agregasi keluarga dan timbulnya kanker dini tidak dijelaskan oleh varian patogenik dalam gen berisiko tinggi ini. Lebih jauh, kanker payudara harus terjadi pada setidaknya tiga anggota keluarga perempuan atau pada dua perempuan jika setidaknya satu memiliki kanker payudara bilateral sebelum usia 60 tahun. Keluarga-keluarga tersebut dipilih antara tahun 1990 dan 2012 oleh Layanan Genetik Klinis di empat kota Belanda (Groningen, Leiden, Nijmegen, dan Rotterdam) dan satu kota Hungaria (Budapest). Mengingat sedikitnya kejadian setelah usia 80 tahun (hanya satu kejadian yang diamati pada usia 90), kami menyensor pengamatan pada usia 80, yang menghasilkan 322 kejadian yang diamati (44% penyensoran).

GAMBAR 4
Aplikasi 2: Studi tentang hubungan antara skor risiko poligenik dan kanker payudara wanita. Panel kiri: Ukuran keluarga yang termasuk dalam sampel. Panel kanan: Insiden kumulatif kanker payudara pada berbagai usia. Garis abu-abu menunjukkan risiko yang diamati dalam sampel. Garis hitam menunjukkan insiden kumulatif berbasis populasi (Belanda, 2001 (NCR 2021 )) yang digunakan sebagai referensi dalam analisis tertimbang.

PRS didasarkan pada 161 SNP yang dibobot dengan rasio log-odds yang dipublikasikan sebelumnya (sebagian besar berdasarkan studi kasus-kontrol berbasis populasi). Deskripsi terperinci tentang perhitungan PRS dapat ditemukan di tempat lain (Lakeman et al. 2019 ). Seperti sebelumnya, untuk menetapkan hubungan antara penanda yang diinginkan, PRS, dan kanker payudara, kami mempertimbangkan empat model berbeda: regresi Cox tradisional tanpa bobot, metode kohort tertimbang terkini untuk menangani pengambilan sampel yang bergantung pada hasil, metode tertimbang baru kami, dan model frailty gamma bersama dan kami menggunakan pendekatan yang sama seperti sebelumnya untuk perhitungan kesalahan standar. Tingkat kejadian berbasis populasi di Belanda pada tahun 2001 (NCR 2021 ) (titik tengah periode pemilihan sampel) digunakan sebagai masukan eksternal untuk menyusun bobot. Interval spesifik usia dan tingkat kejadian yang digunakan dalam aplikasi ini dapat ditemukan di Tabel S2 .

Dari hasil yang dilaporkan dalam Tabel 6 , kami mengamati bahwa metode kohort tertimbang umum yang baru memberikan efek yang sedikit lebih kecil daripada pendekatan kohort tertimbang yang diusulkan sebelumnya dan bahwa keduanya memberikan efek yang lebih kecil daripada model Cox yang tidak tertimbang. Tidak satu pun dari ketiga pendekatan ini mencapai signifikansi statistik pada level 5%. Untuk memperkirakan tingkat heterogenitas karena kesamaan dalam keluarga yang tidak terukur, model kelemahan bersama juga dipasang. Varians kelemahan yang diperkirakan adalah 0,41, yang menunjukkan bahwa heterogenitas yang tidak teramati tidak dapat diabaikan dalam aplikasi ini. Ini, bersama dengan ukuran besar keluarga yang disertakan, mungkin menjadi alasan mengapa model kelemahan bersama memberikan estimasi yang lebih besar dari rasio log-bahaya bersyarat daripada rasio log-bahaya yang disediakan oleh metode lain, bahkan jika signifikansi statistik pada level 5% juga tidak tercapai dengan pendekatan ini. Berdasarkan hasil simulasi kami, kami berhipotesis bahwa hubungan antara PRS dan kanker payudara kemungkinan besar tidak jelas karena mengabaikan heterogenitas kuat yang tidak teramati dan bahwa pendekatan kelemahan lebih disukai dalam aplikasi ini.

TABEL 6. Aplikasi pada kanker payudara wanita pada keluarga non- BRCA1 / 2 . Koefisien regresi yang diperkirakan (β̂) dan interval kepercayaan 95% yang sesuai untuk efek skor risiko poligenik (PRS) untuk model Cox yang berbeda.
Model β̂(95% CI)
Tidak berbobot 0,110 (−0,096, 0,317)
Kelemahan 0,173 (−0,045, 0,390)
Kelompok tertimbang 0,079 (−0,226, 0,385)
Kohort tertimbang umum 0,062 (−0,261, 0,384)

Kedua aplikasi data riil menawarkan wawasan pelengkap yang menarik dan memungkinkan kita untuk merumuskan rekomendasi untuk analisis praktis data riil. Kami menyarankan untuk melakukan analisis menggunakan pendekatan kohort tertimbang bersamaan dengan analisis model kelemahan sebagai pemeriksaan sensitivitas. Jika varians kelemahan yang diestimasikan substansial, menyimpang secara signifikan dari nol, orang akan mengantisipasi bahwa pendekatan tertimbang (baik tradisional maupun umum) meremehkan efek kovariat. Sebaliknya, jika varians kelemahan yang diestimasikan sangat mendekati nol, perhatian harus diarahkan hanya pada hasil yang diperoleh dari analisis kohort tertimbang. Baik metode kohort tertimbang tradisional maupun umum diharapkan menghasilkan hasil yang sebanding; namun, metode umum yang baru dipastikan memberikan bobot yang valid, sedangkan ini tidak dijamin untuk metode tradisional.

5 Diskusi
Dalam makalah ini, kami meninjau kembali analisis data kelangsungan hidup yang diambil sampelnya secara bergantung pada hasil dengan regresi Cox tertimbang menggunakan data eksternal untuk membangun probabilitas terbalik dari bobot seleksi. Penelitian kami dimotivasi oleh minat terhadap pengaruh faktor pengubah potensial terhadap risiko kanker menggunakan data yang dipastikan secara klinis. Biasanya, kumpulan data tersebut dikumpulkan melalui program pengujian genetik yang sedang berlangsung, di mana kriteria seleksi mengarah pada representasi kasus muda yang berlebihan dan karenanya, sampel yang dihasilkan tidak mewakili populasi target yang diinginkan. Kami telah memperkenalkan skema pembobotan baru yang memulihkan rasio kejadian dan nonkejadian yang diharapkan pada setiap waktu tindak lanjut menggunakan informasi bahaya berbasis populasi.

Kekuatan skema pembobotan baru adalah bahwa ia bergantung pada lebih sedikit asumsi untuk memberikan bobot yang valid dan nonnegatif. Pendekatan kohort tertimbang tradisional (Antoniou et al. 2005 ) mengharuskan sejumlah kondisi terpenuhi, yang menghambat penerapannya. Secara khusus, metode asli bermasalah jika oversampling kasus tidak diamati pada semua kelompok umur. Dalam praktiknya, meskipun oversampling keseluruhan peristiwa diharapkan, itu tidak selalu berlaku untuk semua kelompok umur. Metode baru kami mengatasi pembatasan ini dan dapat diterapkan pada serangkaian skema oversampling yang lebih luas, oleh karena itu dapat dianggap sebagai generalisasi dari pendekatan kohort tertimbang tradisional. Studi simulasi dan aplikasi data nyata kami secara praktis telah menunjukkan bahwa metode kohort tertimbang umum yang baru dapat diterapkan dalam serangkaian situasi yang lebih luas daripada kohort tertimbang asli. Ini bersama dengan implementasi yang mudah digunakan menjadikannya alat analisis yang menarik bagi para peneliti terapan di lapangan.

Mirip dengan metode kohort tertimbang yang diusulkan sebelumnya, pendekatan kami bergantung pada sejumlah asumsi. Pekerjaan kami telah berkontribusi untuk mengklarifikasi dan mempelajari secara mendalam asumsi intrinsik dari pendekatan regresi Cox tertimbang berdasarkan data eksternal untuk mengatasi pengambilan sampel yang bergantung pada hasil. Hal ini telah membantu kami memperoleh pemahaman yang lebih baik tentang manfaat dan keterbatasan dari jenis pendekatan yang menarik ini karena kesederhanaannya. Pertama, asumsi penting adalah keberadaan sumber eksternal yang mapan dari tingkat kejadian berbasis populasi. Kedua, probabilitas pengambilan sampel individu yang diamati bergantung pada usia saat onset tetapi diasumsikan secara kondisional independen dari pengubah risiko yang sedang diselidiki. Kedua asumsi ini telah dibahas sebelumnya dalam konteks metode kohort tertimbang (Antoniou et al. 2005 ; Barnes et al. 2012) ). Asumsi lain, yang tidak dibahas sebelumnya tetapi umum untuk metode kohort tertimbang asli dan umum, adalah penyensoran kanan diskrit, yang berarti bahwa penyensoran acak dalam interval tidak dapat ditangani. Studi simulasi kami telah menunjukkan bahwa asumsi ini biasanya mengarah pada perkiraan yang terlalu rendah terhadap efek dan tampaknya menjadi batasan yang sulit diatasi jika tidak ada informasi tambahan. Selain itu, kedua pendekatan saat ini mengasumsikan kovariat yang tidak terpotong dan tetap waktu. Perluasan pendekatan kohort tertimbang umum saat ini untuk menangani fenomena ini dengan tepat diserahkan pada penelitian mendatang. Lebih jauh, hubungan antara bahaya dan pengubah risiko yang sedang diselidiki harus mengikuti spesifikasi bahaya proporsional. Kami telah memeriksa kinerja pendekatan kohort tertimbang umum tradisional dan baru di bawah kesalahan spesifikasi model, khususnya, di bawah ketidakterlipatan karena adanya agregasi familial residual. Dalam kasus ini, kami juga mengamati bahwa penggunaan pendekatan tertimbang tampaknya disarankan dibandingkan dengan pendekatan tak tertimbang naif. Selain itu, jika jumlah individu yang tersedia per keluarga terbatas, yang merupakan situasi paling umum dalam praktik, metode kohort tertimbang umum baru mungkin menjadi pilihan yang lebih disukai, mengungguli model kelemahan bersama dan pendekatan kohort tertimbang tradisional. Namun, kami ingin memberi peringatan tentang penafsiran efek yang diestimasikan dan menunjukkan bias sistematis ke bawah pada koefisien regresi dalam pengaturan ini, mengusulkan penyertaan sistematis hasil model kelemahan bersama sebagai analisis sensitivitas.

Perluasan pendekatan pembobotan untuk menangani pengambilan sampel yang bergantung pada hasil ke dalam konteks model kelemahan akan menarik tetapi menantang. Karena tingkat kejadian yang diestimasikan dalam sampel bergantung pada estimasi varians kelemahan yang benar, maka perlu diketahui nilai varians kelemahan untuk memperoleh bobot yang benar. Akan tetapi, varians kelemahan bersifat laten dan karenanya kami mengantisipasi masalah identifikasi dalam pendekatan tersebut. Pemodelan yang lebih canggih, menggunakan model kelemahan dengan koreksi eksplisit untuk pemastian dimungkinkan tetapi tidak langsung dan diserahkan untuk penelitian di masa mendatang. Perlu dicatat bahwa pendekatan yang rumit seperti itu mungkin memerlukan kelompok dan ukuran sampel yang besar dan karenanya pendekatan kami yang lebih sederhana berdasarkan peminjaman informasi dari sumber eksternal yang dapat dipercaya akan tetap lebih disukai dalam sejumlah situasi praktis yang relevan, seperti aplikasi kami pada pembawa PMS2. Selain itu, makalah ini tidak secara khusus membahas penentuan kesalahan standar untuk pendekatan kohort tertimbang yang baru dan yang sudah ada, topik yang memerlukan penyelidikan lebih lanjut. Seperti yang ditunjukkan dalam penelitian sebelumnya (Seaman dan White 2013 ), metode penyesuaian sandwich yang banyak digunakan mungkin menunjukkan perilaku antikonservatif karena mengabaikan variabilitas dalam estimasi berat. Sebaiknya dilakukan penyelidikan terhadap metodologi alternatif dalam kerangka prinsip sandwich.

Kesimpulannya, untuk melakukan analisis regresi menggunakan data survival yang diperoleh berdasarkan pengambilan sampel dependen hasil berbasis keluarga, diperlukan teknik khusus untuk menghindari bias dan memberikan inferensi yang valid. Model Cox berbobot probabilitas pemilihan terbalik berdasarkan data eksternal adalah pendekatan yang layak dan sederhana yang menghasilkan hasil yang wajar dalam banyak skenario realistis, terutama ketika tingkat kepastian klinis kuat. Kami telah mengusulkan metode yang lebih umum daripada yang sudah ada, yang memiliki rentang penerapan yang luas. Mengingat kecenderungan yang ditunjukkan untuk pendekatan kohort berbobot untuk meremehkan efek kovariat dengan adanya heterogenitas yang tidak teramati, kami sarankan untuk selalu menggabungkan analisis sensitivitas berdasarkan model kelemahan. Analisis ini berfungsi untuk mengevaluasi tingkat pengelompokan keluarga dalam set data dan untuk menilai tingkat perkiraan yang lebih rendah yang diharapkan oleh metode kohort berbobot.

Leave a Reply

Your email address will not be published. Required fields are marked *