Mon. Dec 6th, 2021

Mengenal Soal Nilai-p Tentang Sains – Para ilmuwan sekarang mencari cara untuk memperbaiki kapal, untuk memastikan studi ilmiah yang diterbitkan hari ini tidak akan ditertawakan dalam beberapa tahun.

brainmysteries

Mengenal Soal Nilai-p Tentang Sains

brainmysteries – Salah satu masalah paling sulit dengan pertanyaan ini adalah signifikansi statistik. Ini adalah salah satu metrik paling berpengaruh untuk menentukan apakah suatu hasil diterbitkan dalam jurnal ilmiah.

Sebagian besar pembaca penelitian ilmiah tahu bahwa agar hasil dinyatakan “signifikan secara statistik”, mereka harus lulus tes sederhana. Jawaban untuk tes ini disebut nilai-p. Dan jika nilai p Anda kurang dari 0,05 bingo, Anda mendapatkan hasil yang signifikan secara statistik.

Sekarang sekelompok 72 ahli statistik, psikolog, ekonom, sosiolog, ilmuwan politik, peneliti biomedis, dan lainnya ingin mengganggu status quo. Sebuah makalah yang akan datang dalam jurnal Behavior Human Nature berpendapat bahwa hasil seharusnya hanya dianggap “signifikan secara statistik” jika mereka melewati batas yang lebih tinggi.

“Kami mengusulkan perubahan ke P<0,005,” tulis para penulis. “Langkah sederhana ini akan segera meningkatkan reproduktifitas penelitian ilmiah di banyak bidang.”

Ini mungkin terdengar kutu buku, tapi ini penting. Jika perubahan diterima, harapannya adalah lebih sedikit kesalahan positif yang akan merusak literatur ilmiah. Menjadi terlalu mudah menggunakan teknik teduh yang dikenal sebagai p-hacking dan pengalihan hasil — untuk menemukan beberapa hasil yang dapat dipublikasikan yang mencapai tingkat signifikansi 0,05.

Baca Juga : Tips Mendukung Pembelajaran Sains Untuk Anak-anak

“Ada masalah besar dalam menggunakan nilai-p seperti yang kita gunakan selama ini,” kata John Ioannidis , profesor penelitian kesehatan Stanford dan salah satu penulis makalah. “Ini menyebabkan banjir klaim menyesatkan dalam literatur.”

Jangan salah: Proposal ini tidak akan menyelesaikan semua masalah dalam sains . “Saya melihatnya sebagai bendungan untuk menahan banjir sampai kami memastikan kami memiliki perbaikan yang lebih permanen,” kata Ioannidis. Dia menyebutnya “perbaikan cepat.” Meskipun tidak semua orang setuju bahwa itu adalah tindakan terbaik.

Paling-paling, proposal tersebut merupakan perubahan yang mudah diterapkan untuk melindungi literatur akademis dari kesimpulan yang salah. Paling buruk, itu adalah dekrit yang merendahkan yang menghindari mengatasi masalah sebenarnya di jantung kesengsaraan sains.

  • Ada banyak hal yang harus dibongkar dan dipahami di sini. Jadi kita akan melakukannya perlahan.
  • Apa itu nilai-p?
  • Bahkan definisi paling sederhana dari nilai-p cenderung menjadi rumit. Jadi bersabarlah dengan saya saat saya memecahnya.

Ketika peneliti menghitung nilai-p, mereka menguji apa yang dikenal sebagai hipotesis nol. Hal pertama yang perlu diketahui: Ini bukan tes dari pertanyaan yang sangat ingin dijawab oleh eksperimenter.

Katakanlah peneliti benar-benar ingin tahu apakah makan satu batang cokelat sehari menyebabkan penurunan berat badan. Untuk mengujinya, mereka menugaskan 50 peserta untuk makan satu batang cokelat sehari. 50 orang lainnya diperintahkan untuk menghindari makanan yang enak. Kedua kelompok ditimbang sebelum percobaan, dan kemudian setelahnya, dan perubahan berat rata-rata mereka dibandingkan.

Hipotesis nol adalah argumen pendukung iblis. Ini menyatakan: Tidak ada perbedaan dalam penurunan berat badan dari pemakan cokelat versus abstain cokelat.

Menolak nol adalah rintangan utama yang harus diselesaikan para ilmuwan untuk membuktikan hipotesis mereka. Jika nol berlaku, itu berarti mereka belum menghilangkan penjelasan alternatif utama untuk hasil mereka. Dan apa itu sains jika bukan proses mempersempit penjelasan?

Jadi bagaimana mereka mengesampingkan nol? Mereka menghitung beberapa statistik.

Peneliti pada dasarnya bertanya: Betapa konyolnya mempercayai hipotesis nol adalah jawaban yang benar, mengingat hasil yang kita lihat?

Menolak nol seperti prinsip “tidak bersalah sampai terbukti bersalah” dalam kasus pengadilan, Regina Nuzzo, seorang profesor matematika di Universitas Gallaudet, menjelaskan. Di pengadilan, Anda memulai dengan asumsi bahwa terdakwa tidak bersalah. Kemudian Anda mulai melihat bukti: pisau berdarah dengan sidik jarinya di atasnya, sejarah kekerasannya, laporan saksi mata. Dengan semakin banyaknya bukti, praduga tak bersalah itu mulai terlihat naif. Pada titik tertentu, juri mendapatkan perasaan, tanpa keraguan, bahwa terdakwa tidak bersalah.

Pengujian hipotesis nol mengikuti logika yang sama: Jika ada perbedaan berat badan yang besar dan konsisten antara pemakan cokelat dan tidak mengonsumsi cokelat, hipotesis nol — bahwa tidak ada perbedaan berat mulai terlihat konyol. Dan Anda bisa menolaknya.

Anda mungkin berpikir: Bukankah ini cara memutar yang cukup untuk membuktikan eksperimen berhasil?

Menolak hipotesis nol adalah bukti tidak langsung dari hipotesis eksperimental. Ia tidak mengatakan apa-apa tentang apakah kesimpulan ilmiah Anda benar.

Tentu, para pemakan cokelat bisa menurunkan berat badan. Tapi apakah karena coklatnya? Mungkin. Atau mungkin mereka merasa sangat bersalah makan permen setiap hari, dan mereka tahu mereka akan ditimbang oleh orang asing yang memakai jas lab (aneh!), jadi mereka berhemat pada makanan lain.

Menolak nol tidak memberi tahu Anda apa pun tentang mekanisme bagaimana cokelat menyebabkan penurunan berat badan. Itu tidak memberi tahu Anda apakah eksperimen itu dirancang dengan baik, atau dikontrol dengan baik, atau jika hasilnya tidak tepat.

Ini hanya membantu Anda memahami betapa jarangnya hasilnya.

Tapi dan ini adalah poin yang rumit dan rumit bukan seberapa jarang hasil eksperimen Anda . Betapa jarangnya hasilnya di dunia di mana hipotesis nol itu benar. Artinya, betapa jarangnya hasilnya jika tidak ada apa pun dalam eksperimen Anda yang berhasil, dan perbedaan bobot hanya disebabkan oleh kebetulan saja.

Di sinilah nilai p masuk: Nilai p mengkuantifikasi kelangkaan ini. Ini memberi tahu Anda seberapa sering Anda akan melihat hasil numerik dari eksperimen — atau bahkan hasil yang lebih ekstrem jika hipotesis nol benar dan tidak ada perbedaan di antara grup.

Jika nilai p sangat kecil, itu berarti angka-angka itu jarang (tetapi tidak tidak pernah!) muncul secara kebetulan saja. Jadi, ketika p kecil, peneliti mulai berpikir hipotesis nol terlihat tidak mungkin. Dan mereka mengambil lompatan untuk menyimpulkan “data [eksperimental] mereka sangat tidak mungkin karena kebetulan acak,” jelas Nuzzo.

Dan inilah poin rumit lainnya: Peneliti tidak pernah bisa sepenuhnya mengesampingkan nol (sama seperti juri bukan saksi langsung kejahatan). Jadi para ilmuwan malah memilih ambang di mana mereka merasa cukup yakin bahwa mereka dapat menolak nol. Untuk banyak disiplin ilmu, sekarang ditetapkan kurang dari 0,05.

Idealnya, ap 0,05 berarti jika Anda menjalankan eksperimen 100 kali sekali lagi, dengan asumsi hipotesis nol benar Anda akan melihat angka yang sama ini (atau hasil yang lebih ekstrem) lima kali.

Dan satu lagi, konsep super rumit yang hampir semua orang salah: P<.05 tidak berarti ada kurang dari 5 persen kemungkinan hasil eksperimen Anda adalah karena kebetulan acak. Itu tidak berarti hanya ada 5 persen kemungkinan Anda mendapatkan hasil positif palsu. Tidak. Sama sekali tidak.

Sekali lagi: Nilai p kurang dari 0,05 berarti ada kemungkinan kurang dari 5 persen untuk melihat hasil ini (atau hasil yang lebih ekstrem), di dunia di mana hipotesis nol benar. Ini terdengar rewel, tapi penting . Ini adalah kesalahpahaman yang membuat orang terlalu percaya diri pada nilai-p. Tingkat positif palsu untuk eksperimen pada p=.05 bisa jauh, jauh lebih tinggi dari 5 persen.

Kasus melawan p<.05

Umumnya, nilai-p tidak boleh digunakan untuk membuat kesimpulan, melainkan untuk mengidentifikasi kemungkinan – seperti tes mengendus,” Rebecca Goldin, direktur Stats.org dan seorang profesor matematika di Universitas George Mason , menjelaskan dalam email.

Dan untuk waktu yang lama, bau p yang kurang dari 0,05 cukup bagus. Tetapi selama beberapa tahun terakhir, para peneliti dan ahli statistik telah menyadari bahwa p<.05 bukanlah bukti yang kuat seperti yang mereka kira.

Dan yang pasti, bukti untuk ini berlimpah .

Inilah bukti yang paling jelas dan mudah dipahami: Banyak makalah yang telah menggunakan ambang signifikansi 0,05 tidak direplikasi dengan desain metodologis yang lebih ketat.

Sebuah makalah tahun 2015 yang terkenal di Science berusaha mereplikasi 100 temuan yang diterbitkan dalam jurnal psikologis terkemuka. Hanya 39 persen yang lulus . Disiplin lain bernasib agak lebih baik. Upaya replikasi serupa di makalah ekonomi menemukan 60 persen temuan direplikasi. Ada juga “krisis” reproduktifitas dalam biomedis, tetapi belum dikuantifikasi secara spesifik .

Makalah Sains 2015 tentang studi psikologi menawarkan beberapa petunjuk tentang makalah mana yang lebih mungkin untuk ditiru. Studi yang menghasilkan hasil yang sangat signifikan (kurang dari p=.01) lebih mungkin untuk direproduksi daripada studi yang hampir tidak signifikan pada tingkat .05.

“Efek pelaporan yang sebenarnya tidak ada merusak kredibilitas sains,” kata Valen Johnson, salah satu penulis proposal Nature Human Behavior yang mengepalai departemen statistik di Texas A&M. “Penting bagi sains untuk mengadopsi standar yang lebih tinggi ini, sebelum mereka mengklaim telah membuat penemuan.”

Di tempat lain, peneliti menemukan bukti “epidemi” signifikansi statistik. “Hampir semua yang Anda baca di makalah yang diterbitkan memiliki hasil yang signifikan secara statistik,” kata Ioannidis. “Sebagian besar dari nilai-p kurang dari 0,05 ini tidak sesuai dengan beberapa efek yang sebenarnya.”

Untuk waktu yang lama, para ilmuwan mengira p<.05 mewakili sesuatu yang langka. Pekerjaan baru dalam statistik menunjukkan bahwa itu tidak benar.

Dalam makalah PNAS 2013 , Johnson menggunakan teknik statistik yang lebih maju untuk menguji asumsi yang biasanya dibuat oleh para peneliti: bahwa ap 0,05 berarti ada kemungkinan 5 persen hipotesis nol itu benar. Analisisnya mengungkapkan bahwa tidak. “Faktanya, ada kemungkinan 25 persen hingga 30 persen hipotesis nol benar ketika nilai p adalah 0,05,” kata Johnson.

By rainmys