Bagi
peneliti kuantitatif, konsep dari signifikansi, besaran efek (Effect Size), kekuatan uji statistik (Statistical Power), dan besaran sampel
merupakan konsep dasar yang harusnya dipahami. Namun kenyataannya, di mata
kuliah statistika, tidak semua dosen menjelaskan konsep dasar ini, dan tidak
semua dosen menjelaskan dengan tepat empat konsep ini. Penelitian Psikologi,
terutama yang menggunakan pendekatan eksperimen sebagian besar ingin
membandingkan apakah terdapat perbedaan variabel antara dua kelompok atau
lebih. Misalnya sebuah penelitian ingin menguji apakah terapi psikologis mampu
meningkatkan kepercayaan diri subjek. Penelitian dilakukan dengan desain between subject dengan kelompok kontrol
dan eksperimen, dimana kelompok kontrol tidak diberi terapi, sedangkan kelompok
eksperimen diberi terapi. Penelitian tersebut memiliki hipotesis bahwa “terdapat perbedaan kepercayaan diri antara
kelompok kontrol dan kelompok eksperimen, dimana kelompok eksperimen memiliki
kepercayaan diri yang lebih tinggi”.
Statistik
inferensial tradisional tidak menguji hipotesis tersebut, melainkan menguji
hipotesis null yang menyatakan bahwa “tidak
ada perbedaan kepercayaan diri antara kelompok kontrol dan eksperimen”. Pendekatan
ini sering disebut dengan Null Hypothesis
Significance Testing (NHST). Peneliti melakukan uji statistik dengan independent sample t-test. Jika
probabilitas jangka panjang data yang diobservasi muncul di bawah hipotesis null
sangat rendah (misal di bawah 5%), peneliti menyimpulkan bahwa hipotesis null
sangat kecil kemungkinannya untuk benar. Karena sangat kecil kemungkinan bahwa
hipotesis null benar, maka peneliti menolak hipotesis null, dan menyimpulkan
bahwa terapinya memberikan efek positif terhadap kepercayaan diri. Uji statistik
tradisional ini memiliki beberapa paramater untuk memastikan kesimpulan tepat,
yakni kriteria signifikansi, Effect Size,
dan Statistical power, dan besaran
sampel. Tulisan ini akan memberikan gambaran empat konsep ini dan bagaimana
hubungan di antara keempatnya.
Kriteria Signifikansi
Dalam
statistik tradisional, kesalahan Tipe I dilambangkan dengan simbol α (alfa),
dan merupakan probabilitas jangka panjang sebuah penelitian menolak hipotesis null,
ketika hipotesis null benar. Sebagian besar penelitian Psikologi dan humaniora
memberikan toleransi 5% (α = 0.05) terhadap terjadinya kesalahan Tipe I atau
atau biasa disebut false positives. Hal
ini berarti, dalam pengambilan data yang dilakukan berkali-kali dengan batas
tidak terhingga, terdapat kemungkinan 5% atau kurang bahwa efek yang ditemukan
dalam observasi sebenarnya tidak ada. Toleransi terhadap kesalahan Tipe I
dilambangkan dengan p, sehingga nilai p di bawah 0,05 (di bawah batas
toleransi) dianggap sebagai temuan yang signifikan dan sebaliknya. Dalam contoh
penelitian eksperimen di atas, jika menggunakan kriteria p < 0,05 artinya peluang
peneliti salah menyimpulkan bahwa terapinya memiliki efek positif, padahal
terapi tersebut tidak memiliki efek positif adalah sebesar 5%.
Kekuatan uji statistik (statistical power)
Dalam
statistik tradisional, kesalahan Tipe II dilambangkan dengan simbol β (beta),
dan merupakan probabilitas jangka panjang sebuah penelitian gagal menolak
hipotesis null, ketika hipotesis null tidak benar. Kekuatan uji statistik
(power) dalam statistik inferensial tradisional merupakan kontrol terhadap kesalahan
Tipe II atau disebut juga sebagai false
negatives (1- β). Sebagian besar
penelitian Psikologi dan humaniora memberikan toleransi 20% terjadinya
kesalahan Tipe II, sehingga penelitian-penelitian tersebut memiliki Statistical power sebesar 80% (Cohen,
1990). Hal ini berarti, dalam pengambilan data yang dilakukan berkali-kali
dengan batas tidak terhingga, terdapat kemungkinan 80% atau lebih untuk
menyimpulkan bahwa suatu efek tidak ada, ketika efek tersebut memang tidak ada.
Secara
umum antara signifikansi (α) dan Statistical power (1- β) memiliki hubungan
yang positif. Seperti terlihat pada gambar di bawah, jika kita meningkatkan
level signifikansi (α), maka kita akan mengurangi daerah penerimaan hipotesis
null. Berkurangnya daerah penerimaan ini secara otomatis meningkatkan nilai
beta. Meningkatnya nilai beta akan menunjukkan nilai kekuatan uji
bertambah.
Besaran efek (effect size)
Besaran
efek (effect size) menunjukkan
perbedaan terstandar antara skor dari kelompok kontrol dan eksperimen. Dalam
penelitian, peneliti tidak hanya tertarik pada perbedaan antara kelompok
kontrol dan eksperimen, namun juga seberapa besar perbedaan antara kelompok
kontrol dan kelompok eksperimen. Effect
Size merupakan satuan standar, artinya, Effect
Size dapat dibandingkan antar beberapa skala yang berbeda dan dapat
dibandingkan antar beberapa penelitian dengan besaran sampel yang berbeda-beda.
Dalam contoh penelitian eksperimen di atas, Effect
Size yang dapat digunakan adalah Cohen’s d, yang semakin besar nilainya
maka semakin besar perbedaan antara kelompok kontrol dan kelompok eksperimen. Effect Size ada beragam jenisnya sesuai
jenis analisanya, misal Effect Size
untuk uji beda dua kelompok menggunakan Cohen’s d, Effect Size uji korelasi menggunakan koefisien r, dan Effect Size Anova menggunakan Eta
squared. Klasifikasi Effect Size pada
berbagai jenis analisis dapat dilihat pada tabel di bawah.
Besaran sampel
Besaran
sampel dalam statistik inferensial tradisional dapat dihitung dengan
memanfaatkan dinamika relasi antara parameter-parameter yang telah dijabarkan sebelumnya.
Formula untuk menentukan besaran sampel berdasarkan tiga paramater sebelumnya
adalah sebagai berikut.
Besaran sampel uji beda dua
kelompok
Besaran sampel uji korelasi
Sebagai
contoh, jika penelitian eksperimen di atas menghendaki kriteria signifikansi p
< 0,05 two-tailed dan power, 1-β = 0,80 dan mengharapkan Effect Size sebesar 0,5. Dengan demikian
dapat dihitung Z1-α/2 = 1,960 dan Z1-β = 0,842 (menggunakan tabel distribusi
normal) sehingga diperoleh besaran sampel 2*((1,960+0,842)/0,5)^2 = ~ 64 subjek
per kelompok.
Bagaimana
jika peneliti hanya menggunakan 30 subjek saja per kelompok? Dengan memasukan
ke formula, dengan Effect Size dan
kriteria signifikansi yang sama, maka akan diperoleh power sebesar 0,478. Hal
ini berarti, penelitian dengan sampel 30 subjek memiliki taraf kesalahan Tipe
II sebesar 52,2%. Dengan kata lain, terdapat 52,2% kemungkinan dalam penelitian
ini untuk menolak hipotesis null, padahal hipotesis null tersebut benar. Taraf
kesalahan sebesar 52,2% ini melebihi toleransi kesalahan Tipe II sebesar 20%
dalam sebagian besar penelitian Psikologi dan humaniora.
Ketika
kesalahan Tipe I dan II dikontrol, secara umum hubungan antara Effect Size dan jumlah sampel dapat
ditunjukkan pada gambar di bawah ini.
Dari
gambar terlihat bahwa Effect Size
memiliki hubungan negatif dengan jumlah sampel. Untuk mendeteksi Effect Size yang kecil, dibutuhkan
sampel yang lebih banyak, dan sebaliknya. Selain itu, Effect Size memiliki relasi eksponensial dengan besaran sampel.
Ketika Effect Size yang diharapkan
kecil, maka jumlah sampel yang dibutuhkan untuk mendeteksi suatu efek bertambah
secara eksponensial menjadi sangat besar dan sebaliknya.
Dalam
penelitian psikologi dan humaniora seringkali peneliti mengontrol taraf
kesalahan Tipe I, namun tidak mengontrol taraf kesalahan Tipe II dan tidak
mempertimbangkan Effect Size dalam pengambilan
keputusan. Ketika taraf kesalahan Tipe II tidak dikontrol, Effect Size yang terhitung biasanya merupakan overestimasi, dan
ketika Effect Size ini digunakan
untuk menghitung Statistical power
dalam penelitian replikasi, hasil penelitian sebagian besar tidak mereplikasi
temuan sebelumnya. Oleh karena itu, dalam menentukan sampel, peneliti hendaknya
memperhatikan keempat paramater tersebut.
Great post i must say and thanks for the information. Education is definitely a sticky subject. However, is still among the leading topics of our time. I appreciate your post and look forward to more.
ReplyDeletePMP Certification
PMP Certification in Malaysia
best online shopping store amazon products at resounding discounts in all world
ReplyDelete