Tujuh Dosa Besar dalam Analisis Statistik



Tulisan ini merupakan inti sari dan sedikit modifikasi dari tulisan Kuzon, Urbancheck, dan McCabe (1996) yang berjudul “The Seven Deadly Sins of Statistical Analysis”. Meskipun artikel tersebut sudah ditulis lebih dari 20 tahun yang lalu, namun kenyataannya dosa-dosa besar tersebut masih banyak dilakukan oleh para peneliti kuantitatif saat ini. Oleh karena itu tulisan ini hanya sebagai pengingat sekaligus menjelaskan kembali dosa-dosa tersebut bagi yang belum tahu. Ketujuh dosa besar dalam analisis statistik tersebut adalah

Rumus Slovin untuk Menentukan Jumlah Sampel dan Kontroversinya


Untuk mementukan sampel dari populasi, peneliti perlu menggunakan rumus statistik untuk menentukan jumlah sampel minimal yang dibutuhkan. Ada beberapa formula yang dapat digunakan untuk menentukan jumlah sampel dari suatu populasi yang diketahui. Misal peneliti ingin meneliti IQ orang Indonesia, maka peneliti dapat mengetahui jumlah populasi dan tahu karakteristik perilaku populasinya karena IQ selalu mengikuti kurve normal. Namun bagaimana jika peneliti ingin meneliti opini mahasiswa terhadap partai politik yang tidak diketahui karakteristik perilaku populasinya? Untuk kasus kedua dimana peneliti tidak tahu perilaku populasinya, peneliti dapat menggunakan rumus Slovin. Jadi rumus Slovin merupakan rumus untuk menghitung jumlah sampel minimal pada populasi yang tidak diketahui. Rumus ini begitu populer di kalangan mahasiswa, terutama untuk tugas akhir mereka.

Bagaimana menghitung dengan Rumus Slovin?
Rumus Slovin dapat dituliskan sebagai berikut

n = jumlah sampel minimal
N = jumlah populasi
e = margin of error / error tolerance

Misal seorang peneliti melakukan penelitian tentang sikap mahasiswa terhadap partai politik dengan jumlah populasi 1.000 orang, dan peneliti tersebut menetapkan tingkat kesalahan yang ditoleransi adalah 5%, maka dengan formula tersebut dapat dihitung jumlah sampel minimal yang diperlukan adalah n = 1.000 / 1 + (1.000x0,05x0,05) = 286. Dengan demikian penelitian tersebut setidaknya harus melibatkan 286 mahasiswa.

Masalah dengan Rumus Slovin
Rumus Slovin dapat memberikan gambaran kasar untuk menentukan jumlah sampel. Namun, rumus non-parametrik ini tidak memiliki ketelitian matematis (Ryan, 2013). Misalnya, tidak ada cara untuk menghitung power statistik (yang memberikan informasi seberapa besar kemungkinan penelitian membedakan efek aktual). Padahal ukuran sampel berdampak langsung pada power statistik, sedangkan jika power statistik rendah, akan menghasilkan kesimpulan yang tidak akurat. Selain itu, tidak jelas dari sumber referensi teks apa tepatnya yang dimaksud "margin of error" dalam rumus ini. Beberapa teks mengatakan e dalam rumus ini adalah margin of error, beberapa lainnya mengatakan error tolerance. Dilihat dari konteksnya, hampir pasti ini adalah nama lain untuk menyebut alpha (α) dalam statistik klasik. Lagipula, jika memang e dalam rumus ini adalah margin of error, bagaimana kita bisa menetapkannya terlebih dahulu padahal standar deviasi populasinya saja tidak diketahui. Rumus ini juga hanya masuk akal jika digunakan untuk penelitian yang tujuannya menghitung persentase, bukan untuk penelitian korelasional. 

Selain masalah power statistik dan penggunaan istilah yang kurang tepat, masalah lain yang menyebabkan rumus ini memiliki reputasi kurang baik di kalangan akademis dunia (tapi di Indonesia cukup populer) adalah karena asal usul rumus ini yang tidak jelas muncul dari mana. Sampai saat itu belum diketahui siapakah Slovin yang dimaksudkan dalam rumus ini. Dalam berbagai literatur juga tidak diketahui sipakah Slovin yang telah menciptakan rumus ini. Desas-desus yang berhembus, rumus ini diciptakan oleh Michael Slovin, namun desas-desus yang lain mengatakan bahwa Slovin yang dimaksud adalah Mark Slovin, Kulkol Slovin, dan ada pula Robert Slovin, entah mana yang betul.

Di buku statistika dan metodologi penelitian terbitan Indonesia, sepertinya bukunya Arikunto dan Sugiyono, rumus ini banyak disebutkan, begitupun cara menghitungnya. Di buku terbitan asing pun juga ada, seperti di buku “Elementary Statistics: A Modern Approach” oleh Altares et. Al (dalam buku itu disebut Sloven). Terlebih lagi, beberapa website tentang statistika juga banyak yang mencantumkan cara menghitung dengan rumus ini. Namun semuanya tidak ada yang mensitasi satu dokumen yang dijadikan rujukan rumus tersebut. Wikipedia, tempat dimana segala informasi ada di sana juga tidak mampu memberikan keterangan lebih lanjut mengenai siapakah rumus ini dan siapakah penemunya. Di berbagai forum peneliti dunia, seperti di Researchgate atau di Stackexchange, siapakah Slovin ini sesungguhnya juga masih menjadi perdebatan (lebih ke arah olok-olok terhadap asal-usul Slovin ini sebenarnya).

Rumus ini sendiri begitu populer di beberapa negara berkembang, terutama di Indonesia dan Filipina karena buku metodologi penelitian yang banyak disitasi di kedua negara tersebut menyebutkan rumus ini. Rumus ini sering dijadikan justifikasi mahasiswa untuk mengerjakan skripsinya ketika kebingungan mencari berapa jumlah sampel ideal untuk penelitian mereka. Meskipun sekilas rumus ini nampak sederhana dan praktis, seolah-olah kita bisa langsung tahu bahwa sampel minimal yang diambil dari rumus nantinya mempunyai tingkat kesalahan sesuai dengan rumus ini. Namun kenyataannya ada beberapa hal yang harus dipertimbangkan dalam menentukan sampel, setidaknya dari tiga komponen statistik yaitu statistical power, effect size, dan signifikansi (baca lebih lanjut di sini). Selain itu, dari berbagai tinjauan literatur, tampaknya tidak ada orang bernama Slovin yang mengajukan rumus ini. Yamane (1967) adalah referensi tertua dimana rumusnya dapat ditemukan.

Nampaknya rumus Slovin ini adalah rumus yang populer yang berasal dari tradisi turun menurun yang diajarkan guru kita. Meskipun demikian, dokumen tertulis yang menyebutkan siapakah sesungguhnya Slovin itu masih belum jelas. Jadi, nampaknya kita perlu memutuskan rantai ajaran turun-temurun ini, dan menjadikan rumus Slovin ini sebagai guyonan statistik saja, seperti yang dilakukan para ahli metodologi di Barat sana. Khususnya bagi teman-teman peneliti yang memang mengincar publikasi ke jurnal internasional, jangan sampai nanti malah artikel kita yang jadi guyonan karena masih menggunakan rumus yang tidak jelas asal-usulnya.

Referensi
Ryan, T. (2013). Sample Size Determination and Power. John Wiley and Sons.
Yamane, T. (1967). Statistics: An Introductory Analysis, 2nd Edition, New York: Harper and Row.


Menentukan Jumlah Sampel Minimal Penelitian dengan G*Power


Salah satu pertanyaan yang paling sering ditanyakan mahasiswa ketika hendak mengambil data adalah, berapa jumlah sampel yang tepat untuk penelitian saya. Di tulisan sebelumnya saya sudah mengulas tentang jumlah sampel minimal dan juga tentang konsep signifikansi, statistical power, dan effect size. Di tulisan kali ini saya akan mengulas bagaimana cara menghitung jumlah sampel minimal serta statistical power yang diperoleh dengan bantuan software G*Power.

G * Power adalah software untuk menghitung statistical power atau kekuatan uji statistik untuk berbagai uji t, uji F, uji χ2, uji z, uji korelasi, dan uji statistik lainnya. G * Power juga dapat digunakan untuk menghitung ukuran efek (effect size) dan untuk menampilkannya secara grafis hasil analisis, sehingga software ini juga cocok digunakan untuk melakukan studi simulasi dan proses pengajaran. Sebenarnya G*Power dapat digunakan untuk mengestimasi lima hal berikut: (1) A priori (ukuran sampel N dihitung sebagai fungsi dari power 1 - β, level signifikansi α, dan effect size populasi yang tidak terdeteksi), (2) Compromise (baik α dan 1 - β dihitung sebagai fungsi effect size, N, dan rasio probabilitas kesalahan (q = β / α)), (3) Kriteria (α dan kriteria keputusan terkait dihitung sebagai fungsi 1 - β, effect size, dan N), (4) Post-hoc (1 - β dihitung sebagai fungsi α, effect size populasi, dan N), dan (5) Sensitivitas (effect size populasi dihitung sebagai fungsi α, 1 - β, dan N). Tulisan ini hanya akan fokus pada fungsi pertama, yaitu fungsi apriori untuk menentukan jumlah sampel berdasarkan power, level signifikansi, dan effect size. Jika menginginkan untuk mendownload software G*Power, anda dapat mendownloadnya secara gratis di sini

Untuk menentukan sampel minimal pada uji statistik, ada beberapa langkah yang harus dilakukan
1.    Menentukan jenis analisis yang akan diestimasi. Jenis analisis bervariasi, tergantung dari jenis data dan hipotesis yang ingin dijawab. Untuk melihat jenis analisis secara lengkap bisa dilihat di sini. 
2.  Menentukan level signifikansi (α ) yang hendak digunakan dalam penelitian. Dalam penelitian di Psikologi, pada umumnya level signifikansi yang ditoleransi adalah 0,05 atau 0,01. Jika kita menghendaki kecermatan yang tinggi kita bisa menggunakan level signifikansi 0,01; namun secara umum level signifikansi 0,05 sudah diterima.
3.    Menentukan statistical power yang diharapkan. Pada umumnya dalam penelitian Psikologi,  statistical power yang diharapkan yaitu yang tinggi, setidaknya di atas 0,80 (80%).
4.    Menentukan effect size yang diharapkan. Jika dalam menentukan level signifikansi dan power pada umumnya sudah ada standarnya, menentukan effect size ini sedikit tricky karena kita belum memiliki effect size karena belum mengambil data. Lalu bagaimana cara kita menentukan effect size yang kita harapkan? Ada dua cara: pertama, dengan melihat effect size penelitian-penelitian sebelumnya yang meneliti variabel yang sama. Effect size penelitian sebelumnya dapat kita jadikan referensi untuk jadi dasar kita menentukan effect size yang diharapkan. Jika memang belum ada penelitian sebelumnya, cara yang kedua yaitu menggunakan penilaian klinis untuk menentukan besaran efek terkecil yang dianggap relevan. Misal kita ingin menguji hubungan X dan Y dan kita menghendaki analisis kita sensitif untuk menguji korelasi dengan efek kecil sekalipun, maka kita dapat menuliskan effect sizenya sebesar 0,1. Sebagai referensi, kita dapat melihat klasifikasi effect size dari Cohen di tabel di bawah.
5.    Menentukan tail(s) yang akan digunakan. Banyaknya tail(s), apakah one-tail atau two-tails tergantung dari apakah hipotesis kita memiliki arah atau tidak. Penjelasan mengenai one-tail atau two-tails dapat dibaca di sini

Jika kita sudah menentukan hal di atas, maka kita bisa mengestimasi jumlah sampel minimal yang dibutuhkan untuk penelitian kita.

Menentukan sampel minimal uji korelasi dengan G*Power
Untuk menentukan jumlah sampel minimal untuk uji korelasi, maka kita atur sebagai berikut
1.    Klik test – correlation and regression – correlation: bivariate normal model
2.    Pilih type power analysis A priori: compute required sample size – given α, power, effect size
3.    Jika hipotesis kita belum memiliki arah, maka isikan tail(s) dengan two
4.  Correlation ρ H1 merupakan effect size atau nilai korelasi yang dikehendaki. Misal penelitian sebelumnya sebagian besar menemukan hasil korelasi r = 0,2; maka kita bisa isikan 0,2
5.    α err prob merupakan level signifikansi yang ditoleransi, kita bisa isikan 0,05
6.    Power (1 – β err prob) merupakan power statistik yang diharapkan, kita bisa isikan 0,80
7.    Correlation ρ H0 merupakan hipotesis null kita, kita bisa isikan 0

Jika semua paramnater sudah diisi, maka klik calculate dan kita bisa lihat jumlah sampel minimal di total sample size. Dari output di sampingnya kita dapat lihat bahwa jumlah sampel minimal yang dibutuhkan adalah 193 subjek.

Menentukan sampel minimal uji t kelompok independen dengan G*Power
Untuk menentukan jumlah sampel minimal untuk uji t kelompok independen, maka kita atur sebagai berikut
1.    Klik test – means – two independent groups
2.    Pilih type power analysis A priori: compute required sample size – given α, power, effect size
3.    Jika hipotesis kita belum memiliki arah, maka isikan tail(s) dengan two
4.    Effect size d merupakan effect size yang dikehendaki. Misal penelitian sebelumnya sebagian besar menemukan hasil d = 0,5; maka kita bisa isikan 0,5. Namun tidak semua penelitian melaporkan nilai d karena by default, software seperti SPSS tidak bisa mengeluarkan nilai d secara otomatis. Jika memang demikian kita bisa klik determine di samping kiri, lalu isikan nilai mean dan SD masing-masing kelompok.
5.    α err prob merupakan level signifikansi yang ditoleransi, kita bisa isikan 0,05
6.    Power (1 – β err prob) merupakan power statistik yang diharapkan, kita bisa isikan 0,80
7.   Allocation ratio N2/N1 merupakan perbandingan jumlah kelompok 1 dan 2. Jika kita menghendaki kedua kelompok jumlahnya sama, maka kita bisa isikan angka 1

Jika semua paramnater sudah diisi, maka klik calculate dan kita bisa lihat jumlah sampel minimal di total sample size. Dari output di sampingnya kita dapat lihat bahwa jumlah sampel minimal yang dibutuhkan adalah 128 subjek, dengan masing-masing kelompok berjumlah 64 subjek.

Cara di atas merupakan cara top-down, artinya dari awal kita sudah menentukan jumlah sampel dari parameter yang sudah diketahui. Meskipun demikian, ketika kita sudah mengambil data dan melakukan analisis, kita bisa mengulangi analisis tersebut dengan memasukkan nilai effect size yang sesungguhnya kita peroleh dari data. Misalnya, pada analisis pertama dengan uji korelasi, setelah dianalisis dengan sampel sejumlah 193 subjek (sesuai yang direkomendasikan di atas), ternyata nilai korelasinya sebesar 0,25. Kemudian kita masukkan kembali nilai effect sizenya 0,25 dan diperoleh hasil total sample size yang dibutuhkan adalah 123 dan power > 0,80. Dengan demikian sampel kita sudah memenuhi kriteria.


Signifikansi, Effect Size, Statistical Power, dan Besaran Sampel


Bagi peneliti kuantitatif, konsep dari signifikansi, besaran efek (Effect Size), kekuatan uji statistik (Statistical Power), dan besaran sampel merupakan konsep dasar yang harusnya dipahami. Namun kenyataannya, di mata kuliah statistika, tidak semua dosen menjelaskan konsep dasar ini, dan tidak semua dosen menjelaskan dengan tepat empat konsep ini. Penelitian Psikologi, terutama yang menggunakan pendekatan eksperimen sebagian besar ingin membandingkan apakah terdapat perbedaan variabel antara dua kelompok atau lebih. Misalnya sebuah penelitian ingin menguji apakah terapi psikologis mampu meningkatkan kepercayaan diri subjek. Penelitian dilakukan dengan desain between subject dengan kelompok kontrol dan eksperimen, dimana kelompok kontrol tidak diberi terapi, sedangkan kelompok eksperimen diberi terapi. Penelitian tersebut memiliki hipotesis bahwa “terdapat perbedaan kepercayaan diri antara kelompok kontrol dan kelompok eksperimen, dimana kelompok eksperimen memiliki kepercayaan diri yang lebih tinggi”.

Statistik inferensial tradisional tidak menguji hipotesis tersebut, melainkan menguji hipotesis null yang menyatakan bahwa “tidak ada perbedaan kepercayaan diri antara kelompok kontrol dan eksperimen”. Pendekatan ini sering disebut dengan Null Hypothesis Significance Testing (NHST). Peneliti melakukan uji statistik dengan independent sample t-test. Jika probabilitas jangka panjang data yang diobservasi muncul di bawah hipotesis null sangat rendah (misal di bawah 5%), peneliti menyimpulkan bahwa hipotesis null sangat kecil kemungkinannya untuk benar. Karena sangat kecil kemungkinan bahwa hipotesis null benar, maka peneliti menolak hipotesis null, dan menyimpulkan bahwa terapinya memberikan efek positif terhadap kepercayaan diri. Uji statistik tradisional ini memiliki beberapa paramater untuk memastikan kesimpulan tepat, yakni kriteria signifikansi, Effect Size, dan Statistical power, dan besaran sampel. Tulisan ini akan memberikan gambaran empat konsep ini dan bagaimana hubungan di antara keempatnya.

Kriteria Signifikansi
Dalam statistik tradisional, kesalahan Tipe I dilambangkan dengan simbol α (alfa), dan merupakan probabilitas jangka panjang sebuah penelitian menolak hipotesis null, ketika hipotesis null benar. Sebagian besar penelitian Psikologi dan humaniora memberikan toleransi 5% (α = 0.05) terhadap terjadinya kesalahan Tipe I atau atau biasa disebut false positives. Hal ini berarti, dalam pengambilan data yang dilakukan berkali-kali dengan batas tidak terhingga, terdapat kemungkinan 5% atau kurang bahwa efek yang ditemukan dalam observasi sebenarnya tidak ada. Toleransi terhadap kesalahan Tipe I dilambangkan dengan p, sehingga nilai p di bawah 0,05 (di bawah batas toleransi) dianggap sebagai temuan yang signifikan dan sebaliknya. Dalam contoh penelitian eksperimen di atas, jika menggunakan kriteria p < 0,05 artinya peluang peneliti salah menyimpulkan bahwa terapinya memiliki efek positif, padahal terapi tersebut tidak memiliki efek positif adalah sebesar 5%.

Kekuatan uji statistik (statistical power)
Dalam statistik tradisional, kesalahan Tipe II dilambangkan dengan simbol β (beta), dan merupakan probabilitas jangka panjang sebuah penelitian gagal menolak hipotesis null, ketika hipotesis null tidak benar. Kekuatan uji statistik (power) dalam statistik inferensial tradisional merupakan kontrol terhadap kesalahan Tipe II atau disebut juga sebagai false negatives (1- β). Sebagian besar penelitian Psikologi dan humaniora memberikan toleransi 20% terjadinya kesalahan Tipe II, sehingga penelitian-penelitian tersebut memiliki Statistical power sebesar 80% (Cohen, 1990). Hal ini berarti, dalam pengambilan data yang dilakukan berkali-kali dengan batas tidak terhingga, terdapat kemungkinan 80% atau lebih untuk menyimpulkan bahwa suatu efek tidak ada, ketika efek tersebut memang tidak ada.

Secara umum antara signifikansi (α) dan Statistical power (1- β) memiliki hubungan yang positif. Seperti terlihat pada gambar di bawah, jika kita meningkatkan level signifikansi (α), maka kita akan mengurangi daerah penerimaan hipotesis null. Berkurangnya daerah penerimaan ini secara otomatis meningkatkan nilai beta. Meningkatnya nilai beta akan menunjukkan nilai kekuatan uji bertambah.   

Besaran efek (effect size)
Besaran efek (effect size) menunjukkan perbedaan terstandar antara skor dari kelompok kontrol dan eksperimen. Dalam penelitian, peneliti tidak hanya tertarik pada perbedaan antara kelompok kontrol dan eksperimen, namun juga seberapa besar perbedaan antara kelompok kontrol dan kelompok eksperimen. Effect Size merupakan satuan standar, artinya, Effect Size dapat dibandingkan antar beberapa skala yang berbeda dan dapat dibandingkan antar beberapa penelitian dengan besaran sampel yang berbeda-beda. Dalam contoh penelitian eksperimen di atas, Effect Size yang dapat digunakan adalah Cohen’s d, yang semakin besar nilainya maka semakin besar perbedaan antara kelompok kontrol dan kelompok eksperimen. Effect Size ada beragam jenisnya sesuai jenis analisanya, misal Effect Size untuk uji beda dua kelompok menggunakan Cohen’s d, Effect Size uji korelasi menggunakan koefisien r, dan Effect Size Anova menggunakan Eta squared. Klasifikasi Effect Size pada berbagai jenis analisis dapat dilihat pada tabel di bawah.

Besaran sampel
Besaran sampel dalam statistik inferensial tradisional dapat dihitung dengan memanfaatkan dinamika relasi antara parameter-parameter yang telah dijabarkan sebelumnya. Formula untuk menentukan besaran sampel berdasarkan tiga paramater sebelumnya adalah sebagai berikut.

Besaran sampel uji beda dua kelompok

Besaran sampel uji korelasi


Sebagai contoh, jika penelitian eksperimen di atas menghendaki kriteria signifikansi p < 0,05 two-tailed dan power, 1-β = 0,80 dan mengharapkan Effect Size sebesar 0,5. Dengan demikian dapat dihitung Z1-α/2 = 1,960 dan Z1-β = 0,842 (menggunakan tabel distribusi normal) sehingga diperoleh besaran sampel 2*((1,960+0,842)/0,5)^2 = ~ 64 subjek per kelompok.

Bagaimana jika peneliti hanya menggunakan 30 subjek saja per kelompok? Dengan memasukan ke formula, dengan Effect Size dan kriteria signifikansi yang sama, maka akan diperoleh power sebesar 0,478. Hal ini berarti, penelitian dengan sampel 30 subjek memiliki taraf kesalahan Tipe II sebesar 52,2%. Dengan kata lain, terdapat 52,2% kemungkinan dalam penelitian ini untuk menolak hipotesis null, padahal hipotesis null tersebut benar. Taraf kesalahan sebesar 52,2% ini melebihi toleransi kesalahan Tipe II sebesar 20% dalam sebagian besar penelitian Psikologi dan humaniora.

Ketika kesalahan Tipe I dan II dikontrol, secara umum hubungan antara Effect Size dan jumlah sampel dapat ditunjukkan pada gambar di bawah ini.
Dari gambar terlihat bahwa Effect Size memiliki hubungan negatif dengan jumlah sampel. Untuk mendeteksi Effect Size yang kecil, dibutuhkan sampel yang lebih banyak, dan sebaliknya. Selain itu, Effect Size memiliki relasi eksponensial dengan besaran sampel. Ketika Effect Size yang diharapkan kecil, maka jumlah sampel yang dibutuhkan untuk mendeteksi suatu efek bertambah secara eksponensial menjadi sangat besar dan sebaliknya.

Dalam penelitian psikologi dan humaniora seringkali peneliti mengontrol taraf kesalahan Tipe I, namun tidak mengontrol taraf kesalahan Tipe II dan tidak mempertimbangkan Effect Size dalam pengambilan keputusan. Ketika taraf kesalahan Tipe II tidak dikontrol, Effect Size yang terhitung biasanya merupakan overestimasi, dan ketika Effect Size ini digunakan untuk menghitung Statistical power dalam penelitian replikasi, hasil penelitian sebagian besar tidak mereplikasi temuan sebelumnya. Oleh karena itu, dalam menentukan sampel, peneliti hendaknya memperhatikan keempat paramater tersebut.

Berapa Ukuran Sampel Ideal dalam Penelitian Kuantitatif?


Dalam penelitian kuantitatif di Psikologi, salah satu pertanyaan yang paling banyak ditanyakan adalah berapa jumlah sampel yang ideal untuk penelitian saya. Di beberapa literatur dijelaskan cara menentukan jumlah sampel minimal dari suatu populasi yang diketahui. Yang paling populer, misalnya dengan melihat tabel Krejcie, tabel Isaac, atau rumus Slovin, meskipun beberapa peneliti juga meragukan referensi dari cara tersebut. Masalahnya, di Psikologi sebagian besar penelitian tidak diketahui jumlah populasinya dan penelitian hanya difokuskan pada variabel. Apalagi pada penelitian eksperimen, besarnya sampel tidak ditentukan oleh besarnya populasi. Hal ini menyulitkan peneliti untuk menentukan berapa jumlah sampel minimal yang dibutuhkan.

Tujuh Dosa Besar dalam Analisis Statistik


Tulisan ini merupakan inti sari dan sedikit modifikasi dari tulisan Kuzon, Urbancheck, dan McCabe (1996) yang berjudul “The Seven Deadly Sins of Statistical Analysis”. Meskipun artikel tersebut sudah ditulis lebih dari 20 tahun yang lalu, namun kenyataannya dosa-dosa besar tersebut masih banyak dilakukan oleh para peneliti kuantitatif saat ini. Oleh karena itu tulisan ini hanya sebagai pengingat sekaligus menjelaskan kembali dosa-dosa tersebut bagi yang belum tahu. Ketujuh dosa besar dalam analisis statistik tersebut adalah
Rumus Slovin untuk Menentukan Jumlah Sampel dan Kontroversinya

Untuk mementukan sampel dari populasi, peneliti perlu menggunakan rumus statistik untuk menentukan jumlah sampel minimal yang dibutuhkan. Ada beberapa formula yang dapat digunakan untuk menentukan jumlah sampel dari suatu populasi yang diketahui. Misal peneliti ingin meneliti IQ orang Indonesia, maka peneliti dapat mengetahui jumlah populasi dan tahu karakteristik perilaku populasinya karena IQ selalu mengikuti kurve normal. Namun bagaimana jika peneliti ingin meneliti opini mahasiswa terhadap partai politik yang tidak diketahui karakteristik perilaku populasinya? Untuk kasus kedua dimana peneliti tidak tahu perilaku populasinya, peneliti dapat menggunakan rumus Slovin. Jadi rumus Slovin merupakan rumus untuk menghitung jumlah sampel minimal pada populasi yang tidak diketahui. Rumus ini begitu populer di kalangan mahasiswa, terutama untuk tugas akhir mereka.

Bagaimana menghitung dengan Rumus Slovin?
Rumus Slovin dapat dituliskan sebagai berikut

n = jumlah sampel minimal
N = jumlah populasi
e = margin of error / error tolerance

Misal seorang peneliti melakukan penelitian tentang sikap mahasiswa terhadap partai politik dengan jumlah populasi 1.000 orang, dan peneliti tersebut menetapkan tingkat kesalahan yang ditoleransi adalah 5%, maka dengan formula tersebut dapat dihitung jumlah sampel minimal yang diperlukan adalah n = 1.000 / 1 + (1.000x0,05x0,05) = 286. Dengan demikian penelitian tersebut setidaknya harus melibatkan 286 mahasiswa.

Masalah dengan Rumus Slovin
Rumus Slovin dapat memberikan gambaran kasar untuk menentukan jumlah sampel. Namun, rumus non-parametrik ini tidak memiliki ketelitian matematis (Ryan, 2013). Misalnya, tidak ada cara untuk menghitung power statistik (yang memberikan informasi seberapa besar kemungkinan penelitian membedakan efek aktual). Padahal ukuran sampel berdampak langsung pada power statistik, sedangkan jika power statistik rendah, akan menghasilkan kesimpulan yang tidak akurat. Selain itu, tidak jelas dari sumber referensi teks apa tepatnya yang dimaksud "margin of error" dalam rumus ini. Beberapa teks mengatakan e dalam rumus ini adalah margin of error, beberapa lainnya mengatakan error tolerance. Dilihat dari konteksnya, hampir pasti ini adalah nama lain untuk menyebut alpha (α) dalam statistik klasik. Lagipula, jika memang e dalam rumus ini adalah margin of error, bagaimana kita bisa menetapkannya terlebih dahulu padahal standar deviasi populasinya saja tidak diketahui. Rumus ini juga hanya masuk akal jika digunakan untuk penelitian yang tujuannya menghitung persentase, bukan untuk penelitian korelasional. 

Selain masalah power statistik dan penggunaan istilah yang kurang tepat, masalah lain yang menyebabkan rumus ini memiliki reputasi kurang baik di kalangan akademis dunia (tapi di Indonesia cukup populer) adalah karena asal usul rumus ini yang tidak jelas muncul dari mana. Sampai saat itu belum diketahui siapakah Slovin yang dimaksudkan dalam rumus ini. Dalam berbagai literatur juga tidak diketahui sipakah Slovin yang telah menciptakan rumus ini. Desas-desus yang berhembus, rumus ini diciptakan oleh Michael Slovin, namun desas-desus yang lain mengatakan bahwa Slovin yang dimaksud adalah Mark Slovin, Kulkol Slovin, dan ada pula Robert Slovin, entah mana yang betul.

Di buku statistika dan metodologi penelitian terbitan Indonesia, sepertinya bukunya Arikunto dan Sugiyono, rumus ini banyak disebutkan, begitupun cara menghitungnya. Di buku terbitan asing pun juga ada, seperti di buku “Elementary Statistics: A Modern Approach” oleh Altares et. Al (dalam buku itu disebut Sloven). Terlebih lagi, beberapa website tentang statistika juga banyak yang mencantumkan cara menghitung dengan rumus ini. Namun semuanya tidak ada yang mensitasi satu dokumen yang dijadikan rujukan rumus tersebut. Wikipedia, tempat dimana segala informasi ada di sana juga tidak mampu memberikan keterangan lebih lanjut mengenai siapakah rumus ini dan siapakah penemunya. Di berbagai forum peneliti dunia, seperti di Researchgate atau di Stackexchange, siapakah Slovin ini sesungguhnya juga masih menjadi perdebatan (lebih ke arah olok-olok terhadap asal-usul Slovin ini sebenarnya).

Rumus ini sendiri begitu populer di beberapa negara berkembang, terutama di Indonesia dan Filipina karena buku metodologi penelitian yang banyak disitasi di kedua negara tersebut menyebutkan rumus ini. Rumus ini sering dijadikan justifikasi mahasiswa untuk mengerjakan skripsinya ketika kebingungan mencari berapa jumlah sampel ideal untuk penelitian mereka. Meskipun sekilas rumus ini nampak sederhana dan praktis, seolah-olah kita bisa langsung tahu bahwa sampel minimal yang diambil dari rumus nantinya mempunyai tingkat kesalahan sesuai dengan rumus ini. Namun kenyataannya ada beberapa hal yang harus dipertimbangkan dalam menentukan sampel, setidaknya dari tiga komponen statistik yaitu statistical power, effect size, dan signifikansi (baca lebih lanjut di sini). Selain itu, dari berbagai tinjauan literatur, tampaknya tidak ada orang bernama Slovin yang mengajukan rumus ini. Yamane (1967) adalah referensi tertua dimana rumusnya dapat ditemukan.

Nampaknya rumus Slovin ini adalah rumus yang populer yang berasal dari tradisi turun menurun yang diajarkan guru kita. Meskipun demikian, dokumen tertulis yang menyebutkan siapakah sesungguhnya Slovin itu masih belum jelas. Jadi, nampaknya kita perlu memutuskan rantai ajaran turun-temurun ini, dan menjadikan rumus Slovin ini sebagai guyonan statistik saja, seperti yang dilakukan para ahli metodologi di Barat sana. Khususnya bagi teman-teman peneliti yang memang mengincar publikasi ke jurnal internasional, jangan sampai nanti malah artikel kita yang jadi guyonan karena masih menggunakan rumus yang tidak jelas asal-usulnya.

Referensi
Ryan, T. (2013). Sample Size Determination and Power. John Wiley and Sons.
Yamane, T. (1967). Statistics: An Introductory Analysis, 2nd Edition, New York: Harper and Row.


Menentukan Jumlah Sampel Minimal Penelitian dengan G*Power

Salah satu pertanyaan yang paling sering ditanyakan mahasiswa ketika hendak mengambil data adalah, berapa jumlah sampel yang tepat untuk penelitian saya. Di tulisan sebelumnya saya sudah mengulas tentang jumlah sampel minimal dan juga tentang konsep signifikansi, statistical power, dan effect size. Di tulisan kali ini saya akan mengulas bagaimana cara menghitung jumlah sampel minimal serta statistical power yang diperoleh dengan bantuan software G*Power.

G * Power adalah software untuk menghitung statistical power atau kekuatan uji statistik untuk berbagai uji t, uji F, uji χ2, uji z, uji korelasi, dan uji statistik lainnya. G * Power juga dapat digunakan untuk menghitung ukuran efek (effect size) dan untuk menampilkannya secara grafis hasil analisis, sehingga software ini juga cocok digunakan untuk melakukan studi simulasi dan proses pengajaran. Sebenarnya G*Power dapat digunakan untuk mengestimasi lima hal berikut: (1) A priori (ukuran sampel N dihitung sebagai fungsi dari power 1 - β, level signifikansi α, dan effect size populasi yang tidak terdeteksi), (2) Compromise (baik α dan 1 - β dihitung sebagai fungsi effect size, N, dan rasio probabilitas kesalahan (q = β / α)), (3) Kriteria (α dan kriteria keputusan terkait dihitung sebagai fungsi 1 - β, effect size, dan N), (4) Post-hoc (1 - β dihitung sebagai fungsi α, effect size populasi, dan N), dan (5) Sensitivitas (effect size populasi dihitung sebagai fungsi α, 1 - β, dan N). Tulisan ini hanya akan fokus pada fungsi pertama, yaitu fungsi apriori untuk menentukan jumlah sampel berdasarkan power, level signifikansi, dan effect size. Jika menginginkan untuk mendownload software G*Power, anda dapat mendownloadnya secara gratis di sini

Untuk menentukan sampel minimal pada uji statistik, ada beberapa langkah yang harus dilakukan
1.    Menentukan jenis analisis yang akan diestimasi. Jenis analisis bervariasi, tergantung dari jenis data dan hipotesis yang ingin dijawab. Untuk melihat jenis analisis secara lengkap bisa dilihat di sini. 
2.  Menentukan level signifikansi (α ) yang hendak digunakan dalam penelitian. Dalam penelitian di Psikologi, pada umumnya level signifikansi yang ditoleransi adalah 0,05 atau 0,01. Jika kita menghendaki kecermatan yang tinggi kita bisa menggunakan level signifikansi 0,01; namun secara umum level signifikansi 0,05 sudah diterima.
3.    Menentukan statistical power yang diharapkan. Pada umumnya dalam penelitian Psikologi,  statistical power yang diharapkan yaitu yang tinggi, setidaknya di atas 0,80 (80%).
4.    Menentukan effect size yang diharapkan. Jika dalam menentukan level signifikansi dan power pada umumnya sudah ada standarnya, menentukan effect size ini sedikit tricky karena kita belum memiliki effect size karena belum mengambil data. Lalu bagaimana cara kita menentukan effect size yang kita harapkan? Ada dua cara: pertama, dengan melihat effect size penelitian-penelitian sebelumnya yang meneliti variabel yang sama. Effect size penelitian sebelumnya dapat kita jadikan referensi untuk jadi dasar kita menentukan effect size yang diharapkan. Jika memang belum ada penelitian sebelumnya, cara yang kedua yaitu menggunakan penilaian klinis untuk menentukan besaran efek terkecil yang dianggap relevan. Misal kita ingin menguji hubungan X dan Y dan kita menghendaki analisis kita sensitif untuk menguji korelasi dengan efek kecil sekalipun, maka kita dapat menuliskan effect sizenya sebesar 0,1. Sebagai referensi, kita dapat melihat klasifikasi effect size dari Cohen di tabel di bawah.
5.    Menentukan tail(s) yang akan digunakan. Banyaknya tail(s), apakah one-tail atau two-tails tergantung dari apakah hipotesis kita memiliki arah atau tidak. Penjelasan mengenai one-tail atau two-tails dapat dibaca di sini

Jika kita sudah menentukan hal di atas, maka kita bisa mengestimasi jumlah sampel minimal yang dibutuhkan untuk penelitian kita.

Menentukan sampel minimal uji korelasi dengan G*Power
Untuk menentukan jumlah sampel minimal untuk uji korelasi, maka kita atur sebagai berikut
1.    Klik test – correlation and regression – correlation: bivariate normal model
2.    Pilih type power analysis A priori: compute required sample size – given α, power, effect size
3.    Jika hipotesis kita belum memiliki arah, maka isikan tail(s) dengan two
4.  Correlation ρ H1 merupakan effect size atau nilai korelasi yang dikehendaki. Misal penelitian sebelumnya sebagian besar menemukan hasil korelasi r = 0,2; maka kita bisa isikan 0,2
5.    α err prob merupakan level signifikansi yang ditoleransi, kita bisa isikan 0,05
6.    Power (1 – β err prob) merupakan power statistik yang diharapkan, kita bisa isikan 0,80
7.    Correlation ρ H0 merupakan hipotesis null kita, kita bisa isikan 0

Jika semua paramnater sudah diisi, maka klik calculate dan kita bisa lihat jumlah sampel minimal di total sample size. Dari output di sampingnya kita dapat lihat bahwa jumlah sampel minimal yang dibutuhkan adalah 193 subjek.

Menentukan sampel minimal uji t kelompok independen dengan G*Power
Untuk menentukan jumlah sampel minimal untuk uji t kelompok independen, maka kita atur sebagai berikut
1.    Klik test – means – two independent groups
2.    Pilih type power analysis A priori: compute required sample size – given α, power, effect size
3.    Jika hipotesis kita belum memiliki arah, maka isikan tail(s) dengan two
4.    Effect size d merupakan effect size yang dikehendaki. Misal penelitian sebelumnya sebagian besar menemukan hasil d = 0,5; maka kita bisa isikan 0,5. Namun tidak semua penelitian melaporkan nilai d karena by default, software seperti SPSS tidak bisa mengeluarkan nilai d secara otomatis. Jika memang demikian kita bisa klik determine di samping kiri, lalu isikan nilai mean dan SD masing-masing kelompok.
5.    α err prob merupakan level signifikansi yang ditoleransi, kita bisa isikan 0,05
6.    Power (1 – β err prob) merupakan power statistik yang diharapkan, kita bisa isikan 0,80
7.   Allocation ratio N2/N1 merupakan perbandingan jumlah kelompok 1 dan 2. Jika kita menghendaki kedua kelompok jumlahnya sama, maka kita bisa isikan angka 1

Jika semua paramnater sudah diisi, maka klik calculate dan kita bisa lihat jumlah sampel minimal di total sample size. Dari output di sampingnya kita dapat lihat bahwa jumlah sampel minimal yang dibutuhkan adalah 128 subjek, dengan masing-masing kelompok berjumlah 64 subjek.

Cara di atas merupakan cara top-down, artinya dari awal kita sudah menentukan jumlah sampel dari parameter yang sudah diketahui. Meskipun demikian, ketika kita sudah mengambil data dan melakukan analisis, kita bisa mengulangi analisis tersebut dengan memasukkan nilai effect size yang sesungguhnya kita peroleh dari data. Misalnya, pada analisis pertama dengan uji korelasi, setelah dianalisis dengan sampel sejumlah 193 subjek (sesuai yang direkomendasikan di atas), ternyata nilai korelasinya sebesar 0,25. Kemudian kita masukkan kembali nilai effect sizenya 0,25 dan diperoleh hasil total sample size yang dibutuhkan adalah 123 dan power > 0,80. Dengan demikian sampel kita sudah memenuhi kriteria.


Signifikansi, Effect Size, Statistical Power, dan Besaran Sampel

Bagi peneliti kuantitatif, konsep dari signifikansi, besaran efek (Effect Size), kekuatan uji statistik (Statistical Power), dan besaran sampel merupakan konsep dasar yang harusnya dipahami. Namun kenyataannya, di mata kuliah statistika, tidak semua dosen menjelaskan konsep dasar ini, dan tidak semua dosen menjelaskan dengan tepat empat konsep ini. Penelitian Psikologi, terutama yang menggunakan pendekatan eksperimen sebagian besar ingin membandingkan apakah terdapat perbedaan variabel antara dua kelompok atau lebih. Misalnya sebuah penelitian ingin menguji apakah terapi psikologis mampu meningkatkan kepercayaan diri subjek. Penelitian dilakukan dengan desain between subject dengan kelompok kontrol dan eksperimen, dimana kelompok kontrol tidak diberi terapi, sedangkan kelompok eksperimen diberi terapi. Penelitian tersebut memiliki hipotesis bahwa “terdapat perbedaan kepercayaan diri antara kelompok kontrol dan kelompok eksperimen, dimana kelompok eksperimen memiliki kepercayaan diri yang lebih tinggi”.

Statistik inferensial tradisional tidak menguji hipotesis tersebut, melainkan menguji hipotesis null yang menyatakan bahwa “tidak ada perbedaan kepercayaan diri antara kelompok kontrol dan eksperimen”. Pendekatan ini sering disebut dengan Null Hypothesis Significance Testing (NHST). Peneliti melakukan uji statistik dengan independent sample t-test. Jika probabilitas jangka panjang data yang diobservasi muncul di bawah hipotesis null sangat rendah (misal di bawah 5%), peneliti menyimpulkan bahwa hipotesis null sangat kecil kemungkinannya untuk benar. Karena sangat kecil kemungkinan bahwa hipotesis null benar, maka peneliti menolak hipotesis null, dan menyimpulkan bahwa terapinya memberikan efek positif terhadap kepercayaan diri. Uji statistik tradisional ini memiliki beberapa paramater untuk memastikan kesimpulan tepat, yakni kriteria signifikansi, Effect Size, dan Statistical power, dan besaran sampel. Tulisan ini akan memberikan gambaran empat konsep ini dan bagaimana hubungan di antara keempatnya.

Kriteria Signifikansi
Dalam statistik tradisional, kesalahan Tipe I dilambangkan dengan simbol α (alfa), dan merupakan probabilitas jangka panjang sebuah penelitian menolak hipotesis null, ketika hipotesis null benar. Sebagian besar penelitian Psikologi dan humaniora memberikan toleransi 5% (α = 0.05) terhadap terjadinya kesalahan Tipe I atau atau biasa disebut false positives. Hal ini berarti, dalam pengambilan data yang dilakukan berkali-kali dengan batas tidak terhingga, terdapat kemungkinan 5% atau kurang bahwa efek yang ditemukan dalam observasi sebenarnya tidak ada. Toleransi terhadap kesalahan Tipe I dilambangkan dengan p, sehingga nilai p di bawah 0,05 (di bawah batas toleransi) dianggap sebagai temuan yang signifikan dan sebaliknya. Dalam contoh penelitian eksperimen di atas, jika menggunakan kriteria p < 0,05 artinya peluang peneliti salah menyimpulkan bahwa terapinya memiliki efek positif, padahal terapi tersebut tidak memiliki efek positif adalah sebesar 5%.

Kekuatan uji statistik (statistical power)
Dalam statistik tradisional, kesalahan Tipe II dilambangkan dengan simbol β (beta), dan merupakan probabilitas jangka panjang sebuah penelitian gagal menolak hipotesis null, ketika hipotesis null tidak benar. Kekuatan uji statistik (power) dalam statistik inferensial tradisional merupakan kontrol terhadap kesalahan Tipe II atau disebut juga sebagai false negatives (1- β). Sebagian besar penelitian Psikologi dan humaniora memberikan toleransi 20% terjadinya kesalahan Tipe II, sehingga penelitian-penelitian tersebut memiliki Statistical power sebesar 80% (Cohen, 1990). Hal ini berarti, dalam pengambilan data yang dilakukan berkali-kali dengan batas tidak terhingga, terdapat kemungkinan 80% atau lebih untuk menyimpulkan bahwa suatu efek tidak ada, ketika efek tersebut memang tidak ada.

Secara umum antara signifikansi (α) dan Statistical power (1- β) memiliki hubungan yang positif. Seperti terlihat pada gambar di bawah, jika kita meningkatkan level signifikansi (α), maka kita akan mengurangi daerah penerimaan hipotesis null. Berkurangnya daerah penerimaan ini secara otomatis meningkatkan nilai beta. Meningkatnya nilai beta akan menunjukkan nilai kekuatan uji bertambah.   

Besaran efek (effect size)
Besaran efek (effect size) menunjukkan perbedaan terstandar antara skor dari kelompok kontrol dan eksperimen. Dalam penelitian, peneliti tidak hanya tertarik pada perbedaan antara kelompok kontrol dan eksperimen, namun juga seberapa besar perbedaan antara kelompok kontrol dan kelompok eksperimen. Effect Size merupakan satuan standar, artinya, Effect Size dapat dibandingkan antar beberapa skala yang berbeda dan dapat dibandingkan antar beberapa penelitian dengan besaran sampel yang berbeda-beda. Dalam contoh penelitian eksperimen di atas, Effect Size yang dapat digunakan adalah Cohen’s d, yang semakin besar nilainya maka semakin besar perbedaan antara kelompok kontrol dan kelompok eksperimen. Effect Size ada beragam jenisnya sesuai jenis analisanya, misal Effect Size untuk uji beda dua kelompok menggunakan Cohen’s d, Effect Size uji korelasi menggunakan koefisien r, dan Effect Size Anova menggunakan Eta squared. Klasifikasi Effect Size pada berbagai jenis analisis dapat dilihat pada tabel di bawah.

Besaran sampel
Besaran sampel dalam statistik inferensial tradisional dapat dihitung dengan memanfaatkan dinamika relasi antara parameter-parameter yang telah dijabarkan sebelumnya. Formula untuk menentukan besaran sampel berdasarkan tiga paramater sebelumnya adalah sebagai berikut.

Besaran sampel uji beda dua kelompok

Besaran sampel uji korelasi


Sebagai contoh, jika penelitian eksperimen di atas menghendaki kriteria signifikansi p < 0,05 two-tailed dan power, 1-β = 0,80 dan mengharapkan Effect Size sebesar 0,5. Dengan demikian dapat dihitung Z1-α/2 = 1,960 dan Z1-β = 0,842 (menggunakan tabel distribusi normal) sehingga diperoleh besaran sampel 2*((1,960+0,842)/0,5)^2 = ~ 64 subjek per kelompok.

Bagaimana jika peneliti hanya menggunakan 30 subjek saja per kelompok? Dengan memasukan ke formula, dengan Effect Size dan kriteria signifikansi yang sama, maka akan diperoleh power sebesar 0,478. Hal ini berarti, penelitian dengan sampel 30 subjek memiliki taraf kesalahan Tipe II sebesar 52,2%. Dengan kata lain, terdapat 52,2% kemungkinan dalam penelitian ini untuk menolak hipotesis null, padahal hipotesis null tersebut benar. Taraf kesalahan sebesar 52,2% ini melebihi toleransi kesalahan Tipe II sebesar 20% dalam sebagian besar penelitian Psikologi dan humaniora.

Ketika kesalahan Tipe I dan II dikontrol, secara umum hubungan antara Effect Size dan jumlah sampel dapat ditunjukkan pada gambar di bawah ini.
Dari gambar terlihat bahwa Effect Size memiliki hubungan negatif dengan jumlah sampel. Untuk mendeteksi Effect Size yang kecil, dibutuhkan sampel yang lebih banyak, dan sebaliknya. Selain itu, Effect Size memiliki relasi eksponensial dengan besaran sampel. Ketika Effect Size yang diharapkan kecil, maka jumlah sampel yang dibutuhkan untuk mendeteksi suatu efek bertambah secara eksponensial menjadi sangat besar dan sebaliknya.

Dalam penelitian psikologi dan humaniora seringkali peneliti mengontrol taraf kesalahan Tipe I, namun tidak mengontrol taraf kesalahan Tipe II dan tidak mempertimbangkan Effect Size dalam pengambilan keputusan. Ketika taraf kesalahan Tipe II tidak dikontrol, Effect Size yang terhitung biasanya merupakan overestimasi, dan ketika Effect Size ini digunakan untuk menghitung Statistical power dalam penelitian replikasi, hasil penelitian sebagian besar tidak mereplikasi temuan sebelumnya. Oleh karena itu, dalam menentukan sampel, peneliti hendaknya memperhatikan keempat paramater tersebut.

Berapa Ukuran Sampel Ideal dalam Penelitian Kuantitatif?

Dalam penelitian kuantitatif di Psikologi, salah satu pertanyaan yang paling banyak ditanyakan adalah berapa jumlah sampel yang ideal untuk penelitian saya. Di beberapa literatur dijelaskan cara menentukan jumlah sampel minimal dari suatu populasi yang diketahui. Yang paling populer, misalnya dengan melihat tabel Krejcie, tabel Isaac, atau rumus Slovin, meskipun beberapa peneliti juga meragukan referensi dari cara tersebut. Masalahnya, di Psikologi sebagian besar penelitian tidak diketahui jumlah populasinya dan penelitian hanya difokuskan pada variabel. Apalagi pada penelitian eksperimen, besarnya sampel tidak ditentukan oleh besarnya populasi. Hal ini menyulitkan peneliti untuk menentukan berapa jumlah sampel minimal yang dibutuhkan.

Artikel Lainnya