Perbedaan Classical Test Theory (CTT), Item Response Theory (IRT), dan Rasch Model

 


Analisis item dalam psikometri pada umumnya dapat dibagi menjadi dua pendekatan: Classical Test Theory (CTT) dan Item Response Theory (IRT). CTT merupakan pendekatan yang paling populer dan paling banyak digunakan oleh peneliti Indonesia. CTT  memfokuskan hasil pengukuran pada skor total dari item-item tes. Satu hal yang paling menarik dari CTT ada kemudahan dalam menghitungnya, sehingga tidak diperlukan keahlian khusus untuk memahami hasil analisisnya. Selain itu, CTT juga lebih mudah digunakan untuk komunikasi publik karena secara intuitif, orang akan lebih mudah menerima bahwa orang yang memiliki skor total tinggi memiliki kemampuan yang tinggi pula.

Namun demikian CTT memiliki beberapa ketebatasan. Yang paling utama adalah, tingkat kesulitan item tidak bebas dari sampel yang digunakan; sebaliknya, hasil pengukuran juga tidak terlepas dari tingkat kesulitan item yang digunakan. Jika individu secara acak menerima soal yang sulit, maka besar kemungkinan skor totalnya akan rendah, berbeda dengan jika individu tersebut secara acak menerima soal yang mudah. Begitu juga sebaliknya, jika suatu item dikerjakan oleh orang-orang yang jenius, maka item tersebut akan nampak mudah, berbeda dengan jika item tersebut dikerjakan oleh orang dengan kemampuan rendah. Karena sifat CTT yang sampel-dependent dan item-dependent inilah yang membuat perbandingan antar tes atau perbandingan antar individu lebih rumit dilakukan. Selain itu, peneliti juga tidak bisa membuat item bank untuk Computerized Adaptive Testing dengan CTT.

Pendekatan lainnya adalah dengan IRT yang mampu mengatasi keterbatasan CTT. IRT sendiri merupakan keluarga besar dalam analisis item. Ada beberapa model dalam IRT, seperti model untuk item dikotomi (jawaban benar-salah), model untuk item politomi (misal: likert), model unidimensi, dan model multidimensi. Berdasarkan jumlah parameternya, IRT juga memiliki banyak jenis, seperti model 1PL (hanya tingkat kesulitan butir), 2PL (tingkat kesulitan dan diskriminasi), 3PL (tingkat kesulitan, diskriminasi, dan tebakan semu), dan 4PL (tingkat kesulitan, diskriminasi, tebakan semu, dan kecerobohan).

Dengan semangat yang sama, ada juga model Rasch. Rasch secara matematis sama dengan IRT 1PL, namun memiliki tujuan filosofis yang berbeda. IRT adalah model deskriptif yang tujuannya adalah mencari model mana yang paling cocok menggambarkan data. Misal, data diuji dengan model 1PL dan tidak cocok, maka dicari alternatif model lain dengan menambah parameter lain, misal dengan 2PL, 3PL, atau 4PL. Sementara Rasch adalah model preskriptif yang tujuannya adalah mencocokan data dengan model. Jika data tidak cocok dengan model ideal Rasch, maka perlu diagnosa mengapa data ini tidak cocok. Langkah yang dilakukan bisa dengan menghapus item atau menghapus data dari orang-orang yang pola jawabannya “aneh”. Dengan kata lain, Rasch mendewakan model, sementara IRT mendewakan data.

Apa konsekuensi dari perbedaan Rasch dan IRT ini? Karena Rasch selalu berusaha agar data cocok dengan model, sementara model tidak akan berubah-ubah, maka pendukung Rasch berpendapat bahwa pengukuran yang objektif hanya bisa dicapai dengan Rasch. Pada Rasch, semua item memiliki diskriminasi yang setara, sehingga tidak ada item yang memiliki bobot lebih dalam menentukan skor akhir. Dengan demikian, skor total sebenarnya sudah bisa memberikan informasi yang cukup untuk mengukur suatu konstruk, asalkan asumsi Rasch terpenuhi. Oleh karena itu, hasil pengukuran dengan Rasch dan dengan CTT (skor total) selalu menghasilkan korelasi yang tinggi, lebih dari 0,90.

Sementara itu, IRT mengaggap tiap item itu unik. Mengasumsikan semua item memiliki diskriminasi yang setara sangat tidak masuk akal dalam realitanya. Oleh karenanya IRT membebaskan diskriminasi item bervariasi sesuai dengan data aslinya. Konsekuensinya, tiap item memiliki bobot yang berbeda dalam menentukan skor akhir. Item dengan diskriminasi tinggi akan memiliki bobot lebih besar. Pada model 3PL, parameter tebakan semua juga diizinkan bervariasi. Item dengan tebakan semu lebih rendah akan memiliki bobot lebih dalam menentukan skor akhir. Dengan demikian, skor akhir tidak hanya ditentukan oleh jumlah jawaban benar, tapi juga item mana yang dijawab benar. Korelasi antara skor total dengan skor akhir pada IRT pada akhirnya akan lebih rendah.

 

 

Panduan Membuat Laporan Hasil Analisis Statistik dengan Format APA

Melaporkan hasil analisis statistik nampaknya dianggap remeh, namun kenyataannya masih banyak peneliti yang melaporkan hasil analisisnya tidak sesuai standar. Beberapa contoh kesalahan yang sering dilakukan peneliti adalah melaporkan nilai p = 0,00; atau melaporkan adanya perbedaan mean tanpa menyebutkan nilai df nya; dan masih banyak kesalahan lainnya. Tulisan ini akan memberikan panduan singkat untuk melaporkan nilai-nilai apa saja yang harus ada dalam pelaporan hasil analisis statistik berdasarkan panduan APA. Akan disajikan contoh juga menuliskan laporan dari hasil output SPSS.

Panduan umum
  • Jangan mengulang pelaporan nilai statistik yang sudah ada dalam teks ke tabel atau gambar.
  • Dalam tabel dan gambar, laporkan nilai p sesungguhnya (misal p = ,015), kecuali jika p adalah <,001 (sebagai gantinya tulis “p <,001”). Terkadang, penulis kesulitan jika harus melaporkan nilai p sesungguhnya dalam tabel. Dalam kasus tertentu, penulis dapat mengganti nilai p dengan tanda bintang di samping nilai statistik (misal .24**). Kaidah umum penggunaan tanda bintang adalah *p < ,05. **p < ,01. ***p < ,001.
  • Beri spasi sebelum dan sesudah tanda hitung matematika (misal kurang, tambah, lebih besar dari, kurang dari). Untuk nilai negatif, beri spasi hanya sebelum tanda minus, bukan setelah tanda minus (misal M = –8.25).
  • Gunakan cetak miring untuk simbol statistik (misal M, SD, F, t, df, p, N, n, OR), sementara untuk huruf Yunani (misal α, β, χ2) tidak perlu cetak miring. Penggunaan symbol tersebut juga tidak perlu diberi penjelasan artinya. 

Analisis Data yang Tidak Berdistribusi Normal dengan Bootstrapping di SPSS


Pada tulisan sebelumnya telah dibahas proses bootrapping dan kelebihannya. Salah satu kelebihan bootstrapping adalah dapat melakukan analisis pada data yang tidak terdistribusi secara normal. Tulisan ini akan memberikan ilustrasi bagaimana analisis bootsrapping ini dapat dilakukan pada data yang tidak normal, sehingga menghasilkan estimasi yang lebih cermat. Sebagaimana kita ketahui, statistik inferensial parametrik pada umumnya menghendaki asumsi normalitas terpenuhi. Pelanggaran asumsi normalitas yang cukup parah, apalagi jika jumlah sampel tidak cukup besar dapat mengakibatkan nilai p yang diperoleh tidak akurat.

Di bawah ini saya sajikan data fiktif mengenai tiga variabel, yaitu prestasi, motivasi, dan IQ. Data dapat didownload di sini. Pada analisis kali ini, saya ingin mengetahui korelasi antar ketiga variabel tersebut. Artinya saya akan menguji korelasi antara prestasi dan motivasi, prestasi dan IQ, serta motivasi dan IQ. Analisis dilakukan dengan korelasi Pearson. Meskipun di contoh ini saya hanya menyajikan analisis korelasi saja, metode bootstrap dapat dilakukan untuk berbagai uji statistik seperti korelasi, regresi, t-test, dan Anova.

Sebelum saya lakukan analisis, saya lihat terlebih dahulu histogramnya untuk melihat apakah data saya terdistribusi normal atau tidak. Analisis akan dilakukan dengan SPSS. Untuk cara uji normalitas silakan lihat artikel ini. Histogram ketiga variabel ditunjukkan pada gambar di bawah. Dari gambar di bawah terlihat bahwa variabel prestasi terdistribusi secara tidak normal, sedangkan variabel motivasi dan IQ sudah normal.

Analisis korelasi Pearson
Meskipun asumsi normalitas variabel prestasi tidak terpenuhi, namun saya akan mencoba tetap melakukan analisis korelasi Pearson. Untuk cara analisis silakan lihat di artikel ini. Setelah analisis dilakukan, berikut adalah hasilnya.
Dari output terlihat bahwa ketiga variabel saling berkorelasi secara signifikan (p < 0,05), baik prestasi dengan motivasi (r = 0,304), prestasi dengan IQ (r = 287), dan motivasi dengan IQ (R= 384). Namun sebagaimana kita tahu dari uji normalitas tadi, variabel prestasi mengalami penyimpangan asumsi normalitas yang cukup parah. Sehingga nilai p yang dihasilkan masih perlu dipertanyatan. Sekarang mari kita coba uji korelasi tersebut dengan metode bootstrapping.

Analisis korelasi Pearson dengan boostrapping
Untuk melakukan analisis korelasi dengan boostrapping, langkahnya kurang lebih sama, klik analyze – correlate – bivariate, dan masukkan ketiga variabel. Lalu klik boostrap.. maka akan muncul seperti ini.
Lalu centang perform bootstrapping, dan tentukan jumlah sampel kita. By default SPSS akan mengeluarkan 1.000, artinya kita akan melakukan resample sejumlah 1.000 kali. Kita bisa meningkatkan angka ini sehingga hasilnya bisa lebih akurat, namun sebagian besar ahli berpendapat bahwa menaikkan sampel lebih sari 1.000 tidak akan berdampak besar. Semakin besar sampel, semakin lama pula komputer akan melakukan komputasi. Untuk contoh kali ini kita gunakan 1.000 sampel saja. Jika sudah klik continue dan OK. Output dapat dilihat di bawah
Untuk membaca hasil analisis dengan bootstrapping, kita cukup melihat pada baris yang bertuliskan bootstrap. Hasil tersebut adalah hasil analisis boostrap dengan 1.000 sampel pada taraf kepercayaan 95%. Untuk melihat apakah korelasinya signifikan atau tidak, kita lihat pada batas bawah (lower) dan batas atas (upper). Lower dan upper merupakan rentang nilai r yang sesungguhnya dengan taraf kepercayaan 95%. Misalkan, korelasi prestasi dan motivasi adalah r = 0,304; dan nilai sesungguhnya berada pada rentang antara -0,018 (lower) sampai dengan 0,538 (upper). Dikarenakan dalam rentang tersebut mengandung nilai nol yang berarti tidak ada hubungan, jadi dapat disimpulkan bahwa tidak ada hubungan antara prestasi dan motivasi. Atau cara mudahnya, jika upper dan lower berada pada satu kutub yang sama, misal sama-sama memiliki nilai positif atau sama-sama memiliki nilai negatif maka korelasinya signifikan; namun sebaliknya jika upper dan lower kutubnya berbeda, maka tidak signifikan.

Dari output tersebut kita tahu bahwa sesungguhnya antara prestasi dan motivasi tidak berhubungan, begitu juga dengan prestasi dan IQ. Hasil ini berbeda dengan analisis sebelumnya yang tanpa menggunakan boostrapping. Jika disuruh memilih, kita akan menggunakan hasil yang mana? Tentu saja saya lebih percaya pada hasil analisis dengan bootstrapping karena asumsi normalitas variabel prestasi tadi tidak terpenuhi. Sementara jika kita menggunakan bootstrap, kita tidak memerlukan asumsi normalitas. Jika kita lihat lebih lanjut pada korelasi antara motivasi dengan IQ yang keduanya berdistribusi normal, baik menggunakan analisis biasa ataupun dengan boostrapping menghasilkan hasil yang sama, yakni sama-sama ada korelasi yang signifikan.

Saya melakukan analisis boostrapping beberapa kali kok hasilnya berbeda?  
Ya, seringkali ketika kita melakukan bootstrapping, hasil nilai lower dan upper antar satu analisis dengan analisis yang lain hasilnya berbeda. Mengapa demikian? Karena komputer melakukan resample secara acak, jadi ada kemungkinan yang akan data yang terambil juga berbeda. Sayangnya jika kita analisis dengan SPSS, kita tidak bisa mengetahui hasil resample data kita. Namun perbedaan hasil itu semakin kecil kemungkinannya jika kita menggunakan sampel bootstrapping yang sangat besar, misal di atas 10.000. Namun kembali lagi, konsekuensi menggunakan sampel yang besar adalah analisis yang memakan waktu cukup lama.

Berkenalan dengan Bootstrapping dalam Statistik


Bootstrapping adalah prosedur statistik dengan cara mengubah data dari sampel yang kita peroleh dan melakukan replikasi dari data sampel tersebut (resampling) secara acak untuk diperoleh data simulasi baru. Prosedur ini dapat digunakan untuk menghitung standar error, interval kepercayaan, dan melakukan pengujian hipotesis untuk berbagai jenis analisis statistik. Metode bootstrap adalah pendekatan alternatif untuk pengujian hipotesis tradisional dan cukup populer saat ini karena memiliki banyak manfaat. Tulisan ini akan memperkenalkan cara kerja teknik bootstrap dan perbedaannya dengan teknik statistik konvensional.

Baik metode bootstrap maupun metode tradisional menggunakan suatu sampel untuk menarik kesimpulan tentang populasi. Perbedaan utama antara bootstrap dan statistik tradisional adalah bagaimana mereka memperkirakan distribusi sampel. Pada uji hipotesis statistik tradisional, untuk memperoleh hasil yang valid, peneliti menggunakan uji statistik yang ketat dan harus memenuhi asumsi tertentu (misalnya normalitas). Metode bootstrap menggunakan pendekatan yang sangat berbeda untuk memperkirakan distribusi sampling. Metode ini mengambil data sampel yang diperoleh, dan kemudian melakukan resample data tersebut berulang-ulang untuk membuat banyak simulasi sampel. Prosedur bootstrap menggunakan distribusi sampel ini sebagai dasar untuk menentukan interval kepercayaan dan pengujian hipotesis. Mari saya contohkan bagaimana proses bootsrapping ini bekerja.

Gambar di atas adalah dataset yang saya miliki dengan jumlah subjek 5 orang. Dari data tersebut kemudian dilakukan bootstrap sebanyak 5 sampel. Dataset yang di-resample memiliki ukuran yang sama dengan dataset asli dan hanya berisi skor-skor yang ada di dataset asli. Selain itu, skor ini dapat muncul lebih banyak atau lebih sedikit di dataset yang di-resample dibandingkan di dataset asli. Proses resampling dilakukan acak dan bisa menciptakan dataset simulasi yang berbeda. Setiap proses bootstrap menghasilkan parameter sampel baru, misalkan di gambar itu saya tuliskan nilai mean. Mean ini kemudian dirata-rata lagi sampai seluruh proses bootstrap selesai, sehingga kita bisa memperoleh  estimasi rerata dari populasi. Dari contoh di atas misalkan, didapatkan estimasi rerata dari populasi adalah 2,92; sementara rerata dari data aslinya adalah 3. Dari nilai tersebut kita mendapatkan nilai bias sebesar 2,92 - 3 = 0,8. 

Tentu saja, contoh ini adalah contoh paling sedernaha. Dalam penelitian yang sesungguhnya peneliti harus menggunakan subjek yang lebih banyak dan melakukan resampling yang lebih banyak pula, pada umumnya hingga ribuan kali. Dikarenakan resample ini dilakukan ribuan kali, sudah pasti kita butuh bantuan komputer untuk melakukannya. Perlu diingat bahwa bootstrap tidak membuat data baru, namun dia memperlakukan sampel asli sebagai proxy untuk populasi dan kemudian mengambil sampel acak dari data itu. Oleh karena itu, asumsi utama untuk bootstrap adalah bahwa sampel asli secara akurat mewakili populasi aktual.

Kelebihan metode bootstrap dibanding metode tradisional
Metode tradisional pada umumnya mengasumsikan bahwa data harus mengikuti distribusi normal atau distribusi lainnya. Namun bagaimana jika ternyata distribusi data kita tidak normal. Jika anda membaca tentang central limit theorem atau robust-nya berbagai teknik analisis statistik paramterik, mungkin Anda akan tetap hajar saja melakukan analisis dengan statistik parametrik, asalkan jumlah sampel Anda cukup besar. Namun jika sampel kita juga tidak cukup banyak dan bahkan penyimpangan terhadap asumsi normalitasnya cukup parah, apa yang harus dilakukan? Sebagai alternatifnya, teknik bootstrap ini dapat digunakan. Misalkan, peneliti memiliki data yang tidak berdistribusi normal dengan jumlah sampel terbatas. Dikarenakan dia tidak memenuhi asumsi normalitas, maka alternatif solusi yang dapat digunakan adalah menggunakan boostrapping.

Bootstrap tidak memerlukan asumsi apapun tentang distribusi data Anda. Boostrap sudah melakukan resample dari data sampel anda hingga ribuan kali, dan menghitung paramater statistik dari hasil resample tersebut. Dikarenakan resample dilakukan ribuan kali, central limit theorem berbicara di sini, dimana teorema ini mengatakan bahwa ketika ukuran sampel cukup besar, distribusi sampel dari mean untuk suatu variabel akan mendekati distribusi normal terlepas dari bagaimana distribusi variabel itu dalam populasi. Dengan demikian, asumsi normalitas tidak diperlukan lagi di sini.

Gambar di bawah ini merupakan ilustrasi perbandingan data asli, data dengan boostrapping 10 sampel, dan data dengan boostrapping 1.000 sampel. Pada data original, distribusi data terlihat menceng ke kanan. Seperti yang terlihat pada gambar, semakin besar resample yang dilakukan, distribusi sampel akan semakin mendekati bentuk distribusi normal.
Untuk menguji hipotesis dengan metode bootstrapping, peneliti perlu melihat pada nilai taraf kepercayaan (confidence interval). Bootstrap akan memberikan batas bawah (lower) dan batas atas (upper) dari taraf kepercayaan yang ada. Suatu analisis dikatakan signifikan jika batas atas dan batas bawah berada pada satu kutub yang sama, misal sama-sama memiliki nilai positif atau sama-sama memiliki nilai negatif. Bootstrap ini dapat dilakukan untuk berbagai uji statistik seperti korelasi, regresi, t-test, Anova, bahkan SEM. Beberapa software analisis statistik juga sudah memfasilitasi metode bootstrap ini, seperti dengan SPSS. Demonstrasi analisis statistik pada data yang tidak memenuhi asumsi normalitas dengan metode boostrap dapat dilihat pada artikel selanjutnya.    













Tujuh Dosa Besar dalam Analisis Statistik



Tulisan ini merupakan inti sari dan sedikit modifikasi dari tulisan Kuzon, Urbancheck, dan McCabe (1996) yang berjudul “The Seven Deadly Sins of Statistical Analysis”. Meskipun artikel tersebut sudah ditulis lebih dari 20 tahun yang lalu, namun kenyataannya dosa-dosa besar tersebut masih banyak dilakukan oleh para peneliti kuantitatif saat ini. Oleh karena itu tulisan ini hanya sebagai pengingat sekaligus menjelaskan kembali dosa-dosa tersebut bagi yang belum tahu. Ketujuh dosa besar dalam analisis statistik tersebut adalah

Rumus Slovin untuk Menentukan Jumlah Sampel dan Kontroversinya


Untuk mementukan sampel dari populasi, peneliti perlu menggunakan rumus statistik untuk menentukan jumlah sampel minimal yang dibutuhkan. Ada beberapa formula yang dapat digunakan untuk menentukan jumlah sampel dari suatu populasi yang diketahui. Misal peneliti ingin meneliti IQ orang Indonesia, maka peneliti dapat mengetahui jumlah populasi dan tahu karakteristik perilaku populasinya karena IQ selalu mengikuti kurve normal. Namun bagaimana jika peneliti ingin meneliti opini mahasiswa terhadap partai politik yang tidak diketahui karakteristik perilaku populasinya? Untuk kasus kedua dimana peneliti tidak tahu perilaku populasinya, peneliti dapat menggunakan rumus Slovin. Jadi rumus Slovin merupakan rumus untuk menghitung jumlah sampel minimal pada populasi yang tidak diketahui. Rumus ini begitu populer di kalangan mahasiswa, terutama untuk tugas akhir mereka.

Bagaimana menghitung dengan Rumus Slovin?
Rumus Slovin dapat dituliskan sebagai berikut

n = jumlah sampel minimal
N = jumlah populasi
e = margin of error / error tolerance

Misal seorang peneliti melakukan penelitian tentang sikap mahasiswa terhadap partai politik dengan jumlah populasi 1.000 orang, dan peneliti tersebut menetapkan tingkat kesalahan yang ditoleransi adalah 5%, maka dengan formula tersebut dapat dihitung jumlah sampel minimal yang diperlukan adalah n = 1.000 / 1 + (1.000x0,05x0,05) = 286. Dengan demikian penelitian tersebut setidaknya harus melibatkan 286 mahasiswa.

Masalah dengan Rumus Slovin
Rumus Slovin dapat memberikan gambaran kasar untuk menentukan jumlah sampel. Namun, rumus non-parametrik ini tidak memiliki ketelitian matematis (Ryan, 2013). Misalnya, tidak ada cara untuk menghitung power statistik (yang memberikan informasi seberapa besar kemungkinan penelitian membedakan efek aktual). Padahal ukuran sampel berdampak langsung pada power statistik, sedangkan jika power statistik rendah, akan menghasilkan kesimpulan yang tidak akurat. Selain itu, tidak jelas dari sumber referensi teks apa tepatnya yang dimaksud "margin of error" dalam rumus ini. Beberapa teks mengatakan e dalam rumus ini adalah margin of error, beberapa lainnya mengatakan error tolerance. Dilihat dari konteksnya, hampir pasti ini adalah nama lain untuk menyebut alpha (α) dalam statistik klasik. Lagipula, jika memang e dalam rumus ini adalah margin of error, bagaimana kita bisa menetapkannya terlebih dahulu padahal standar deviasi populasinya saja tidak diketahui. Rumus ini juga hanya masuk akal jika digunakan untuk penelitian yang tujuannya menghitung persentase, bukan untuk penelitian korelasional. 

Selain masalah power statistik dan penggunaan istilah yang kurang tepat, masalah lain yang menyebabkan rumus ini memiliki reputasi kurang baik di kalangan akademis dunia (tapi di Indonesia cukup populer) adalah karena asal usul rumus ini yang tidak jelas muncul dari mana. Sampai saat itu belum diketahui siapakah Slovin yang dimaksudkan dalam rumus ini. Dalam berbagai literatur juga tidak diketahui sipakah Slovin yang telah menciptakan rumus ini. Desas-desus yang berhembus, rumus ini diciptakan oleh Michael Slovin, namun desas-desus yang lain mengatakan bahwa Slovin yang dimaksud adalah Mark Slovin, Kulkol Slovin, dan ada pula Robert Slovin, entah mana yang betul.

Di buku statistika dan metodologi penelitian terbitan Indonesia, sepertinya bukunya Arikunto dan Sugiyono, rumus ini banyak disebutkan, begitupun cara menghitungnya. Di buku terbitan asing pun juga ada, seperti di buku “Elementary Statistics: A Modern Approach” oleh Altares et. Al (dalam buku itu disebut Sloven). Terlebih lagi, beberapa website tentang statistika juga banyak yang mencantumkan cara menghitung dengan rumus ini. Namun semuanya tidak ada yang mensitasi satu dokumen yang dijadikan rujukan rumus tersebut. Wikipedia, tempat dimana segala informasi ada di sana juga tidak mampu memberikan keterangan lebih lanjut mengenai siapakah rumus ini dan siapakah penemunya. Di berbagai forum peneliti dunia, seperti di Researchgate atau di Stackexchange, siapakah Slovin ini sesungguhnya juga masih menjadi perdebatan (lebih ke arah olok-olok terhadap asal-usul Slovin ini sebenarnya).

Rumus ini sendiri begitu populer di beberapa negara berkembang, terutama di Indonesia dan Filipina karena buku metodologi penelitian yang banyak disitasi di kedua negara tersebut menyebutkan rumus ini. Rumus ini sering dijadikan justifikasi mahasiswa untuk mengerjakan skripsinya ketika kebingungan mencari berapa jumlah sampel ideal untuk penelitian mereka. Meskipun sekilas rumus ini nampak sederhana dan praktis, seolah-olah kita bisa langsung tahu bahwa sampel minimal yang diambil dari rumus nantinya mempunyai tingkat kesalahan sesuai dengan rumus ini. Namun kenyataannya ada beberapa hal yang harus dipertimbangkan dalam menentukan sampel, setidaknya dari tiga komponen statistik yaitu statistical power, effect size, dan signifikansi (baca lebih lanjut di sini). Selain itu, dari berbagai tinjauan literatur, tampaknya tidak ada orang bernama Slovin yang mengajukan rumus ini. Yamane (1967) adalah referensi tertua dimana rumusnya dapat ditemukan.

Nampaknya rumus Slovin ini adalah rumus yang populer yang berasal dari tradisi turun menurun yang diajarkan guru kita. Meskipun demikian, dokumen tertulis yang menyebutkan siapakah sesungguhnya Slovin itu masih belum jelas. Jadi, nampaknya kita perlu memutuskan rantai ajaran turun-temurun ini, dan menjadikan rumus Slovin ini sebagai guyonan statistik saja, seperti yang dilakukan para ahli metodologi di Barat sana. Khususnya bagi teman-teman peneliti yang memang mengincar publikasi ke jurnal internasional, jangan sampai nanti malah artikel kita yang jadi guyonan karena masih menggunakan rumus yang tidak jelas asal-usulnya.

Referensi
Ryan, T. (2013). Sample Size Determination and Power. John Wiley and Sons.
Yamane, T. (1967). Statistics: An Introductory Analysis, 2nd Edition, New York: Harper and Row.


Menentukan Jumlah Sampel Minimal Penelitian dengan G*Power


Salah satu pertanyaan yang paling sering ditanyakan mahasiswa ketika hendak mengambil data adalah, berapa jumlah sampel yang tepat untuk penelitian saya. Di tulisan sebelumnya saya sudah mengulas tentang jumlah sampel minimal dan juga tentang konsep signifikansi, statistical power, dan effect size. Di tulisan kali ini saya akan mengulas bagaimana cara menghitung jumlah sampel minimal serta statistical power yang diperoleh dengan bantuan software G*Power.

G * Power adalah software untuk menghitung statistical power atau kekuatan uji statistik untuk berbagai uji t, uji F, uji χ2, uji z, uji korelasi, dan uji statistik lainnya. G * Power juga dapat digunakan untuk menghitung ukuran efek (effect size) dan untuk menampilkannya secara grafis hasil analisis, sehingga software ini juga cocok digunakan untuk melakukan studi simulasi dan proses pengajaran. Sebenarnya G*Power dapat digunakan untuk mengestimasi lima hal berikut: (1) A priori (ukuran sampel N dihitung sebagai fungsi dari power 1 - β, level signifikansi α, dan effect size populasi yang tidak terdeteksi), (2) Compromise (baik α dan 1 - β dihitung sebagai fungsi effect size, N, dan rasio probabilitas kesalahan (q = β / α)), (3) Kriteria (α dan kriteria keputusan terkait dihitung sebagai fungsi 1 - β, effect size, dan N), (4) Post-hoc (1 - β dihitung sebagai fungsi α, effect size populasi, dan N), dan (5) Sensitivitas (effect size populasi dihitung sebagai fungsi α, 1 - β, dan N). Tulisan ini hanya akan fokus pada fungsi pertama, yaitu fungsi apriori untuk menentukan jumlah sampel berdasarkan power, level signifikansi, dan effect size. Jika menginginkan untuk mendownload software G*Power, anda dapat mendownloadnya secara gratis di sini

Untuk menentukan sampel minimal pada uji statistik, ada beberapa langkah yang harus dilakukan
1.    Menentukan jenis analisis yang akan diestimasi. Jenis analisis bervariasi, tergantung dari jenis data dan hipotesis yang ingin dijawab. Untuk melihat jenis analisis secara lengkap bisa dilihat di sini. 
2.  Menentukan level signifikansi (α ) yang hendak digunakan dalam penelitian. Dalam penelitian di Psikologi, pada umumnya level signifikansi yang ditoleransi adalah 0,05 atau 0,01. Jika kita menghendaki kecermatan yang tinggi kita bisa menggunakan level signifikansi 0,01; namun secara umum level signifikansi 0,05 sudah diterima.
3.    Menentukan statistical power yang diharapkan. Pada umumnya dalam penelitian Psikologi,  statistical power yang diharapkan yaitu yang tinggi, setidaknya di atas 0,80 (80%).
4.    Menentukan effect size yang diharapkan. Jika dalam menentukan level signifikansi dan power pada umumnya sudah ada standarnya, menentukan effect size ini sedikit tricky karena kita belum memiliki effect size karena belum mengambil data. Lalu bagaimana cara kita menentukan effect size yang kita harapkan? Ada dua cara: pertama, dengan melihat effect size penelitian-penelitian sebelumnya yang meneliti variabel yang sama. Effect size penelitian sebelumnya dapat kita jadikan referensi untuk jadi dasar kita menentukan effect size yang diharapkan. Jika memang belum ada penelitian sebelumnya, cara yang kedua yaitu menggunakan penilaian klinis untuk menentukan besaran efek terkecil yang dianggap relevan. Misal kita ingin menguji hubungan X dan Y dan kita menghendaki analisis kita sensitif untuk menguji korelasi dengan efek kecil sekalipun, maka kita dapat menuliskan effect sizenya sebesar 0,1. Sebagai referensi, kita dapat melihat klasifikasi effect size dari Cohen di tabel di bawah.
5.    Menentukan tail(s) yang akan digunakan. Banyaknya tail(s), apakah one-tail atau two-tails tergantung dari apakah hipotesis kita memiliki arah atau tidak. Penjelasan mengenai one-tail atau two-tails dapat dibaca di sini

Jika kita sudah menentukan hal di atas, maka kita bisa mengestimasi jumlah sampel minimal yang dibutuhkan untuk penelitian kita.

Menentukan sampel minimal uji korelasi dengan G*Power
Untuk menentukan jumlah sampel minimal untuk uji korelasi, maka kita atur sebagai berikut
1.    Klik test – correlation and regression – correlation: bivariate normal model
2.    Pilih type power analysis A priori: compute required sample size – given α, power, effect size
3.    Jika hipotesis kita belum memiliki arah, maka isikan tail(s) dengan two
4.  Correlation ρ H1 merupakan effect size atau nilai korelasi yang dikehendaki. Misal penelitian sebelumnya sebagian besar menemukan hasil korelasi r = 0,2; maka kita bisa isikan 0,2
5.    α err prob merupakan level signifikansi yang ditoleransi, kita bisa isikan 0,05
6.    Power (1 – β err prob) merupakan power statistik yang diharapkan, kita bisa isikan 0,80
7.    Correlation ρ H0 merupakan hipotesis null kita, kita bisa isikan 0

Jika semua paramnater sudah diisi, maka klik calculate dan kita bisa lihat jumlah sampel minimal di total sample size. Dari output di sampingnya kita dapat lihat bahwa jumlah sampel minimal yang dibutuhkan adalah 193 subjek.

Menentukan sampel minimal uji t kelompok independen dengan G*Power
Untuk menentukan jumlah sampel minimal untuk uji t kelompok independen, maka kita atur sebagai berikut
1.    Klik test – means – two independent groups
2.    Pilih type power analysis A priori: compute required sample size – given α, power, effect size
3.    Jika hipotesis kita belum memiliki arah, maka isikan tail(s) dengan two
4.    Effect size d merupakan effect size yang dikehendaki. Misal penelitian sebelumnya sebagian besar menemukan hasil d = 0,5; maka kita bisa isikan 0,5. Namun tidak semua penelitian melaporkan nilai d karena by default, software seperti SPSS tidak bisa mengeluarkan nilai d secara otomatis. Jika memang demikian kita bisa klik determine di samping kiri, lalu isikan nilai mean dan SD masing-masing kelompok.
5.    α err prob merupakan level signifikansi yang ditoleransi, kita bisa isikan 0,05
6.    Power (1 – β err prob) merupakan power statistik yang diharapkan, kita bisa isikan 0,80
7.   Allocation ratio N2/N1 merupakan perbandingan jumlah kelompok 1 dan 2. Jika kita menghendaki kedua kelompok jumlahnya sama, maka kita bisa isikan angka 1

Jika semua paramnater sudah diisi, maka klik calculate dan kita bisa lihat jumlah sampel minimal di total sample size. Dari output di sampingnya kita dapat lihat bahwa jumlah sampel minimal yang dibutuhkan adalah 128 subjek, dengan masing-masing kelompok berjumlah 64 subjek.

Cara di atas merupakan cara top-down, artinya dari awal kita sudah menentukan jumlah sampel dari parameter yang sudah diketahui. Meskipun demikian, ketika kita sudah mengambil data dan melakukan analisis, kita bisa mengulangi analisis tersebut dengan memasukkan nilai effect size yang sesungguhnya kita peroleh dari data. Misalnya, pada analisis pertama dengan uji korelasi, setelah dianalisis dengan sampel sejumlah 193 subjek (sesuai yang direkomendasikan di atas), ternyata nilai korelasinya sebesar 0,25. Kemudian kita masukkan kembali nilai effect sizenya 0,25 dan diperoleh hasil total sample size yang dibutuhkan adalah 123 dan power > 0,80. Dengan demikian sampel kita sudah memenuhi kriteria.


Signifikansi, Effect Size, Statistical Power, dan Besaran Sampel


Bagi peneliti kuantitatif, konsep dari signifikansi, besaran efek (Effect Size), kekuatan uji statistik (Statistical Power), dan besaran sampel merupakan konsep dasar yang harusnya dipahami. Namun kenyataannya, di mata kuliah statistika, tidak semua dosen menjelaskan konsep dasar ini, dan tidak semua dosen menjelaskan dengan tepat empat konsep ini. Penelitian Psikologi, terutama yang menggunakan pendekatan eksperimen sebagian besar ingin membandingkan apakah terdapat perbedaan variabel antara dua kelompok atau lebih. Misalnya sebuah penelitian ingin menguji apakah terapi psikologis mampu meningkatkan kepercayaan diri subjek. Penelitian dilakukan dengan desain between subject dengan kelompok kontrol dan eksperimen, dimana kelompok kontrol tidak diberi terapi, sedangkan kelompok eksperimen diberi terapi. Penelitian tersebut memiliki hipotesis bahwa “terdapat perbedaan kepercayaan diri antara kelompok kontrol dan kelompok eksperimen, dimana kelompok eksperimen memiliki kepercayaan diri yang lebih tinggi”.

Statistik inferensial tradisional tidak menguji hipotesis tersebut, melainkan menguji hipotesis null yang menyatakan bahwa “tidak ada perbedaan kepercayaan diri antara kelompok kontrol dan eksperimen”. Pendekatan ini sering disebut dengan Null Hypothesis Significance Testing (NHST). Peneliti melakukan uji statistik dengan independent sample t-test. Jika probabilitas jangka panjang data yang diobservasi muncul di bawah hipotesis null sangat rendah (misal di bawah 5%), peneliti menyimpulkan bahwa hipotesis null sangat kecil kemungkinannya untuk benar. Karena sangat kecil kemungkinan bahwa hipotesis null benar, maka peneliti menolak hipotesis null, dan menyimpulkan bahwa terapinya memberikan efek positif terhadap kepercayaan diri. Uji statistik tradisional ini memiliki beberapa paramater untuk memastikan kesimpulan tepat, yakni kriteria signifikansi, Effect Size, dan Statistical power, dan besaran sampel. Tulisan ini akan memberikan gambaran empat konsep ini dan bagaimana hubungan di antara keempatnya.

Kriteria Signifikansi
Dalam statistik tradisional, kesalahan Tipe I dilambangkan dengan simbol α (alfa), dan merupakan probabilitas jangka panjang sebuah penelitian menolak hipotesis null, ketika hipotesis null benar. Sebagian besar penelitian Psikologi dan humaniora memberikan toleransi 5% (α = 0.05) terhadap terjadinya kesalahan Tipe I atau atau biasa disebut false positives. Hal ini berarti, dalam pengambilan data yang dilakukan berkali-kali dengan batas tidak terhingga, terdapat kemungkinan 5% atau kurang bahwa efek yang ditemukan dalam observasi sebenarnya tidak ada. Toleransi terhadap kesalahan Tipe I dilambangkan dengan p, sehingga nilai p di bawah 0,05 (di bawah batas toleransi) dianggap sebagai temuan yang signifikan dan sebaliknya. Dalam contoh penelitian eksperimen di atas, jika menggunakan kriteria p < 0,05 artinya peluang peneliti salah menyimpulkan bahwa terapinya memiliki efek positif, padahal terapi tersebut tidak memiliki efek positif adalah sebesar 5%.

Kekuatan uji statistik (statistical power)
Dalam statistik tradisional, kesalahan Tipe II dilambangkan dengan simbol β (beta), dan merupakan probabilitas jangka panjang sebuah penelitian gagal menolak hipotesis null, ketika hipotesis null tidak benar. Kekuatan uji statistik (power) dalam statistik inferensial tradisional merupakan kontrol terhadap kesalahan Tipe II atau disebut juga sebagai false negatives (1- β). Sebagian besar penelitian Psikologi dan humaniora memberikan toleransi 20% terjadinya kesalahan Tipe II, sehingga penelitian-penelitian tersebut memiliki Statistical power sebesar 80% (Cohen, 1990). Hal ini berarti, dalam pengambilan data yang dilakukan berkali-kali dengan batas tidak terhingga, terdapat kemungkinan 80% atau lebih untuk menyimpulkan bahwa suatu efek tidak ada, ketika efek tersebut memang tidak ada.

Secara umum antara signifikansi (α) dan Statistical power (1- β) memiliki hubungan yang positif. Seperti terlihat pada gambar di bawah, jika kita meningkatkan level signifikansi (α), maka kita akan mengurangi daerah penerimaan hipotesis null. Berkurangnya daerah penerimaan ini secara otomatis meningkatkan nilai beta. Meningkatnya nilai beta akan menunjukkan nilai kekuatan uji bertambah.   

Besaran efek (effect size)
Besaran efek (effect size) menunjukkan perbedaan terstandar antara skor dari kelompok kontrol dan eksperimen. Dalam penelitian, peneliti tidak hanya tertarik pada perbedaan antara kelompok kontrol dan eksperimen, namun juga seberapa besar perbedaan antara kelompok kontrol dan kelompok eksperimen. Effect Size merupakan satuan standar, artinya, Effect Size dapat dibandingkan antar beberapa skala yang berbeda dan dapat dibandingkan antar beberapa penelitian dengan besaran sampel yang berbeda-beda. Dalam contoh penelitian eksperimen di atas, Effect Size yang dapat digunakan adalah Cohen’s d, yang semakin besar nilainya maka semakin besar perbedaan antara kelompok kontrol dan kelompok eksperimen. Effect Size ada beragam jenisnya sesuai jenis analisanya, misal Effect Size untuk uji beda dua kelompok menggunakan Cohen’s d, Effect Size uji korelasi menggunakan koefisien r, dan Effect Size Anova menggunakan Eta squared. Klasifikasi Effect Size pada berbagai jenis analisis dapat dilihat pada tabel di bawah.

Besaran sampel
Besaran sampel dalam statistik inferensial tradisional dapat dihitung dengan memanfaatkan dinamika relasi antara parameter-parameter yang telah dijabarkan sebelumnya. Formula untuk menentukan besaran sampel berdasarkan tiga paramater sebelumnya adalah sebagai berikut.

Besaran sampel uji beda dua kelompok

Besaran sampel uji korelasi


Sebagai contoh, jika penelitian eksperimen di atas menghendaki kriteria signifikansi p < 0,05 two-tailed dan power, 1-β = 0,80 dan mengharapkan Effect Size sebesar 0,5. Dengan demikian dapat dihitung Z1-α/2 = 1,960 dan Z1-β = 0,842 (menggunakan tabel distribusi normal) sehingga diperoleh besaran sampel 2*((1,960+0,842)/0,5)^2 = ~ 64 subjek per kelompok.

Bagaimana jika peneliti hanya menggunakan 30 subjek saja per kelompok? Dengan memasukan ke formula, dengan Effect Size dan kriteria signifikansi yang sama, maka akan diperoleh power sebesar 0,478. Hal ini berarti, penelitian dengan sampel 30 subjek memiliki taraf kesalahan Tipe II sebesar 52,2%. Dengan kata lain, terdapat 52,2% kemungkinan dalam penelitian ini untuk menolak hipotesis null, padahal hipotesis null tersebut benar. Taraf kesalahan sebesar 52,2% ini melebihi toleransi kesalahan Tipe II sebesar 20% dalam sebagian besar penelitian Psikologi dan humaniora.

Ketika kesalahan Tipe I dan II dikontrol, secara umum hubungan antara Effect Size dan jumlah sampel dapat ditunjukkan pada gambar di bawah ini.
Dari gambar terlihat bahwa Effect Size memiliki hubungan negatif dengan jumlah sampel. Untuk mendeteksi Effect Size yang kecil, dibutuhkan sampel yang lebih banyak, dan sebaliknya. Selain itu, Effect Size memiliki relasi eksponensial dengan besaran sampel. Ketika Effect Size yang diharapkan kecil, maka jumlah sampel yang dibutuhkan untuk mendeteksi suatu efek bertambah secara eksponensial menjadi sangat besar dan sebaliknya.

Dalam penelitian psikologi dan humaniora seringkali peneliti mengontrol taraf kesalahan Tipe I, namun tidak mengontrol taraf kesalahan Tipe II dan tidak mempertimbangkan Effect Size dalam pengambilan keputusan. Ketika taraf kesalahan Tipe II tidak dikontrol, Effect Size yang terhitung biasanya merupakan overestimasi, dan ketika Effect Size ini digunakan untuk menghitung Statistical power dalam penelitian replikasi, hasil penelitian sebagian besar tidak mereplikasi temuan sebelumnya. Oleh karena itu, dalam menentukan sampel, peneliti hendaknya memperhatikan keempat paramater tersebut.

 Perbedaan Classical Test Theory (CTT), Item Response Theory (IRT), dan Rasch Model

 


Analisis item dalam psikometri pada umumnya dapat dibagi menjadi dua pendekatan: Classical Test Theory (CTT) dan Item Response Theory (IRT). CTT merupakan pendekatan yang paling populer dan paling banyak digunakan oleh peneliti Indonesia. CTT  memfokuskan hasil pengukuran pada skor total dari item-item tes. Satu hal yang paling menarik dari CTT ada kemudahan dalam menghitungnya, sehingga tidak diperlukan keahlian khusus untuk memahami hasil analisisnya. Selain itu, CTT juga lebih mudah digunakan untuk komunikasi publik karena secara intuitif, orang akan lebih mudah menerima bahwa orang yang memiliki skor total tinggi memiliki kemampuan yang tinggi pula.

Namun demikian CTT memiliki beberapa ketebatasan. Yang paling utama adalah, tingkat kesulitan item tidak bebas dari sampel yang digunakan; sebaliknya, hasil pengukuran juga tidak terlepas dari tingkat kesulitan item yang digunakan. Jika individu secara acak menerima soal yang sulit, maka besar kemungkinan skor totalnya akan rendah, berbeda dengan jika individu tersebut secara acak menerima soal yang mudah. Begitu juga sebaliknya, jika suatu item dikerjakan oleh orang-orang yang jenius, maka item tersebut akan nampak mudah, berbeda dengan jika item tersebut dikerjakan oleh orang dengan kemampuan rendah. Karena sifat CTT yang sampel-dependent dan item-dependent inilah yang membuat perbandingan antar tes atau perbandingan antar individu lebih rumit dilakukan. Selain itu, peneliti juga tidak bisa membuat item bank untuk Computerized Adaptive Testing dengan CTT.

Pendekatan lainnya adalah dengan IRT yang mampu mengatasi keterbatasan CTT. IRT sendiri merupakan keluarga besar dalam analisis item. Ada beberapa model dalam IRT, seperti model untuk item dikotomi (jawaban benar-salah), model untuk item politomi (misal: likert), model unidimensi, dan model multidimensi. Berdasarkan jumlah parameternya, IRT juga memiliki banyak jenis, seperti model 1PL (hanya tingkat kesulitan butir), 2PL (tingkat kesulitan dan diskriminasi), 3PL (tingkat kesulitan, diskriminasi, dan tebakan semu), dan 4PL (tingkat kesulitan, diskriminasi, tebakan semu, dan kecerobohan).

Dengan semangat yang sama, ada juga model Rasch. Rasch secara matematis sama dengan IRT 1PL, namun memiliki tujuan filosofis yang berbeda. IRT adalah model deskriptif yang tujuannya adalah mencari model mana yang paling cocok menggambarkan data. Misal, data diuji dengan model 1PL dan tidak cocok, maka dicari alternatif model lain dengan menambah parameter lain, misal dengan 2PL, 3PL, atau 4PL. Sementara Rasch adalah model preskriptif yang tujuannya adalah mencocokan data dengan model. Jika data tidak cocok dengan model ideal Rasch, maka perlu diagnosa mengapa data ini tidak cocok. Langkah yang dilakukan bisa dengan menghapus item atau menghapus data dari orang-orang yang pola jawabannya “aneh”. Dengan kata lain, Rasch mendewakan model, sementara IRT mendewakan data.

Apa konsekuensi dari perbedaan Rasch dan IRT ini? Karena Rasch selalu berusaha agar data cocok dengan model, sementara model tidak akan berubah-ubah, maka pendukung Rasch berpendapat bahwa pengukuran yang objektif hanya bisa dicapai dengan Rasch. Pada Rasch, semua item memiliki diskriminasi yang setara, sehingga tidak ada item yang memiliki bobot lebih dalam menentukan skor akhir. Dengan demikian, skor total sebenarnya sudah bisa memberikan informasi yang cukup untuk mengukur suatu konstruk, asalkan asumsi Rasch terpenuhi. Oleh karena itu, hasil pengukuran dengan Rasch dan dengan CTT (skor total) selalu menghasilkan korelasi yang tinggi, lebih dari 0,90.

Sementara itu, IRT mengaggap tiap item itu unik. Mengasumsikan semua item memiliki diskriminasi yang setara sangat tidak masuk akal dalam realitanya. Oleh karenanya IRT membebaskan diskriminasi item bervariasi sesuai dengan data aslinya. Konsekuensinya, tiap item memiliki bobot yang berbeda dalam menentukan skor akhir. Item dengan diskriminasi tinggi akan memiliki bobot lebih besar. Pada model 3PL, parameter tebakan semua juga diizinkan bervariasi. Item dengan tebakan semu lebih rendah akan memiliki bobot lebih dalam menentukan skor akhir. Dengan demikian, skor akhir tidak hanya ditentukan oleh jumlah jawaban benar, tapi juga item mana yang dijawab benar. Korelasi antara skor total dengan skor akhir pada IRT pada akhirnya akan lebih rendah.

 

 

Panduan Membuat Laporan Hasil Analisis Statistik dengan Format APA
Melaporkan hasil analisis statistik nampaknya dianggap remeh, namun kenyataannya masih banyak peneliti yang melaporkan hasil analisisnya tidak sesuai standar. Beberapa contoh kesalahan yang sering dilakukan peneliti adalah melaporkan nilai p = 0,00; atau melaporkan adanya perbedaan mean tanpa menyebutkan nilai df nya; dan masih banyak kesalahan lainnya. Tulisan ini akan memberikan panduan singkat untuk melaporkan nilai-nilai apa saja yang harus ada dalam pelaporan hasil analisis statistik berdasarkan panduan APA. Akan disajikan contoh juga menuliskan laporan dari hasil output SPSS.

Panduan umum
  • Jangan mengulang pelaporan nilai statistik yang sudah ada dalam teks ke tabel atau gambar.
  • Dalam tabel dan gambar, laporkan nilai p sesungguhnya (misal p = ,015), kecuali jika p adalah <,001 (sebagai gantinya tulis “p <,001”). Terkadang, penulis kesulitan jika harus melaporkan nilai p sesungguhnya dalam tabel. Dalam kasus tertentu, penulis dapat mengganti nilai p dengan tanda bintang di samping nilai statistik (misal .24**). Kaidah umum penggunaan tanda bintang adalah *p < ,05. **p < ,01. ***p < ,001.
  • Beri spasi sebelum dan sesudah tanda hitung matematika (misal kurang, tambah, lebih besar dari, kurang dari). Untuk nilai negatif, beri spasi hanya sebelum tanda minus, bukan setelah tanda minus (misal M = –8.25).
  • Gunakan cetak miring untuk simbol statistik (misal M, SD, F, t, df, p, N, n, OR), sementara untuk huruf Yunani (misal α, β, χ2) tidak perlu cetak miring. Penggunaan symbol tersebut juga tidak perlu diberi penjelasan artinya. 
Analisis Data yang Tidak Berdistribusi Normal dengan Bootstrapping di SPSS

Pada tulisan sebelumnya telah dibahas proses bootrapping dan kelebihannya. Salah satu kelebihan bootstrapping adalah dapat melakukan analisis pada data yang tidak terdistribusi secara normal. Tulisan ini akan memberikan ilustrasi bagaimana analisis bootsrapping ini dapat dilakukan pada data yang tidak normal, sehingga menghasilkan estimasi yang lebih cermat. Sebagaimana kita ketahui, statistik inferensial parametrik pada umumnya menghendaki asumsi normalitas terpenuhi. Pelanggaran asumsi normalitas yang cukup parah, apalagi jika jumlah sampel tidak cukup besar dapat mengakibatkan nilai p yang diperoleh tidak akurat.

Di bawah ini saya sajikan data fiktif mengenai tiga variabel, yaitu prestasi, motivasi, dan IQ. Data dapat didownload di sini. Pada analisis kali ini, saya ingin mengetahui korelasi antar ketiga variabel tersebut. Artinya saya akan menguji korelasi antara prestasi dan motivasi, prestasi dan IQ, serta motivasi dan IQ. Analisis dilakukan dengan korelasi Pearson. Meskipun di contoh ini saya hanya menyajikan analisis korelasi saja, metode bootstrap dapat dilakukan untuk berbagai uji statistik seperti korelasi, regresi, t-test, dan Anova.

Sebelum saya lakukan analisis, saya lihat terlebih dahulu histogramnya untuk melihat apakah data saya terdistribusi normal atau tidak. Analisis akan dilakukan dengan SPSS. Untuk cara uji normalitas silakan lihat artikel ini. Histogram ketiga variabel ditunjukkan pada gambar di bawah. Dari gambar di bawah terlihat bahwa variabel prestasi terdistribusi secara tidak normal, sedangkan variabel motivasi dan IQ sudah normal.

Analisis korelasi Pearson
Meskipun asumsi normalitas variabel prestasi tidak terpenuhi, namun saya akan mencoba tetap melakukan analisis korelasi Pearson. Untuk cara analisis silakan lihat di artikel ini. Setelah analisis dilakukan, berikut adalah hasilnya.
Dari output terlihat bahwa ketiga variabel saling berkorelasi secara signifikan (p < 0,05), baik prestasi dengan motivasi (r = 0,304), prestasi dengan IQ (r = 287), dan motivasi dengan IQ (R= 384). Namun sebagaimana kita tahu dari uji normalitas tadi, variabel prestasi mengalami penyimpangan asumsi normalitas yang cukup parah. Sehingga nilai p yang dihasilkan masih perlu dipertanyatan. Sekarang mari kita coba uji korelasi tersebut dengan metode bootstrapping.

Analisis korelasi Pearson dengan boostrapping
Untuk melakukan analisis korelasi dengan boostrapping, langkahnya kurang lebih sama, klik analyze – correlate – bivariate, dan masukkan ketiga variabel. Lalu klik boostrap.. maka akan muncul seperti ini.
Lalu centang perform bootstrapping, dan tentukan jumlah sampel kita. By default SPSS akan mengeluarkan 1.000, artinya kita akan melakukan resample sejumlah 1.000 kali. Kita bisa meningkatkan angka ini sehingga hasilnya bisa lebih akurat, namun sebagian besar ahli berpendapat bahwa menaikkan sampel lebih sari 1.000 tidak akan berdampak besar. Semakin besar sampel, semakin lama pula komputer akan melakukan komputasi. Untuk contoh kali ini kita gunakan 1.000 sampel saja. Jika sudah klik continue dan OK. Output dapat dilihat di bawah
Untuk membaca hasil analisis dengan bootstrapping, kita cukup melihat pada baris yang bertuliskan bootstrap. Hasil tersebut adalah hasil analisis boostrap dengan 1.000 sampel pada taraf kepercayaan 95%. Untuk melihat apakah korelasinya signifikan atau tidak, kita lihat pada batas bawah (lower) dan batas atas (upper). Lower dan upper merupakan rentang nilai r yang sesungguhnya dengan taraf kepercayaan 95%. Misalkan, korelasi prestasi dan motivasi adalah r = 0,304; dan nilai sesungguhnya berada pada rentang antara -0,018 (lower) sampai dengan 0,538 (upper). Dikarenakan dalam rentang tersebut mengandung nilai nol yang berarti tidak ada hubungan, jadi dapat disimpulkan bahwa tidak ada hubungan antara prestasi dan motivasi. Atau cara mudahnya, jika upper dan lower berada pada satu kutub yang sama, misal sama-sama memiliki nilai positif atau sama-sama memiliki nilai negatif maka korelasinya signifikan; namun sebaliknya jika upper dan lower kutubnya berbeda, maka tidak signifikan.

Dari output tersebut kita tahu bahwa sesungguhnya antara prestasi dan motivasi tidak berhubungan, begitu juga dengan prestasi dan IQ. Hasil ini berbeda dengan analisis sebelumnya yang tanpa menggunakan boostrapping. Jika disuruh memilih, kita akan menggunakan hasil yang mana? Tentu saja saya lebih percaya pada hasil analisis dengan bootstrapping karena asumsi normalitas variabel prestasi tadi tidak terpenuhi. Sementara jika kita menggunakan bootstrap, kita tidak memerlukan asumsi normalitas. Jika kita lihat lebih lanjut pada korelasi antara motivasi dengan IQ yang keduanya berdistribusi normal, baik menggunakan analisis biasa ataupun dengan boostrapping menghasilkan hasil yang sama, yakni sama-sama ada korelasi yang signifikan.

Saya melakukan analisis boostrapping beberapa kali kok hasilnya berbeda?  
Ya, seringkali ketika kita melakukan bootstrapping, hasil nilai lower dan upper antar satu analisis dengan analisis yang lain hasilnya berbeda. Mengapa demikian? Karena komputer melakukan resample secara acak, jadi ada kemungkinan yang akan data yang terambil juga berbeda. Sayangnya jika kita analisis dengan SPSS, kita tidak bisa mengetahui hasil resample data kita. Namun perbedaan hasil itu semakin kecil kemungkinannya jika kita menggunakan sampel bootstrapping yang sangat besar, misal di atas 10.000. Namun kembali lagi, konsekuensi menggunakan sampel yang besar adalah analisis yang memakan waktu cukup lama.

Berkenalan dengan Bootstrapping dalam Statistik

Bootstrapping adalah prosedur statistik dengan cara mengubah data dari sampel yang kita peroleh dan melakukan replikasi dari data sampel tersebut (resampling) secara acak untuk diperoleh data simulasi baru. Prosedur ini dapat digunakan untuk menghitung standar error, interval kepercayaan, dan melakukan pengujian hipotesis untuk berbagai jenis analisis statistik. Metode bootstrap adalah pendekatan alternatif untuk pengujian hipotesis tradisional dan cukup populer saat ini karena memiliki banyak manfaat. Tulisan ini akan memperkenalkan cara kerja teknik bootstrap dan perbedaannya dengan teknik statistik konvensional.

Baik metode bootstrap maupun metode tradisional menggunakan suatu sampel untuk menarik kesimpulan tentang populasi. Perbedaan utama antara bootstrap dan statistik tradisional adalah bagaimana mereka memperkirakan distribusi sampel. Pada uji hipotesis statistik tradisional, untuk memperoleh hasil yang valid, peneliti menggunakan uji statistik yang ketat dan harus memenuhi asumsi tertentu (misalnya normalitas). Metode bootstrap menggunakan pendekatan yang sangat berbeda untuk memperkirakan distribusi sampling. Metode ini mengambil data sampel yang diperoleh, dan kemudian melakukan resample data tersebut berulang-ulang untuk membuat banyak simulasi sampel. Prosedur bootstrap menggunakan distribusi sampel ini sebagai dasar untuk menentukan interval kepercayaan dan pengujian hipotesis. Mari saya contohkan bagaimana proses bootsrapping ini bekerja.

Gambar di atas adalah dataset yang saya miliki dengan jumlah subjek 5 orang. Dari data tersebut kemudian dilakukan bootstrap sebanyak 5 sampel. Dataset yang di-resample memiliki ukuran yang sama dengan dataset asli dan hanya berisi skor-skor yang ada di dataset asli. Selain itu, skor ini dapat muncul lebih banyak atau lebih sedikit di dataset yang di-resample dibandingkan di dataset asli. Proses resampling dilakukan acak dan bisa menciptakan dataset simulasi yang berbeda. Setiap proses bootstrap menghasilkan parameter sampel baru, misalkan di gambar itu saya tuliskan nilai mean. Mean ini kemudian dirata-rata lagi sampai seluruh proses bootstrap selesai, sehingga kita bisa memperoleh  estimasi rerata dari populasi. Dari contoh di atas misalkan, didapatkan estimasi rerata dari populasi adalah 2,92; sementara rerata dari data aslinya adalah 3. Dari nilai tersebut kita mendapatkan nilai bias sebesar 2,92 - 3 = 0,8. 

Tentu saja, contoh ini adalah contoh paling sedernaha. Dalam penelitian yang sesungguhnya peneliti harus menggunakan subjek yang lebih banyak dan melakukan resampling yang lebih banyak pula, pada umumnya hingga ribuan kali. Dikarenakan resample ini dilakukan ribuan kali, sudah pasti kita butuh bantuan komputer untuk melakukannya. Perlu diingat bahwa bootstrap tidak membuat data baru, namun dia memperlakukan sampel asli sebagai proxy untuk populasi dan kemudian mengambil sampel acak dari data itu. Oleh karena itu, asumsi utama untuk bootstrap adalah bahwa sampel asli secara akurat mewakili populasi aktual.

Kelebihan metode bootstrap dibanding metode tradisional
Metode tradisional pada umumnya mengasumsikan bahwa data harus mengikuti distribusi normal atau distribusi lainnya. Namun bagaimana jika ternyata distribusi data kita tidak normal. Jika anda membaca tentang central limit theorem atau robust-nya berbagai teknik analisis statistik paramterik, mungkin Anda akan tetap hajar saja melakukan analisis dengan statistik parametrik, asalkan jumlah sampel Anda cukup besar. Namun jika sampel kita juga tidak cukup banyak dan bahkan penyimpangan terhadap asumsi normalitasnya cukup parah, apa yang harus dilakukan? Sebagai alternatifnya, teknik bootstrap ini dapat digunakan. Misalkan, peneliti memiliki data yang tidak berdistribusi normal dengan jumlah sampel terbatas. Dikarenakan dia tidak memenuhi asumsi normalitas, maka alternatif solusi yang dapat digunakan adalah menggunakan boostrapping.

Bootstrap tidak memerlukan asumsi apapun tentang distribusi data Anda. Boostrap sudah melakukan resample dari data sampel anda hingga ribuan kali, dan menghitung paramater statistik dari hasil resample tersebut. Dikarenakan resample dilakukan ribuan kali, central limit theorem berbicara di sini, dimana teorema ini mengatakan bahwa ketika ukuran sampel cukup besar, distribusi sampel dari mean untuk suatu variabel akan mendekati distribusi normal terlepas dari bagaimana distribusi variabel itu dalam populasi. Dengan demikian, asumsi normalitas tidak diperlukan lagi di sini.

Gambar di bawah ini merupakan ilustrasi perbandingan data asli, data dengan boostrapping 10 sampel, dan data dengan boostrapping 1.000 sampel. Pada data original, distribusi data terlihat menceng ke kanan. Seperti yang terlihat pada gambar, semakin besar resample yang dilakukan, distribusi sampel akan semakin mendekati bentuk distribusi normal.
Untuk menguji hipotesis dengan metode bootstrapping, peneliti perlu melihat pada nilai taraf kepercayaan (confidence interval). Bootstrap akan memberikan batas bawah (lower) dan batas atas (upper) dari taraf kepercayaan yang ada. Suatu analisis dikatakan signifikan jika batas atas dan batas bawah berada pada satu kutub yang sama, misal sama-sama memiliki nilai positif atau sama-sama memiliki nilai negatif. Bootstrap ini dapat dilakukan untuk berbagai uji statistik seperti korelasi, regresi, t-test, Anova, bahkan SEM. Beberapa software analisis statistik juga sudah memfasilitasi metode bootstrap ini, seperti dengan SPSS. Demonstrasi analisis statistik pada data yang tidak memenuhi asumsi normalitas dengan metode boostrap dapat dilihat pada artikel selanjutnya.    













Tujuh Dosa Besar dalam Analisis Statistik


Tulisan ini merupakan inti sari dan sedikit modifikasi dari tulisan Kuzon, Urbancheck, dan McCabe (1996) yang berjudul “The Seven Deadly Sins of Statistical Analysis”. Meskipun artikel tersebut sudah ditulis lebih dari 20 tahun yang lalu, namun kenyataannya dosa-dosa besar tersebut masih banyak dilakukan oleh para peneliti kuantitatif saat ini. Oleh karena itu tulisan ini hanya sebagai pengingat sekaligus menjelaskan kembali dosa-dosa tersebut bagi yang belum tahu. Ketujuh dosa besar dalam analisis statistik tersebut adalah
Rumus Slovin untuk Menentukan Jumlah Sampel dan Kontroversinya

Untuk mementukan sampel dari populasi, peneliti perlu menggunakan rumus statistik untuk menentukan jumlah sampel minimal yang dibutuhkan. Ada beberapa formula yang dapat digunakan untuk menentukan jumlah sampel dari suatu populasi yang diketahui. Misal peneliti ingin meneliti IQ orang Indonesia, maka peneliti dapat mengetahui jumlah populasi dan tahu karakteristik perilaku populasinya karena IQ selalu mengikuti kurve normal. Namun bagaimana jika peneliti ingin meneliti opini mahasiswa terhadap partai politik yang tidak diketahui karakteristik perilaku populasinya? Untuk kasus kedua dimana peneliti tidak tahu perilaku populasinya, peneliti dapat menggunakan rumus Slovin. Jadi rumus Slovin merupakan rumus untuk menghitung jumlah sampel minimal pada populasi yang tidak diketahui. Rumus ini begitu populer di kalangan mahasiswa, terutama untuk tugas akhir mereka.

Bagaimana menghitung dengan Rumus Slovin?
Rumus Slovin dapat dituliskan sebagai berikut

n = jumlah sampel minimal
N = jumlah populasi
e = margin of error / error tolerance

Misal seorang peneliti melakukan penelitian tentang sikap mahasiswa terhadap partai politik dengan jumlah populasi 1.000 orang, dan peneliti tersebut menetapkan tingkat kesalahan yang ditoleransi adalah 5%, maka dengan formula tersebut dapat dihitung jumlah sampel minimal yang diperlukan adalah n = 1.000 / 1 + (1.000x0,05x0,05) = 286. Dengan demikian penelitian tersebut setidaknya harus melibatkan 286 mahasiswa.

Masalah dengan Rumus Slovin
Rumus Slovin dapat memberikan gambaran kasar untuk menentukan jumlah sampel. Namun, rumus non-parametrik ini tidak memiliki ketelitian matematis (Ryan, 2013). Misalnya, tidak ada cara untuk menghitung power statistik (yang memberikan informasi seberapa besar kemungkinan penelitian membedakan efek aktual). Padahal ukuran sampel berdampak langsung pada power statistik, sedangkan jika power statistik rendah, akan menghasilkan kesimpulan yang tidak akurat. Selain itu, tidak jelas dari sumber referensi teks apa tepatnya yang dimaksud "margin of error" dalam rumus ini. Beberapa teks mengatakan e dalam rumus ini adalah margin of error, beberapa lainnya mengatakan error tolerance. Dilihat dari konteksnya, hampir pasti ini adalah nama lain untuk menyebut alpha (α) dalam statistik klasik. Lagipula, jika memang e dalam rumus ini adalah margin of error, bagaimana kita bisa menetapkannya terlebih dahulu padahal standar deviasi populasinya saja tidak diketahui. Rumus ini juga hanya masuk akal jika digunakan untuk penelitian yang tujuannya menghitung persentase, bukan untuk penelitian korelasional. 

Selain masalah power statistik dan penggunaan istilah yang kurang tepat, masalah lain yang menyebabkan rumus ini memiliki reputasi kurang baik di kalangan akademis dunia (tapi di Indonesia cukup populer) adalah karena asal usul rumus ini yang tidak jelas muncul dari mana. Sampai saat itu belum diketahui siapakah Slovin yang dimaksudkan dalam rumus ini. Dalam berbagai literatur juga tidak diketahui sipakah Slovin yang telah menciptakan rumus ini. Desas-desus yang berhembus, rumus ini diciptakan oleh Michael Slovin, namun desas-desus yang lain mengatakan bahwa Slovin yang dimaksud adalah Mark Slovin, Kulkol Slovin, dan ada pula Robert Slovin, entah mana yang betul.

Di buku statistika dan metodologi penelitian terbitan Indonesia, sepertinya bukunya Arikunto dan Sugiyono, rumus ini banyak disebutkan, begitupun cara menghitungnya. Di buku terbitan asing pun juga ada, seperti di buku “Elementary Statistics: A Modern Approach” oleh Altares et. Al (dalam buku itu disebut Sloven). Terlebih lagi, beberapa website tentang statistika juga banyak yang mencantumkan cara menghitung dengan rumus ini. Namun semuanya tidak ada yang mensitasi satu dokumen yang dijadikan rujukan rumus tersebut. Wikipedia, tempat dimana segala informasi ada di sana juga tidak mampu memberikan keterangan lebih lanjut mengenai siapakah rumus ini dan siapakah penemunya. Di berbagai forum peneliti dunia, seperti di Researchgate atau di Stackexchange, siapakah Slovin ini sesungguhnya juga masih menjadi perdebatan (lebih ke arah olok-olok terhadap asal-usul Slovin ini sebenarnya).

Rumus ini sendiri begitu populer di beberapa negara berkembang, terutama di Indonesia dan Filipina karena buku metodologi penelitian yang banyak disitasi di kedua negara tersebut menyebutkan rumus ini. Rumus ini sering dijadikan justifikasi mahasiswa untuk mengerjakan skripsinya ketika kebingungan mencari berapa jumlah sampel ideal untuk penelitian mereka. Meskipun sekilas rumus ini nampak sederhana dan praktis, seolah-olah kita bisa langsung tahu bahwa sampel minimal yang diambil dari rumus nantinya mempunyai tingkat kesalahan sesuai dengan rumus ini. Namun kenyataannya ada beberapa hal yang harus dipertimbangkan dalam menentukan sampel, setidaknya dari tiga komponen statistik yaitu statistical power, effect size, dan signifikansi (baca lebih lanjut di sini). Selain itu, dari berbagai tinjauan literatur, tampaknya tidak ada orang bernama Slovin yang mengajukan rumus ini. Yamane (1967) adalah referensi tertua dimana rumusnya dapat ditemukan.

Nampaknya rumus Slovin ini adalah rumus yang populer yang berasal dari tradisi turun menurun yang diajarkan guru kita. Meskipun demikian, dokumen tertulis yang menyebutkan siapakah sesungguhnya Slovin itu masih belum jelas. Jadi, nampaknya kita perlu memutuskan rantai ajaran turun-temurun ini, dan menjadikan rumus Slovin ini sebagai guyonan statistik saja, seperti yang dilakukan para ahli metodologi di Barat sana. Khususnya bagi teman-teman peneliti yang memang mengincar publikasi ke jurnal internasional, jangan sampai nanti malah artikel kita yang jadi guyonan karena masih menggunakan rumus yang tidak jelas asal-usulnya.

Referensi
Ryan, T. (2013). Sample Size Determination and Power. John Wiley and Sons.
Yamane, T. (1967). Statistics: An Introductory Analysis, 2nd Edition, New York: Harper and Row.


Menentukan Jumlah Sampel Minimal Penelitian dengan G*Power

Salah satu pertanyaan yang paling sering ditanyakan mahasiswa ketika hendak mengambil data adalah, berapa jumlah sampel yang tepat untuk penelitian saya. Di tulisan sebelumnya saya sudah mengulas tentang jumlah sampel minimal dan juga tentang konsep signifikansi, statistical power, dan effect size. Di tulisan kali ini saya akan mengulas bagaimana cara menghitung jumlah sampel minimal serta statistical power yang diperoleh dengan bantuan software G*Power.

G * Power adalah software untuk menghitung statistical power atau kekuatan uji statistik untuk berbagai uji t, uji F, uji χ2, uji z, uji korelasi, dan uji statistik lainnya. G * Power juga dapat digunakan untuk menghitung ukuran efek (effect size) dan untuk menampilkannya secara grafis hasil analisis, sehingga software ini juga cocok digunakan untuk melakukan studi simulasi dan proses pengajaran. Sebenarnya G*Power dapat digunakan untuk mengestimasi lima hal berikut: (1) A priori (ukuran sampel N dihitung sebagai fungsi dari power 1 - β, level signifikansi α, dan effect size populasi yang tidak terdeteksi), (2) Compromise (baik α dan 1 - β dihitung sebagai fungsi effect size, N, dan rasio probabilitas kesalahan (q = β / α)), (3) Kriteria (α dan kriteria keputusan terkait dihitung sebagai fungsi 1 - β, effect size, dan N), (4) Post-hoc (1 - β dihitung sebagai fungsi α, effect size populasi, dan N), dan (5) Sensitivitas (effect size populasi dihitung sebagai fungsi α, 1 - β, dan N). Tulisan ini hanya akan fokus pada fungsi pertama, yaitu fungsi apriori untuk menentukan jumlah sampel berdasarkan power, level signifikansi, dan effect size. Jika menginginkan untuk mendownload software G*Power, anda dapat mendownloadnya secara gratis di sini

Untuk menentukan sampel minimal pada uji statistik, ada beberapa langkah yang harus dilakukan
1.    Menentukan jenis analisis yang akan diestimasi. Jenis analisis bervariasi, tergantung dari jenis data dan hipotesis yang ingin dijawab. Untuk melihat jenis analisis secara lengkap bisa dilihat di sini. 
2.  Menentukan level signifikansi (α ) yang hendak digunakan dalam penelitian. Dalam penelitian di Psikologi, pada umumnya level signifikansi yang ditoleransi adalah 0,05 atau 0,01. Jika kita menghendaki kecermatan yang tinggi kita bisa menggunakan level signifikansi 0,01; namun secara umum level signifikansi 0,05 sudah diterima.
3.    Menentukan statistical power yang diharapkan. Pada umumnya dalam penelitian Psikologi,  statistical power yang diharapkan yaitu yang tinggi, setidaknya di atas 0,80 (80%).
4.    Menentukan effect size yang diharapkan. Jika dalam menentukan level signifikansi dan power pada umumnya sudah ada standarnya, menentukan effect size ini sedikit tricky karena kita belum memiliki effect size karena belum mengambil data. Lalu bagaimana cara kita menentukan effect size yang kita harapkan? Ada dua cara: pertama, dengan melihat effect size penelitian-penelitian sebelumnya yang meneliti variabel yang sama. Effect size penelitian sebelumnya dapat kita jadikan referensi untuk jadi dasar kita menentukan effect size yang diharapkan. Jika memang belum ada penelitian sebelumnya, cara yang kedua yaitu menggunakan penilaian klinis untuk menentukan besaran efek terkecil yang dianggap relevan. Misal kita ingin menguji hubungan X dan Y dan kita menghendaki analisis kita sensitif untuk menguji korelasi dengan efek kecil sekalipun, maka kita dapat menuliskan effect sizenya sebesar 0,1. Sebagai referensi, kita dapat melihat klasifikasi effect size dari Cohen di tabel di bawah.
5.    Menentukan tail(s) yang akan digunakan. Banyaknya tail(s), apakah one-tail atau two-tails tergantung dari apakah hipotesis kita memiliki arah atau tidak. Penjelasan mengenai one-tail atau two-tails dapat dibaca di sini

Jika kita sudah menentukan hal di atas, maka kita bisa mengestimasi jumlah sampel minimal yang dibutuhkan untuk penelitian kita.

Menentukan sampel minimal uji korelasi dengan G*Power
Untuk menentukan jumlah sampel minimal untuk uji korelasi, maka kita atur sebagai berikut
1.    Klik test – correlation and regression – correlation: bivariate normal model
2.    Pilih type power analysis A priori: compute required sample size – given α, power, effect size
3.    Jika hipotesis kita belum memiliki arah, maka isikan tail(s) dengan two
4.  Correlation ρ H1 merupakan effect size atau nilai korelasi yang dikehendaki. Misal penelitian sebelumnya sebagian besar menemukan hasil korelasi r = 0,2; maka kita bisa isikan 0,2
5.    α err prob merupakan level signifikansi yang ditoleransi, kita bisa isikan 0,05
6.    Power (1 – β err prob) merupakan power statistik yang diharapkan, kita bisa isikan 0,80
7.    Correlation ρ H0 merupakan hipotesis null kita, kita bisa isikan 0

Jika semua paramnater sudah diisi, maka klik calculate dan kita bisa lihat jumlah sampel minimal di total sample size. Dari output di sampingnya kita dapat lihat bahwa jumlah sampel minimal yang dibutuhkan adalah 193 subjek.

Menentukan sampel minimal uji t kelompok independen dengan G*Power
Untuk menentukan jumlah sampel minimal untuk uji t kelompok independen, maka kita atur sebagai berikut
1.    Klik test – means – two independent groups
2.    Pilih type power analysis A priori: compute required sample size – given α, power, effect size
3.    Jika hipotesis kita belum memiliki arah, maka isikan tail(s) dengan two
4.    Effect size d merupakan effect size yang dikehendaki. Misal penelitian sebelumnya sebagian besar menemukan hasil d = 0,5; maka kita bisa isikan 0,5. Namun tidak semua penelitian melaporkan nilai d karena by default, software seperti SPSS tidak bisa mengeluarkan nilai d secara otomatis. Jika memang demikian kita bisa klik determine di samping kiri, lalu isikan nilai mean dan SD masing-masing kelompok.
5.    α err prob merupakan level signifikansi yang ditoleransi, kita bisa isikan 0,05
6.    Power (1 – β err prob) merupakan power statistik yang diharapkan, kita bisa isikan 0,80
7.   Allocation ratio N2/N1 merupakan perbandingan jumlah kelompok 1 dan 2. Jika kita menghendaki kedua kelompok jumlahnya sama, maka kita bisa isikan angka 1

Jika semua paramnater sudah diisi, maka klik calculate dan kita bisa lihat jumlah sampel minimal di total sample size. Dari output di sampingnya kita dapat lihat bahwa jumlah sampel minimal yang dibutuhkan adalah 128 subjek, dengan masing-masing kelompok berjumlah 64 subjek.

Cara di atas merupakan cara top-down, artinya dari awal kita sudah menentukan jumlah sampel dari parameter yang sudah diketahui. Meskipun demikian, ketika kita sudah mengambil data dan melakukan analisis, kita bisa mengulangi analisis tersebut dengan memasukkan nilai effect size yang sesungguhnya kita peroleh dari data. Misalnya, pada analisis pertama dengan uji korelasi, setelah dianalisis dengan sampel sejumlah 193 subjek (sesuai yang direkomendasikan di atas), ternyata nilai korelasinya sebesar 0,25. Kemudian kita masukkan kembali nilai effect sizenya 0,25 dan diperoleh hasil total sample size yang dibutuhkan adalah 123 dan power > 0,80. Dengan demikian sampel kita sudah memenuhi kriteria.


Signifikansi, Effect Size, Statistical Power, dan Besaran Sampel

Bagi peneliti kuantitatif, konsep dari signifikansi, besaran efek (Effect Size), kekuatan uji statistik (Statistical Power), dan besaran sampel merupakan konsep dasar yang harusnya dipahami. Namun kenyataannya, di mata kuliah statistika, tidak semua dosen menjelaskan konsep dasar ini, dan tidak semua dosen menjelaskan dengan tepat empat konsep ini. Penelitian Psikologi, terutama yang menggunakan pendekatan eksperimen sebagian besar ingin membandingkan apakah terdapat perbedaan variabel antara dua kelompok atau lebih. Misalnya sebuah penelitian ingin menguji apakah terapi psikologis mampu meningkatkan kepercayaan diri subjek. Penelitian dilakukan dengan desain between subject dengan kelompok kontrol dan eksperimen, dimana kelompok kontrol tidak diberi terapi, sedangkan kelompok eksperimen diberi terapi. Penelitian tersebut memiliki hipotesis bahwa “terdapat perbedaan kepercayaan diri antara kelompok kontrol dan kelompok eksperimen, dimana kelompok eksperimen memiliki kepercayaan diri yang lebih tinggi”.

Statistik inferensial tradisional tidak menguji hipotesis tersebut, melainkan menguji hipotesis null yang menyatakan bahwa “tidak ada perbedaan kepercayaan diri antara kelompok kontrol dan eksperimen”. Pendekatan ini sering disebut dengan Null Hypothesis Significance Testing (NHST). Peneliti melakukan uji statistik dengan independent sample t-test. Jika probabilitas jangka panjang data yang diobservasi muncul di bawah hipotesis null sangat rendah (misal di bawah 5%), peneliti menyimpulkan bahwa hipotesis null sangat kecil kemungkinannya untuk benar. Karena sangat kecil kemungkinan bahwa hipotesis null benar, maka peneliti menolak hipotesis null, dan menyimpulkan bahwa terapinya memberikan efek positif terhadap kepercayaan diri. Uji statistik tradisional ini memiliki beberapa paramater untuk memastikan kesimpulan tepat, yakni kriteria signifikansi, Effect Size, dan Statistical power, dan besaran sampel. Tulisan ini akan memberikan gambaran empat konsep ini dan bagaimana hubungan di antara keempatnya.

Kriteria Signifikansi
Dalam statistik tradisional, kesalahan Tipe I dilambangkan dengan simbol α (alfa), dan merupakan probabilitas jangka panjang sebuah penelitian menolak hipotesis null, ketika hipotesis null benar. Sebagian besar penelitian Psikologi dan humaniora memberikan toleransi 5% (α = 0.05) terhadap terjadinya kesalahan Tipe I atau atau biasa disebut false positives. Hal ini berarti, dalam pengambilan data yang dilakukan berkali-kali dengan batas tidak terhingga, terdapat kemungkinan 5% atau kurang bahwa efek yang ditemukan dalam observasi sebenarnya tidak ada. Toleransi terhadap kesalahan Tipe I dilambangkan dengan p, sehingga nilai p di bawah 0,05 (di bawah batas toleransi) dianggap sebagai temuan yang signifikan dan sebaliknya. Dalam contoh penelitian eksperimen di atas, jika menggunakan kriteria p < 0,05 artinya peluang peneliti salah menyimpulkan bahwa terapinya memiliki efek positif, padahal terapi tersebut tidak memiliki efek positif adalah sebesar 5%.

Kekuatan uji statistik (statistical power)
Dalam statistik tradisional, kesalahan Tipe II dilambangkan dengan simbol β (beta), dan merupakan probabilitas jangka panjang sebuah penelitian gagal menolak hipotesis null, ketika hipotesis null tidak benar. Kekuatan uji statistik (power) dalam statistik inferensial tradisional merupakan kontrol terhadap kesalahan Tipe II atau disebut juga sebagai false negatives (1- β). Sebagian besar penelitian Psikologi dan humaniora memberikan toleransi 20% terjadinya kesalahan Tipe II, sehingga penelitian-penelitian tersebut memiliki Statistical power sebesar 80% (Cohen, 1990). Hal ini berarti, dalam pengambilan data yang dilakukan berkali-kali dengan batas tidak terhingga, terdapat kemungkinan 80% atau lebih untuk menyimpulkan bahwa suatu efek tidak ada, ketika efek tersebut memang tidak ada.

Secara umum antara signifikansi (α) dan Statistical power (1- β) memiliki hubungan yang positif. Seperti terlihat pada gambar di bawah, jika kita meningkatkan level signifikansi (α), maka kita akan mengurangi daerah penerimaan hipotesis null. Berkurangnya daerah penerimaan ini secara otomatis meningkatkan nilai beta. Meningkatnya nilai beta akan menunjukkan nilai kekuatan uji bertambah.   

Besaran efek (effect size)
Besaran efek (effect size) menunjukkan perbedaan terstandar antara skor dari kelompok kontrol dan eksperimen. Dalam penelitian, peneliti tidak hanya tertarik pada perbedaan antara kelompok kontrol dan eksperimen, namun juga seberapa besar perbedaan antara kelompok kontrol dan kelompok eksperimen. Effect Size merupakan satuan standar, artinya, Effect Size dapat dibandingkan antar beberapa skala yang berbeda dan dapat dibandingkan antar beberapa penelitian dengan besaran sampel yang berbeda-beda. Dalam contoh penelitian eksperimen di atas, Effect Size yang dapat digunakan adalah Cohen’s d, yang semakin besar nilainya maka semakin besar perbedaan antara kelompok kontrol dan kelompok eksperimen. Effect Size ada beragam jenisnya sesuai jenis analisanya, misal Effect Size untuk uji beda dua kelompok menggunakan Cohen’s d, Effect Size uji korelasi menggunakan koefisien r, dan Effect Size Anova menggunakan Eta squared. Klasifikasi Effect Size pada berbagai jenis analisis dapat dilihat pada tabel di bawah.

Besaran sampel
Besaran sampel dalam statistik inferensial tradisional dapat dihitung dengan memanfaatkan dinamika relasi antara parameter-parameter yang telah dijabarkan sebelumnya. Formula untuk menentukan besaran sampel berdasarkan tiga paramater sebelumnya adalah sebagai berikut.

Besaran sampel uji beda dua kelompok

Besaran sampel uji korelasi


Sebagai contoh, jika penelitian eksperimen di atas menghendaki kriteria signifikansi p < 0,05 two-tailed dan power, 1-β = 0,80 dan mengharapkan Effect Size sebesar 0,5. Dengan demikian dapat dihitung Z1-α/2 = 1,960 dan Z1-β = 0,842 (menggunakan tabel distribusi normal) sehingga diperoleh besaran sampel 2*((1,960+0,842)/0,5)^2 = ~ 64 subjek per kelompok.

Bagaimana jika peneliti hanya menggunakan 30 subjek saja per kelompok? Dengan memasukan ke formula, dengan Effect Size dan kriteria signifikansi yang sama, maka akan diperoleh power sebesar 0,478. Hal ini berarti, penelitian dengan sampel 30 subjek memiliki taraf kesalahan Tipe II sebesar 52,2%. Dengan kata lain, terdapat 52,2% kemungkinan dalam penelitian ini untuk menolak hipotesis null, padahal hipotesis null tersebut benar. Taraf kesalahan sebesar 52,2% ini melebihi toleransi kesalahan Tipe II sebesar 20% dalam sebagian besar penelitian Psikologi dan humaniora.

Ketika kesalahan Tipe I dan II dikontrol, secara umum hubungan antara Effect Size dan jumlah sampel dapat ditunjukkan pada gambar di bawah ini.
Dari gambar terlihat bahwa Effect Size memiliki hubungan negatif dengan jumlah sampel. Untuk mendeteksi Effect Size yang kecil, dibutuhkan sampel yang lebih banyak, dan sebaliknya. Selain itu, Effect Size memiliki relasi eksponensial dengan besaran sampel. Ketika Effect Size yang diharapkan kecil, maka jumlah sampel yang dibutuhkan untuk mendeteksi suatu efek bertambah secara eksponensial menjadi sangat besar dan sebaliknya.

Dalam penelitian psikologi dan humaniora seringkali peneliti mengontrol taraf kesalahan Tipe I, namun tidak mengontrol taraf kesalahan Tipe II dan tidak mempertimbangkan Effect Size dalam pengambilan keputusan. Ketika taraf kesalahan Tipe II tidak dikontrol, Effect Size yang terhitung biasanya merupakan overestimasi, dan ketika Effect Size ini digunakan untuk menghitung Statistical power dalam penelitian replikasi, hasil penelitian sebagian besar tidak mereplikasi temuan sebelumnya. Oleh karena itu, dalam menentukan sampel, peneliti hendaknya memperhatikan keempat paramater tersebut.

Artikel Lainnya