Panduan Membuat Laporan Hasil Analisis Statistik dengan Format APA
APA pelaporan analisis pelaporan statistik SPSS StatistikaAnalisis Data yang Tidak Berdistribusi Normal dengan Bootstrapping di SPSS
bootstrapping normalitas SPSS Statistika Uji AsumsiBerkenalan dengan Bootstrapping dalam Statistik
bootstrapping normalitas Statistika Uji AsumsiTujuh Dosa Besar dalam Analisis Statistik
Metodologi Penelitian StatistikaRumus Slovin untuk Menentukan Jumlah Sampel dan Kontroversinya
Metodologi Penelitian Statistika Ukuran sampelMenentukan Jumlah Sampel Minimal Penelitian dengan G*Power
G*Power Korelasi Metodologi Penelitian Statistika Uji Beda Ukuran sampelSignifikansi, Effect Size, Statistical Power, dan Besaran Sampel
Metodologi Penelitian Statistika
Analisis
item dalam psikometri pada umumnya dapat dibagi menjadi dua pendekatan:
Classical Test Theory (CTT) dan Item Response Theory (IRT). CTT merupakan
pendekatan yang paling populer dan paling banyak digunakan oleh peneliti Indonesia.
CTT memfokuskan hasil pengukuran pada
skor total dari item-item tes. Satu hal yang paling menarik dari CTT ada kemudahan
dalam menghitungnya, sehingga tidak diperlukan keahlian khusus untuk memahami
hasil analisisnya. Selain itu, CTT juga lebih mudah digunakan untuk komunikasi
publik karena secara intuitif, orang akan lebih mudah menerima bahwa orang yang
memiliki skor total tinggi memiliki kemampuan yang tinggi pula.
Namun
demikian CTT memiliki beberapa ketebatasan. Yang paling utama adalah, tingkat
kesulitan item tidak bebas dari sampel yang digunakan; sebaliknya, hasil
pengukuran juga tidak terlepas dari tingkat kesulitan item yang digunakan. Jika
individu secara acak menerima soal yang sulit, maka besar kemungkinan skor
totalnya akan rendah, berbeda dengan jika individu tersebut secara acak
menerima soal yang mudah. Begitu juga sebaliknya, jika suatu item dikerjakan
oleh orang-orang yang jenius, maka item tersebut akan nampak mudah, berbeda
dengan jika item tersebut dikerjakan oleh orang dengan kemampuan rendah. Karena
sifat CTT yang sampel-dependent dan item-dependent inilah yang
membuat perbandingan antar tes atau perbandingan antar individu lebih rumit
dilakukan. Selain itu, peneliti juga tidak bisa membuat item bank untuk Computerized
Adaptive Testing dengan CTT.
Pendekatan
lainnya adalah dengan IRT yang mampu mengatasi keterbatasan CTT. IRT sendiri merupakan
keluarga besar dalam analisis item. Ada beberapa model dalam IRT, seperti model
untuk item dikotomi (jawaban benar-salah), model untuk item politomi (misal:
likert), model unidimensi, dan model multidimensi. Berdasarkan jumlah
parameternya, IRT juga memiliki banyak jenis, seperti model 1PL (hanya tingkat
kesulitan butir), 2PL (tingkat kesulitan dan diskriminasi), 3PL (tingkat
kesulitan, diskriminasi, dan tebakan semu), dan 4PL (tingkat kesulitan,
diskriminasi, tebakan semu, dan kecerobohan).
Dengan
semangat yang sama, ada juga model Rasch. Rasch secara matematis sama dengan
IRT 1PL, namun memiliki tujuan filosofis yang berbeda. IRT adalah model
deskriptif yang tujuannya adalah mencari model mana yang paling cocok menggambarkan
data. Misal, data diuji dengan model 1PL dan tidak cocok, maka dicari alternatif
model lain dengan menambah parameter lain, misal dengan 2PL, 3PL, atau 4PL. Sementara
Rasch adalah model preskriptif yang tujuannya adalah mencocokan data dengan
model. Jika data tidak cocok dengan model ideal Rasch, maka perlu diagnosa
mengapa data ini tidak cocok. Langkah yang dilakukan bisa dengan menghapus item
atau menghapus data dari orang-orang yang pola jawabannya “aneh”. Dengan kata
lain, Rasch mendewakan model, sementara IRT mendewakan data.
Apa
konsekuensi dari perbedaan Rasch dan IRT ini? Karena Rasch selalu berusaha agar
data cocok dengan model, sementara model tidak akan berubah-ubah, maka pendukung
Rasch berpendapat bahwa pengukuran yang objektif hanya bisa dicapai dengan Rasch.
Pada Rasch, semua item memiliki diskriminasi yang setara, sehingga tidak ada
item yang memiliki bobot lebih dalam menentukan skor akhir. Dengan demikian, skor
total sebenarnya sudah bisa memberikan informasi yang cukup untuk mengukur
suatu konstruk, asalkan asumsi Rasch terpenuhi. Oleh karena itu, hasil
pengukuran dengan Rasch dan dengan CTT (skor total) selalu menghasilkan
korelasi yang tinggi, lebih dari 0,90.
Sementara
itu, IRT mengaggap tiap item itu unik. Mengasumsikan semua item memiliki diskriminasi
yang setara sangat tidak masuk akal dalam realitanya. Oleh karenanya IRT
membebaskan diskriminasi item bervariasi sesuai dengan data aslinya.
Konsekuensinya, tiap item memiliki bobot yang berbeda dalam menentukan skor
akhir. Item dengan diskriminasi tinggi akan memiliki bobot lebih besar. Pada model
3PL, parameter tebakan semua juga diizinkan bervariasi. Item dengan tebakan
semu lebih rendah akan memiliki bobot lebih dalam menentukan skor akhir. Dengan
demikian, skor akhir tidak hanya ditentukan oleh jumlah jawaban benar, tapi
juga item mana yang dijawab benar. Korelasi antara skor total dengan skor akhir
pada IRT pada akhirnya akan lebih rendah.
- Jangan mengulang pelaporan nilai statistik yang sudah ada dalam teks ke tabel atau gambar.
- Dalam tabel dan gambar, laporkan nilai p sesungguhnya (misal p = ,015), kecuali jika p adalah <,001 (sebagai gantinya tulis “p <,001”). Terkadang, penulis kesulitan jika harus melaporkan nilai p sesungguhnya dalam tabel. Dalam kasus tertentu, penulis dapat mengganti nilai p dengan tanda bintang di samping nilai statistik (misal .24**). Kaidah umum penggunaan tanda bintang adalah *p < ,05. **p < ,01. ***p < ,001.
- Beri spasi sebelum dan sesudah tanda hitung matematika (misal kurang, tambah, lebih besar dari, kurang dari). Untuk nilai negatif, beri spasi hanya sebelum tanda minus, bukan setelah tanda minus (misal M = –8.25).
- Gunakan cetak miring untuk simbol statistik (misal M, SD, F, t, df, p, N, n, OR), sementara untuk huruf Yunani (misal α, β, χ2) tidak perlu cetak miring. Penggunaan symbol tersebut juga tidak perlu diberi penjelasan artinya.
Tentu saja, contoh ini adalah contoh paling sedernaha. Dalam penelitian yang sesungguhnya peneliti harus menggunakan subjek yang lebih banyak dan melakukan resampling yang lebih banyak pula, pada umumnya hingga ribuan kali. Dikarenakan resample ini dilakukan ribuan kali, sudah pasti kita butuh bantuan komputer untuk melakukannya. Perlu diingat bahwa bootstrap tidak membuat data baru, namun dia memperlakukan sampel asli sebagai proxy untuk populasi dan kemudian mengambil sampel acak dari data itu. Oleh karena itu, asumsi utama untuk bootstrap adalah bahwa sampel asli secara akurat mewakili populasi aktual.
Metode tradisional pada umumnya mengasumsikan bahwa data harus mengikuti distribusi normal atau distribusi lainnya. Namun bagaimana jika ternyata distribusi data kita tidak normal. Jika anda membaca tentang central limit theorem atau robust-nya berbagai teknik analisis statistik paramterik, mungkin Anda akan tetap hajar saja melakukan analisis dengan statistik parametrik, asalkan jumlah sampel Anda cukup besar. Namun jika sampel kita juga tidak cukup banyak dan bahkan penyimpangan terhadap asumsi normalitasnya cukup parah, apa yang harus dilakukan? Sebagai alternatifnya, teknik bootstrap ini dapat digunakan. Misalkan, peneliti memiliki data yang tidak berdistribusi normal dengan jumlah sampel terbatas. Dikarenakan dia tidak memenuhi asumsi normalitas, maka alternatif solusi yang dapat digunakan adalah menggunakan boostrapping.

Tulisan ini merupakan inti sari dan sedikit modifikasi dari tulisan Kuzon, Urbancheck, dan McCabe (1996) yang berjudul “The Seven Deadly Sins of Statistical Analysis”. Meskipun artikel tersebut sudah ditulis lebih dari 20 tahun yang lalu, namun kenyataannya dosa-dosa besar tersebut masih banyak dilakukan oleh para peneliti kuantitatif saat ini. Oleh karena itu tulisan ini hanya sebagai pengingat sekaligus menjelaskan kembali dosa-dosa tersebut bagi yang belum tahu. Ketujuh dosa besar dalam analisis statistik tersebut adalah
