Analisis
item dalam psikometri pada umumnya dapat dibagi menjadi dua pendekatan:
Classical Test Theory (CTT) dan Item Response Theory (IRT). CTT merupakan
pendekatan yang paling populer dan paling banyak digunakan oleh peneliti Indonesia.
CTT memfokuskan hasil pengukuran pada
skor total dari item-item tes. Satu hal yang paling menarik dari CTT ada kemudahan
dalam menghitungnya, sehingga tidak diperlukan keahlian khusus untuk memahami
hasil analisisnya. Selain itu, CTT juga lebih mudah digunakan untuk komunikasi
publik karena secara intuitif, orang akan lebih mudah menerima bahwa orang yang
memiliki skor total tinggi memiliki kemampuan yang tinggi pula.
Namun
demikian CTT memiliki beberapa ketebatasan. Yang paling utama adalah, tingkat
kesulitan item tidak bebas dari sampel yang digunakan; sebaliknya, hasil
pengukuran juga tidak terlepas dari tingkat kesulitan item yang digunakan. Jika
individu secara acak menerima soal yang sulit, maka besar kemungkinan skor
totalnya akan rendah, berbeda dengan jika individu tersebut secara acak
menerima soal yang mudah. Begitu juga sebaliknya, jika suatu item dikerjakan
oleh orang-orang yang jenius, maka item tersebut akan nampak mudah, berbeda
dengan jika item tersebut dikerjakan oleh orang dengan kemampuan rendah. Karena
sifat CTT yang sampel-dependent dan item-dependent inilah yang
membuat perbandingan antar tes atau perbandingan antar individu lebih rumit
dilakukan. Selain itu, peneliti juga tidak bisa membuat item bank untuk Computerized
Adaptive Testing dengan CTT.
Pendekatan
lainnya adalah dengan IRT yang mampu mengatasi keterbatasan CTT. IRT sendiri merupakan
keluarga besar dalam analisis item. Ada beberapa model dalam IRT, seperti model
untuk item dikotomi (jawaban benar-salah), model untuk item politomi (misal:
likert), model unidimensi, dan model multidimensi. Berdasarkan jumlah
parameternya, IRT juga memiliki banyak jenis, seperti model 1PL (hanya tingkat
kesulitan butir), 2PL (tingkat kesulitan dan diskriminasi), 3PL (tingkat
kesulitan, diskriminasi, dan tebakan semu), dan 4PL (tingkat kesulitan,
diskriminasi, tebakan semu, dan kecerobohan).
Dengan
semangat yang sama, ada juga model Rasch. Rasch secara matematis sama dengan
IRT 1PL, namun memiliki tujuan filosofis yang berbeda. IRT adalah model
deskriptif yang tujuannya adalah mencari model mana yang paling cocok menggambarkan
data. Misal, data diuji dengan model 1PL dan tidak cocok, maka dicari alternatif
model lain dengan menambah parameter lain, misal dengan 2PL, 3PL, atau 4PL. Sementara
Rasch adalah model preskriptif yang tujuannya adalah mencocokan data dengan
model. Jika data tidak cocok dengan model ideal Rasch, maka perlu diagnosa
mengapa data ini tidak cocok. Langkah yang dilakukan bisa dengan menghapus item
atau menghapus data dari orang-orang yang pola jawabannya “aneh”. Dengan kata
lain, Rasch mendewakan model, sementara IRT mendewakan data.
Apa
konsekuensi dari perbedaan Rasch dan IRT ini? Karena Rasch selalu berusaha agar
data cocok dengan model, sementara model tidak akan berubah-ubah, maka pendukung
Rasch berpendapat bahwa pengukuran yang objektif hanya bisa dicapai dengan Rasch.
Pada Rasch, semua item memiliki diskriminasi yang setara, sehingga tidak ada
item yang memiliki bobot lebih dalam menentukan skor akhir. Dengan demikian, skor
total sebenarnya sudah bisa memberikan informasi yang cukup untuk mengukur
suatu konstruk, asalkan asumsi Rasch terpenuhi. Oleh karena itu, hasil
pengukuran dengan Rasch dan dengan CTT (skor total) selalu menghasilkan
korelasi yang tinggi, lebih dari 0,90.
Sementara
itu, IRT mengaggap tiap item itu unik. Mengasumsikan semua item memiliki diskriminasi
yang setara sangat tidak masuk akal dalam realitanya. Oleh karenanya IRT
membebaskan diskriminasi item bervariasi sesuai dengan data aslinya.
Konsekuensinya, tiap item memiliki bobot yang berbeda dalam menentukan skor
akhir. Item dengan diskriminasi tinggi akan memiliki bobot lebih besar. Pada model
3PL, parameter tebakan semua juga diizinkan bervariasi. Item dengan tebakan
semu lebih rendah akan memiliki bobot lebih dalam menentukan skor akhir. Dengan
demikian, skor akhir tidak hanya ditentukan oleh jumlah jawaban benar, tapi
juga item mana yang dijawab benar. Korelasi antara skor total dengan skor akhir
pada IRT pada akhirnya akan lebih rendah.