Perbedaan Classical Test Theory (CTT), Item Response Theory (IRT), dan Rasch Model

 


Analisis item dalam psikometri pada umumnya dapat dibagi menjadi dua pendekatan: Classical Test Theory (CTT) dan Item Response Theory (IRT). CTT merupakan pendekatan yang paling populer dan paling banyak digunakan oleh peneliti Indonesia. CTT  memfokuskan hasil pengukuran pada skor total dari item-item tes. Satu hal yang paling menarik dari CTT ada kemudahan dalam menghitungnya, sehingga tidak diperlukan keahlian khusus untuk memahami hasil analisisnya. Selain itu, CTT juga lebih mudah digunakan untuk komunikasi publik karena secara intuitif, orang akan lebih mudah menerima bahwa orang yang memiliki skor total tinggi memiliki kemampuan yang tinggi pula.

Namun demikian CTT memiliki beberapa ketebatasan. Yang paling utama adalah, tingkat kesulitan item tidak bebas dari sampel yang digunakan; sebaliknya, hasil pengukuran juga tidak terlepas dari tingkat kesulitan item yang digunakan. Jika individu secara acak menerima soal yang sulit, maka besar kemungkinan skor totalnya akan rendah, berbeda dengan jika individu tersebut secara acak menerima soal yang mudah. Begitu juga sebaliknya, jika suatu item dikerjakan oleh orang-orang yang jenius, maka item tersebut akan nampak mudah, berbeda dengan jika item tersebut dikerjakan oleh orang dengan kemampuan rendah. Karena sifat CTT yang sampel-dependent dan item-dependent inilah yang membuat perbandingan antar tes atau perbandingan antar individu lebih rumit dilakukan. Selain itu, peneliti juga tidak bisa membuat item bank untuk Computerized Adaptive Testing dengan CTT.

Pendekatan lainnya adalah dengan IRT yang mampu mengatasi keterbatasan CTT. IRT sendiri merupakan keluarga besar dalam analisis item. Ada beberapa model dalam IRT, seperti model untuk item dikotomi (jawaban benar-salah), model untuk item politomi (misal: likert), model unidimensi, dan model multidimensi. Berdasarkan jumlah parameternya, IRT juga memiliki banyak jenis, seperti model 1PL (hanya tingkat kesulitan butir), 2PL (tingkat kesulitan dan diskriminasi), 3PL (tingkat kesulitan, diskriminasi, dan tebakan semu), dan 4PL (tingkat kesulitan, diskriminasi, tebakan semu, dan kecerobohan).

Dengan semangat yang sama, ada juga model Rasch. Rasch secara matematis sama dengan IRT 1PL, namun memiliki tujuan filosofis yang berbeda. IRT adalah model deskriptif yang tujuannya adalah mencari model mana yang paling cocok menggambarkan data. Misal, data diuji dengan model 1PL dan tidak cocok, maka dicari alternatif model lain dengan menambah parameter lain, misal dengan 2PL, 3PL, atau 4PL. Sementara Rasch adalah model preskriptif yang tujuannya adalah mencocokan data dengan model. Jika data tidak cocok dengan model ideal Rasch, maka perlu diagnosa mengapa data ini tidak cocok. Langkah yang dilakukan bisa dengan menghapus item atau menghapus data dari orang-orang yang pola jawabannya “aneh”. Dengan kata lain, Rasch mendewakan model, sementara IRT mendewakan data.

Apa konsekuensi dari perbedaan Rasch dan IRT ini? Karena Rasch selalu berusaha agar data cocok dengan model, sementara model tidak akan berubah-ubah, maka pendukung Rasch berpendapat bahwa pengukuran yang objektif hanya bisa dicapai dengan Rasch. Pada Rasch, semua item memiliki diskriminasi yang setara, sehingga tidak ada item yang memiliki bobot lebih dalam menentukan skor akhir. Dengan demikian, skor total sebenarnya sudah bisa memberikan informasi yang cukup untuk mengukur suatu konstruk, asalkan asumsi Rasch terpenuhi. Oleh karena itu, hasil pengukuran dengan Rasch dan dengan CTT (skor total) selalu menghasilkan korelasi yang tinggi, lebih dari 0,90.

Sementara itu, IRT mengaggap tiap item itu unik. Mengasumsikan semua item memiliki diskriminasi yang setara sangat tidak masuk akal dalam realitanya. Oleh karenanya IRT membebaskan diskriminasi item bervariasi sesuai dengan data aslinya. Konsekuensinya, tiap item memiliki bobot yang berbeda dalam menentukan skor akhir. Item dengan diskriminasi tinggi akan memiliki bobot lebih besar. Pada model 3PL, parameter tebakan semua juga diizinkan bervariasi. Item dengan tebakan semu lebih rendah akan memiliki bobot lebih dalam menentukan skor akhir. Dengan demikian, skor akhir tidak hanya ditentukan oleh jumlah jawaban benar, tapi juga item mana yang dijawab benar. Korelasi antara skor total dengan skor akhir pada IRT pada akhirnya akan lebih rendah.

 

 

 Perbedaan Classical Test Theory (CTT), Item Response Theory (IRT), dan Rasch Model

 


Analisis item dalam psikometri pada umumnya dapat dibagi menjadi dua pendekatan: Classical Test Theory (CTT) dan Item Response Theory (IRT). CTT merupakan pendekatan yang paling populer dan paling banyak digunakan oleh peneliti Indonesia. CTT  memfokuskan hasil pengukuran pada skor total dari item-item tes. Satu hal yang paling menarik dari CTT ada kemudahan dalam menghitungnya, sehingga tidak diperlukan keahlian khusus untuk memahami hasil analisisnya. Selain itu, CTT juga lebih mudah digunakan untuk komunikasi publik karena secara intuitif, orang akan lebih mudah menerima bahwa orang yang memiliki skor total tinggi memiliki kemampuan yang tinggi pula.

Namun demikian CTT memiliki beberapa ketebatasan. Yang paling utama adalah, tingkat kesulitan item tidak bebas dari sampel yang digunakan; sebaliknya, hasil pengukuran juga tidak terlepas dari tingkat kesulitan item yang digunakan. Jika individu secara acak menerima soal yang sulit, maka besar kemungkinan skor totalnya akan rendah, berbeda dengan jika individu tersebut secara acak menerima soal yang mudah. Begitu juga sebaliknya, jika suatu item dikerjakan oleh orang-orang yang jenius, maka item tersebut akan nampak mudah, berbeda dengan jika item tersebut dikerjakan oleh orang dengan kemampuan rendah. Karena sifat CTT yang sampel-dependent dan item-dependent inilah yang membuat perbandingan antar tes atau perbandingan antar individu lebih rumit dilakukan. Selain itu, peneliti juga tidak bisa membuat item bank untuk Computerized Adaptive Testing dengan CTT.

Pendekatan lainnya adalah dengan IRT yang mampu mengatasi keterbatasan CTT. IRT sendiri merupakan keluarga besar dalam analisis item. Ada beberapa model dalam IRT, seperti model untuk item dikotomi (jawaban benar-salah), model untuk item politomi (misal: likert), model unidimensi, dan model multidimensi. Berdasarkan jumlah parameternya, IRT juga memiliki banyak jenis, seperti model 1PL (hanya tingkat kesulitan butir), 2PL (tingkat kesulitan dan diskriminasi), 3PL (tingkat kesulitan, diskriminasi, dan tebakan semu), dan 4PL (tingkat kesulitan, diskriminasi, tebakan semu, dan kecerobohan).

Dengan semangat yang sama, ada juga model Rasch. Rasch secara matematis sama dengan IRT 1PL, namun memiliki tujuan filosofis yang berbeda. IRT adalah model deskriptif yang tujuannya adalah mencari model mana yang paling cocok menggambarkan data. Misal, data diuji dengan model 1PL dan tidak cocok, maka dicari alternatif model lain dengan menambah parameter lain, misal dengan 2PL, 3PL, atau 4PL. Sementara Rasch adalah model preskriptif yang tujuannya adalah mencocokan data dengan model. Jika data tidak cocok dengan model ideal Rasch, maka perlu diagnosa mengapa data ini tidak cocok. Langkah yang dilakukan bisa dengan menghapus item atau menghapus data dari orang-orang yang pola jawabannya “aneh”. Dengan kata lain, Rasch mendewakan model, sementara IRT mendewakan data.

Apa konsekuensi dari perbedaan Rasch dan IRT ini? Karena Rasch selalu berusaha agar data cocok dengan model, sementara model tidak akan berubah-ubah, maka pendukung Rasch berpendapat bahwa pengukuran yang objektif hanya bisa dicapai dengan Rasch. Pada Rasch, semua item memiliki diskriminasi yang setara, sehingga tidak ada item yang memiliki bobot lebih dalam menentukan skor akhir. Dengan demikian, skor total sebenarnya sudah bisa memberikan informasi yang cukup untuk mengukur suatu konstruk, asalkan asumsi Rasch terpenuhi. Oleh karena itu, hasil pengukuran dengan Rasch dan dengan CTT (skor total) selalu menghasilkan korelasi yang tinggi, lebih dari 0,90.

Sementara itu, IRT mengaggap tiap item itu unik. Mengasumsikan semua item memiliki diskriminasi yang setara sangat tidak masuk akal dalam realitanya. Oleh karenanya IRT membebaskan diskriminasi item bervariasi sesuai dengan data aslinya. Konsekuensinya, tiap item memiliki bobot yang berbeda dalam menentukan skor akhir. Item dengan diskriminasi tinggi akan memiliki bobot lebih besar. Pada model 3PL, parameter tebakan semua juga diizinkan bervariasi. Item dengan tebakan semu lebih rendah akan memiliki bobot lebih dalam menentukan skor akhir. Dengan demikian, skor akhir tidak hanya ditentukan oleh jumlah jawaban benar, tapi juga item mana yang dijawab benar. Korelasi antara skor total dengan skor akhir pada IRT pada akhirnya akan lebih rendah.

 

 

Artikel Lainnya