Telah dijelaskan di artikel sebelumnya
mengenai prosedur
analisis dan seleksi item menggunakan Teori Tes Klasik. Jika pada teori tes
klasik parameter yang digunakan untuk seleksi item ada tiga, yaitu tingkat
kesulitan, daya diskriminasi, dan efektivitas distraktor, tulisan ini akan
menjelaskan alternatif prosedur analisis dan seleksi item menggunakan teori
modern yakni dengan pendekatan Rasch model. Perbedaan mendasar antara kedua
teori ini terletak pada hasil analisisnya. Teori tes klasik bersifat sample
dependent sementara teori tes modern bersifat sample free.
Beberapa pertimbangan yang dijadikan dasar dalam analisis item menggunakan
Rasch model adalah adanya beberapa kriteria, yakni tingkat kesesuaian butir (item fit), taraf kesukaran, daya
diskriminasi Rasch, dan fungsi informasi butir.
Tingkat Kesesuaian Butir (Item Fit)
Butir soal yang cocok (fit) berarti soal tersebut
berperilaku secara konsisten dengan apa yang diharapkan oleh model (Benyamin,
1998). Apabila
ditemukan bahwa soal tidak fit, hal ini merupakan indikasi bahwa terjadi miskonsepsi
pada siswa terhadap butir soal tersebut. Beberapa indeks fit disediakan dalam
analisis Rasch adalah Person Infit ZSTD, Person Outfit
ZSTD, Person Infit MNSQ, Person Outfit MNSQ, Item Infit ZSTD, Item Outfit ZSTD,
Item Infit MNSQ, dan Item Outfit MNSQ (Boone, Staver,
& Yale, 2014).
Nilai MNSQ selalu positif dan bergerak dari nol (0) hingga tak
hingga (∞). Dalam hal ini nilai MNSQ digunakan untuk memantau kesesuaian data
dengan model. Nilai mean square yang diharapkan adalah 1
(satu). Nilai mean-square pada infit atau outfit yang lebih
besar daripada satu, katakanlah 1,3 mengindikasikan bahwa data yang diobservasi
memiliki 30% variasi lebih banyak daripada yang diprediksi oleh Rasch. Nilai
infit atau outfit kurang dari 1, katakanlah 0,78 (1-0,22=0,78) mengindikasikan
bahwa data yang diobservasi memiliki 22% variasi lebih sedikit daripada yang
diprediksi oleh Rasch model (Bond & Fox, 2015).
Sedangkan Nilai z
yang diharapkan adalah mendekati 0 (nol). Ketika data yang diobservasi
sesuai dengan model, nilai z memiliki rerata mendekati 0 dan standar deviasinya
1. Nilai ZSTD yang terlalu besar (z > +2) atau terlalu rendah (z < -2)
menunjukkan bahwa butir tidak kompatibel dengan model yang diharapkan. Nilai z
terstandar (ZSTD) pada infit dan outfit dapat berupa positif atau negatif.
Nilai ZSTD negatif menunjukkan sedikitnya variasi dibandingkan pada model. Respons
jawaban mendekati model Guttman-style response string yaitu
semua subjek dengan kemampuan tinggi mampu menjawab dengan benar dan semua
subjek dengan kemampuan rendah menjawab salah pada butir tersebut. Sementara
nilai positif menunjukkan bahwa variasi jawaban lebih banyak dibandingkan pada
model. Respons jawaban tidak teratur dan tidak dapat diprediksi (Bond &
Fox, 2015).
Menurut Boone, et al. (2014), kriteria yang
digunakan kriteria yang digunakan untuk memeriksa butir soal yang sesuai adalah
1. Nilai Outfit Mean Square (MNSQ) yang diterima
: 0,5 < MNSQ < 1,5
2. Nilai outfit Z-standard (ZSTD) yang diterima:
-2,0 < ZSTD < +2,0
Jika butir soal pada kedua kriteria tersebut
tidak terpenuhi, itu artinya butir soal tersebut tidak bagus dan perlu direvisi
atau diganti. Berbeda dengan tingkat kesulitan item yang sifatnya konsisten,
tingkat kesesuaian item ini sangat dipengaruhi oleh besarnya ukuran sampel.
Kesalahan kunci jawaban, banyaknya individu yang asal-asalan dalam mengerjakan
soal, dan soal yang memiliki daya beda rendah dapat menurunkan nilai keseuaian
item. Yang perlu dicermati lainnya adalah, nilai ZSTD ini sangat sensitif
terhadap jumlah sampel. Apabila sampel yang digunakan jumlahnya besar
(>500), ada kecenderungan untuk nilai ZSTD ini memiliki nilai di atas 3.
Oleh karena itu, beberapa ahli merekomendasikan untuk tidak menggunakan
kriteria ZSTD ini jika sampel yang digunakan cukup besar (Suminto &
Widhiarso, 2015).
Daya Diskriminasi Rasch (Point Measure Correlation)
Daya Diskriminasi Rasch atau nilai korelasi
skor butir dan skor Rasch (Pt Measure Corr) pada prinsipnya sama dengan
daya diskriminasi item yang diukur dengan pendekatan teori tes klasik. Hanya
saja jika pada teori tes klasik komputasinya menggunakan skor mentah,
pada Pt Measure Corr yang digunakan adalah skor measure. Nilai Pt Measure Corr 1,0 mengindikasikan bahwa semua peserta tes dengan abilitas rendah
menjawab butir dengan salah dan semua peserta tes dengan abilitas tinggi
menjawab butir dengan benar. Sementara nilai Pt Measure Corr negatif
mengindikasikan butir soal yang menyesatkan karena peserta
tes dengan kemampuan rendah mampu menjawab butir dengan benar dan peserta tes
dengan kemampuan tinggi justru menjawab salah. Soal-soal dengan nilai
korelasi negatif harus diperiksa untuk melihat apakah kunci jawaban salah,
perlu direvisi, atau dihapus dari tes (Smiley, 2015).
Seperti pada teori tes klasik, nilai korelasi skor butir dan skor Rasch yang ideal adalah yang positif serta tidak mendekati nol.
Beberapa ahli mempunyai pendapat tentang berapa nilai Pt Measure
Corr yang disyaratkan. Alagumalai,
Curtis, & Hungi (2005) mengklasifikasikan nilai tersebut menjadi sangat
bagus (>0,40), bagus (0,30–0,39), cukup (0,20-0,29), tidak mampu
mendiskriminasi (0,00-0,19), dan membutuhkan pemeriksaan terhadap butir (<0,00).
Tingkat Kesulitan Butir (Item Measure)
Tingkat kesulitan butir pada model Rasch pada dasarnya sama dengan taraf kesukaran teori tes klasik, yaitu perbandingan antara jumlah jawaban benar dengan jumlah soal yang diujikan (odd-ratio). Hanya saja yang membedakan adalah, nilai peluang itu kemudian diskalakan dengan memasukkan fungsi logaritma. Hasil estimasi logit dari odd-ratio inilah yang disebut logit atau W-score atau nilai measure. Jika pada teori tes klasik nilai indeks kesukaran yang tinggi berarti soal tersebut mudah, pada Rasch model nilai logit yang tinggi menunjukkan item tersebut sulit. Sama seperti dalam teori tes klasik, tidak ada patokan berapa tingkat kesulitan yang diterima dalam tes. Hal ini bergantung dari tujuan tes itu sendiri. Manfaat praktis terkait tingkat kesulitan item akan dijelaskan pada bagian fungsi informasi item.
Fungsi Informasi Butir
Setiap pengukuran menghasilkan informasi mengenai hasil
pengukuran. Informasi pengukuran yang diinginkan bukan berdasar pada individu
yang diukur, melainkan informasi pada fokus pengukuran. Informasi pengukuran
ini berdasar pada hubungan antara tes dengan individu (Sumintono &
Widhiarso, 2015). Contoh
kasus yang bisa menggambarkan fungsi informasi item ini adalah ketika kita
menyajikan soal matematika tentang kalkulus kepada siswa SD, tentu kita tidak
akan mendapatkan informasi apa-apa, hampir semua siswa akan menjawab dengan
salah. Namun jika soal itu diberikan kepada siswa SMA, kita akan mendapatkan
informasi yang banyak. Ada beberapa siswa menjawab benar dan ada beberapa yang
menjawab salah. Semakin banyak variasi yang
terjadi semakin banyak informasi yang akan didapatkan.
Gambar di atas menjelaskan contoh grafik
fungsi informasi item. Sumbu X menunjukkan level abilitas responden sedangkan
sumbu Y menunjukkan besarnya fungsi informasi. Dari gambar tersebut dapat kita
lihat bahwa item merah akan memberikan banyak informasi jika diberikan pada
subjek dengan level abilitas rendah, sedangkan item hitam akan memberikan
fungsi informasi yang tinggi jika disajikan pada subjek dengan level abilitas
tinggi. Selain menyajikan fungsi informasi item, Rasch juga mampu menyajikan
fungsi informasi tes secara keseluruhan.
Sumintono dan Widhiarso (2015) menjelaskan
beberapa manfaat dari fungsi informasi tes adalah sebagai berikut:
- Fungsi informasi akan menunjukkan untuk apa pengukuran dilakukan. Sebagai contoh, untuk tes screening, tes remidi, dan tes untuk Anak Berkebutuhan Khusus memusatkan tes dengan fungsi informasi seperti grafik warna merah. Sebaliknya jika tes dilakukan untuk seleksi yang ketat, fungsi informasi tes yang dibutuhkan adalah tes dengan fungsi informasi seperti pada grafik warna hitam.
- Fungsi informasi menunjukkan reliabilitas pengukuran yang dilakukan. Model Rasch menekankan pada koefisien separasi (item separation). Semakin tinggi puncak informasi yang dapat dicapai, semakin tinggi nilai reliabilitas pengukuran yang dilakukan.
Bias Butir
Bias butir sebenarnya bukanlah karakteristik
yang dijadikan pertimbangan utama dalam seleksi item. Meskipun demikian
informasi mengenai adanya item yang bias sangat berpengaruh terhadap akurasi
pengukuran. Suati butir disebut bias jika didapati bahwa individu dengan
karakteristik tertentu lebih diuntungkan dalam menjawab soal dibanding individu
dengan karakteristik lain. misalnya, suatu soal bisa lebih mudah dijawab oleh
orang yang tinggal di kota daripada orang yang tinggal di desa. Dalam model
Rasch, bias butir dapat dideteksi dengan DIF (differential item
functioning). Item-item yang terdidentifikasi DIF (p<0,05) disarankan
untuk direview ulang dan jika dirasa perlu direvisi atau diganti.
Untuk teknis analisis item menggunakan Rasch model dengan Winstep dapat dilihat di sini
Referensi
Alagumalai, S., Curtis, D. D., & Hungi, N. (2005). Applied
Rasch Measurement: A Book of Exemplars. Dordrecht: Springer
Benyamin, J. C. (1998). Analisis Kualitas Soal Ebtanas
PPKn SMU Tahun Pelajaran 1996/1997 dengan Pendekatan Model Rasch di provinsi
Nusa Tenggara Timur. Yogyakarta: Universitas Gadjah Mada.
Bond, T. G., & Fox, M. C. (2015). Applying the Rasch
Model Fundamental Measurement in the Human Sciences Third Edition. New
York: Routledge.
Boone, W. J., Staver, R. J., & Yale, S. M. (2014). Rasch
Analysis in the Human Sciences. London: Springer.
Smiley, J. (2015, April). Classical test theory or Rasch: A
personal account from a novice user. SHIKEN, hal. 16-31.
Sumintono, B., & Widhiarso, W. (2015). Aplikasi Pemodelan
Rasch pada Assessment Pendidikan. Cimahi: Trim Komunikata.
Mantep mas hanif, salam serenity :)
ReplyDeleteSalam serenity :)
DeleteSelamat Malam Mas Hanif, sebelumnya terimakasih karena artikel ini sangat membantu.Saya Dea seorang mahasiswi yang sedang melakukan penelitian menggunakan Rasch Model, apakah saya bisa menanyakan lebih lanjut mengenai hal ini? Jika boleh, apakah Mas Hanif berkenan memberikan alamat email agar saya bisa leluasa bertanya?
ReplyDeleteMonggo saja mbak, bisa kontak di [email protected]
DeleteMas hanif. Saya sudah kirim sesuatu lewat email tsb. Mohon direspon ya
DeleteTrimakasih
Untuk mendeteksi bias butir bisa gak pake aplikasi QUEST?jika bisa, dimna kita bisa lihat outputnya?
ReplyDeletehttps://www.tecnoblog.guru/2017/03/alojamiento-web-dominio.html?sc
ReplyDelete