Dalam proses penyusunan tes, item-item yang telah direview secara
kualitatif oleh ahli di bidangnya dapat dinyatakan valid secara isi. Meskipun demikian,
dalam tes prestasi perlu dilakukan analisis tambahan yang bertujuan untuk
memperoleh item-item yang memiliki daya ukur dan daya beda yang tinggi sehingga
tujuan pengkuran yakni untuk membedakan kemampuan satu individu dengan individu
lain dapat tercapai. Prosedur ini sering disebut sebagai analisis dan seleksi
item karena tujuan dari prosedur ini tidak lain adalah mengetahui item-item
mana saja yang layak untuk dipertahankan atau direvisi bahkan dibuang.
Prosedur analisis
dan seleksi item soal berdasarkan teori tes klasik memperhatikan tiga
parameter, yaitu (1)
tingkat kesulitan item, (2) daya diskriminasi item, dan (3) efektivitas
distraktor (Azwar, 2015).
Analisis tersebut dilakukan beradsarkan jawaban subjek terhadap item-item
dalam tes. Meskipun tingkat
kesulitan item dan daya diskriminasi item dihitung secara terpisah, namun dalam evaluasi terhadap item soal
keduanya dilihat sebagai kesatuan komponen yang akan menentukan apakah suatu item
dianggap baik atau tidak (Azwar, 2013). Parameter ketiga yakni efektivitas
distraktor hanya berlaku pada soal berbentuk pilihan ganda.
Tingkat Kesulitan Item
Tingkat kesulitan item merupakan perbandingan antara jumlah penjawab item benar dengan banyaknya penjawab item.
Tingkat kesulitan biasa ditentukan oleh indeks kesukaran dan dilambangkan
dengan p. Indeks
kesukaran item dapat dihitung melalui persamaan berikut.
P = ni / N
N merupakan total subjek yang menjawab item tersebut, sementara ni
merupakan jumlah subjek yang menjawab dengan benar. Indeks kesukaran item berkisar
antara 0 sampai 1, dimana indeks yang mendekati angka 1 berarti item tersebut
semakin mudah. Begitu pula sebaliknya, semakin mendekati angka 0 berarti item
tersebut semakin sulit. Item
soal yang ideal adalah item yang memiliki tingkat kesukaran berada di sekitar
p=0,5, hal ini dikarenakan nilai p=0,5 memungkinkan untuk mendapat varians
terbesar. Rumus varians pada item dikotomi adalah s2=p(1-p), hal ini
berarti varians akan maksimal pada p=0,5. Secara teoritis varians yang maksimal
akan menghasilkan daya diskriminasi yang tinggi pula (Azwar, 2013). Meskipun demikian,
tidak ada acuan pokok dalam menentukan berapa nilai tingkat kesulitan yang
baik. Hal ini dikarenakan tingkat kesulitan sangat bergantung pada tujuan tes
tersebut. Jika tes dilakukan untuk suatu penempatan (placement test), maka tingkat kesulitan disesuaikan secara beragam
mulai dari yang paling mudah sampai yang paling sulit. Namun jika tes dilakukan
untuk suatu seleksi, maka dapat dipilih item-item yang sulit karena yang
dipilih adalah sebagian kecil pelamar saja yang memiliki kemampuan tinggi.
Seperti yang sudah dijelaskan dalam artikel mengenai teori tes klasik,
salah satu keterbatasan dari teori tes klasik adalah adanya sample dependent,
artinya indeks kesukaran yang diperoleh juga bergantung dari dimana tes itu
diujikan. Misalkan soal matematika yang sama, bisa jadi terasa sulit jika
diujikan di sekolah yang berada di pelosok, namun bisa jadi terasa mudah jika
diujikan di sekolah favorit. Tingkat kesulitan item merupakan ukuran bagi
seluruh kelompok subjek, bukan bagi masing-masing individu. Tingkat kesukaran item bagi masing-masing
individu adalah berbeda dan kita tidak dapat mengetahuinya.
Daya Dikskriminasi Item
Daya diskriminasi item
adalah kemampuan item dalam membedakan antara satu subjek dengan subjek
yang lain. Dalam
hal tes kognitif, daya diskriminasi item berarti bertujuan untuk membedakan
individu yang memiliki kemampuan tinggi (pintar) dan kemampuan rendah (bodoh). Suatu item soal dapat dikatakan
memiliki daya diskriminasi yang baik apabila item tersebut dapat dijawab dengan
benar oleh seluruh atau sebagian besar subjek dari kelompok kemampuan tinggi dan
tidak dapat dijawab dengan benar oleh sebagian atau seluruh subjek dari
kelompok kemampuan rendah. Jika proporsi penjawab benar soal dari
kelompok tinggi lebih besar daripada proporsi penjawab benar pada kelompok
rendah, maka daya dikriminasinya tinggi. Namun sebaliknya, jika proporsi penjawab benar soal dari
kelompok rendah lebih besar daripada proporsi penjawab benar pada kelompok tinggi,
maka daya dikriminasinya rendah. Item yang demikian bisa jadi menyesatkan, bisa
jadi soal
tersebut salah kunci atau
sulit dipahami kalimatnya (Azwar,
2013).
Secara sederhana,
daya diskriminasi merupakan perbedaan proporsi penjawab benar kelompok kemampuan
tinggi (PT) dan penjawab benar kelompok kemampuan rendah (PR).
Rumus untuk menghitung daya diskriminasi
butir dapat dituliskan sebagai berikut (Azwar, 2013).
d = PT - PR
Seperti rumus dalam indeks kesukaran, PT merupakan rasio antara banyaknya
butir yang dijawab benar di kelompok tinggi (niT) dengan banyaknya penjawab
dari kelompok tinggi (NT). Begitu pula proporsi (PR) adalah rasio
antara banyaknya butir yang dijawab benar di kelompok rendah (niR) dengan
banyaknya penjawab dari kelompok rendah (NR). Sehingga rumus
di atas dapat dijabarkan sebagai berikut.
Bila sampel yang digunakan sedikit, kelompok tinggi dapat dijelaskan
sebagai 50% subjek yang memiliki skor tertinggi sedangkan kelompok rendah
merupakan 50% subjek yang memiliki skor terendah. Namun jika subjek yang
digunakan cukup banyak, maka dapat ditentukan kelompok tinggi sebagai 27% dari
seluruh subjek dengan skor tertinggi dan kelompok rendah adalah 27% dari
seluruh subjek dengan skor terendah. Sedangkan sisanya 46% subjek termasuk
dalam kelompok sedang dan tidak disertakan dalam analisis.
Selain diestimasi melalui indeks daya diskriminasi item, daya beda juga
bisa diestimasi melalui korelasi item-total. Dasar yang digunakan dalam
analisis item ini adalah memilih item-item yang fungsi ukurnya sesuai dengan fungsi
ukur tes secara keseluruhan. Koefisien korelasi item-total dapat dihitung
dengan korelasi product moment Pearson yang
berkisar antara -1 sampai dengan 1. Item
yang memiliki koefisien korelasi item-total mendekati 1 berarti baik dalam
membedakan individu, sedangkan item yang memiliki koefisien korelasi item-total
mendekati -1 berarti menyesatkan. Azwar (2015) menjelaskan bahwa dalam kaitannya
dengan hasil komputasi koefisien korelasi antara korelasi item dengan skor
test, item yang ada dalam tes dikhawatirkan dapat mengakibatkan over estimate dikarenakan besarnya
kontribusi item dalam menentukan skor test. Keadaan inilah yang disebut spurious overlap. Untuk menghilangkan
efek spurious overlap tersebut maka
koefisien korelasi item total yang dihitung dengan korelasi product moment Pearson dikoreksi dengan
nilai Deviasi Standar. Formula ini kemudian menghasilkan koefisien yang dikenal
dengan corrected item-total correlation
coefficient. Namun jika jumlah item cukup banyak (di atas 30), efek
tersebut bisa diabaikan.
Pada tes yang dikotomi (skor item terdiri dari 1 dan 0), koefisien korelasi
item-total dapat dihitung dengan formula korelasi point-biserial (rpbis).
Rumus untuk menghitung korelasi point-biserial (rpbis) adalah
sebagai berikut
Indeks daya diskriminasi berkisar antara -1 sampai dengan 1. Dalam seleksi
item, ada beberapa ahli yang mengungkapkan nilai minimal daya diskriminasi item
yang diperlukan. Meskipun tidak ada pendapat yang mutlak yang mengatakan berapa
nilai indeks diskriminasi minimal yang ditetapkan dalam seleksi item, namun
prinsip umum yang digunakan adalah memilih item dengan indeks daya diskriminasi
item yang tinggi. Sebagai gambaran Ebel (dalam Azwar, 2015) menyarankan
penggunaan kriteria evaluasi terhadap indeks diskriminasi item ebagai berikut.
Indeks
Diskriminasi
|
Evaluasi
|
>0,40
|
Bagus sekali
|
0,30 – 0,39
|
Lumayan bagus, tapi masih perlu
peningkatan
|
0,20 – 0,29
|
Belum memuaskan, perlu perbaikan
|
<0,20
|
Jelek dan item harus dibuang
|
Efektivitas Disktraktor
Efektivitas distraktor hanya digunakan dalam soal yang berbentuk pilihan
ganda. Efektivitas distraktor digunakan untuk melihat apakah pilihan jawaban
distraktor (yang bukan kunci jawaban) berfungsi sebagaimana mestinya, yaitu
dipilih oleh sebagian besar subjek dari kelompok rendah dan hanya sedikit
dipilih oleh kelompok dengan abilitas tinggi. Distraktor dapat dikatakan
efektif apabila (a) dipilih oleh mayoritas atau seluruh subjek dari kelompok
abilitas rendah, dan (b) jawaban yang dipilih oleh kelompok tersebut menyebar
secara merata pada masing-masing distraktor (Azwar, 2013).
Referensi
Azwar, S. (2013). Penyusunan Skala Psikologi Edisi 2. Yogyakarta: Pustaka Pelajar.
Azwar, S. (2015). Konstruksi Tes Kemampuan Kognitif. Yogyakarta: Pustaka Pelajar
thank you banget, postnya berguna, disertai dengan sitasi dan daftar pustaka da bes. God bless
ReplyDelete