Pedoman Analisis Item Menggunakan Pendekatan Teori Tes Klasik

Dalam proses penyusunan tes, item-item yang telah direview secara kualitatif oleh ahli di bidangnya dapat dinyatakan valid secara isi. Meskipun demikian, dalam tes prestasi perlu dilakukan analisis tambahan yang bertujuan untuk memperoleh item-item yang memiliki daya ukur dan daya beda yang tinggi sehingga tujuan pengkuran yakni untuk membedakan kemampuan satu individu dengan individu lain dapat tercapai. Prosedur ini sering disebut sebagai analisis dan seleksi item karena tujuan dari prosedur ini tidak lain adalah mengetahui item-item mana saja yang layak untuk dipertahankan atau direvisi bahkan dibuang.

Prosedur analisis dan seleksi item soal berdasarkan teori tes klasik memperhatikan tiga parameter, yaitu (1) tingkat kesulitan item, (2) daya diskriminasi item, dan (3) efektivitas distraktor (Azwar, 2015). Analisis tersebut dilakukan beradsarkan jawaban subjek terhadap item-item dalam tes. Meskipun tingkat kesulitan item dan daya diskriminasi item dihitung secara terpisah, namun dalam evaluasi terhadap item soal keduanya dilihat sebagai kesatuan komponen yang akan menentukan apakah suatu item dianggap baik atau tidak (Azwar, 2013). Parameter ketiga yakni efektivitas distraktor hanya berlaku pada soal berbentuk pilihan ganda.

Tingkat Kesulitan Item   
Tingkat kesulitan item merupakan perbandingan antara jumlah penjawab item benar dengan banyaknya penjawab item. Tingkat kesulitan biasa ditentukan oleh indeks kesukaran dan dilambangkan dengan p. Indeks kesukaran item dapat dihitung melalui persamaan berikut.

  P = ni / N

N merupakan total subjek yang menjawab item tersebut, sementara ni merupakan jumlah subjek yang menjawab dengan benar. Indeks kesukaran item berkisar antara 0 sampai 1, dimana indeks yang mendekati angka 1 berarti item tersebut semakin mudah. Begitu pula sebaliknya, semakin mendekati angka 0 berarti item tersebut semakin sulit. Item soal yang ideal adalah item yang memiliki tingkat kesukaran berada di sekitar p=0,5, hal ini dikarenakan nilai p=0,5 memungkinkan untuk mendapat varians terbesar. Rumus varians pada item dikotomi adalah s2=p(1-p), hal ini berarti varians akan maksimal pada p=0,5. Secara teoritis varians yang maksimal akan menghasilkan daya diskriminasi yang tinggi pula (Azwar, 2013). Meskipun demikian, tidak ada acuan pokok dalam menentukan berapa nilai tingkat kesulitan yang baik. Hal ini dikarenakan tingkat kesulitan sangat bergantung pada tujuan tes tersebut. Jika tes dilakukan untuk suatu penempatan (placement test), maka tingkat kesulitan disesuaikan secara beragam mulai dari yang paling mudah sampai yang paling sulit. Namun jika tes dilakukan untuk suatu seleksi, maka dapat dipilih item-item yang sulit karena yang dipilih adalah sebagian kecil pelamar saja yang memiliki kemampuan tinggi.    

Seperti yang sudah dijelaskan dalam artikel mengenai teori tes klasik, salah satu keterbatasan dari teori tes klasik adalah adanya sample dependent, artinya indeks kesukaran yang diperoleh juga bergantung dari dimana tes itu diujikan. Misalkan soal matematika yang sama, bisa jadi terasa sulit jika diujikan di sekolah yang berada di pelosok, namun bisa jadi terasa mudah jika diujikan di sekolah favorit. Tingkat kesulitan item merupakan ukuran bagi seluruh kelompok subjek, bukan bagi masing-masing individu. Tingkat kesukaran item bagi masing-masing individu adalah berbeda dan kita tidak dapat mengetahuinya.

Daya Dikskriminasi Item
Daya diskriminasi item adalah kemampuan item dalam membedakan antara satu subjek dengan subjek yang lain. Dalam hal tes kognitif, daya diskriminasi item berarti bertujuan untuk membedakan individu yang memiliki kemampuan tinggi (pintar) dan kemampuan rendah (bodoh). Suatu item soal dapat dikatakan memiliki daya diskriminasi yang baik apabila item tersebut dapat dijawab dengan benar oleh seluruh atau sebagian besar subjek dari kelompok kemampuan tinggi dan tidak dapat dijawab dengan benar oleh sebagian atau seluruh subjek dari kelompok kemampuan rendah. Jika proporsi penjawab benar soal dari kelompok tinggi lebih besar daripada proporsi penjawab benar pada kelompok rendah, maka daya dikriminasinya tinggi. Namun sebaliknya,  jika proporsi penjawab benar soal dari kelompok rendah lebih besar daripada proporsi penjawab benar pada kelompok tinggi, maka daya dikriminasinya rendah. Item yang demikian bisa jadi menyesatkan, bisa jadi soal tersebut salah kunci atau sulit dipahami kalimatnya (Azwar, 2013).

Secara sederhana, daya diskriminasi merupakan perbedaan proporsi penjawab benar kelompok kemampuan tinggi (PT) dan penjawab benar kelompok kemampuan rendah (PR). Rumus untuk menghitung daya diskriminasi butir dapat dituliskan sebagai berikut (Azwar, 2013).

  d = PT - PR

Seperti rumus dalam indeks kesukaran, PT merupakan rasio antara banyaknya butir yang dijawab benar di kelompok tinggi (niT) dengan banyaknya penjawab dari kelompok tinggi (NT). Begitu pula proporsi (PR) adalah rasio antara banyaknya butir yang dijawab benar di kelompok rendah (niR) dengan banyaknya penjawab dari kelompok rendah (NR). Sehingga rumus di atas dapat dijabarkan sebagai berikut.


Bila sampel yang digunakan sedikit, kelompok tinggi dapat dijelaskan sebagai 50% subjek yang memiliki skor tertinggi sedangkan kelompok rendah merupakan 50% subjek yang memiliki skor terendah. Namun jika subjek yang digunakan cukup banyak, maka dapat ditentukan kelompok tinggi sebagai 27% dari seluruh subjek dengan skor tertinggi dan kelompok rendah adalah 27% dari seluruh subjek dengan skor terendah. Sedangkan sisanya 46% subjek termasuk dalam kelompok sedang dan tidak disertakan dalam analisis.

Selain diestimasi melalui indeks daya diskriminasi item, daya beda juga bisa diestimasi melalui korelasi item-total. Dasar yang digunakan dalam analisis item ini adalah memilih item-item yang fungsi ukurnya sesuai dengan fungsi ukur tes secara keseluruhan. Koefisien korelasi item-total dapat dihitung dengan korelasi product moment Pearson yang berkisar antara -1 sampai dengan 1. Item yang memiliki koefisien korelasi item-total mendekati 1 berarti baik dalam membedakan individu, sedangkan item yang memiliki koefisien korelasi item-total mendekati -1 berarti menyesatkan. Azwar (2015) menjelaskan bahwa dalam kaitannya dengan hasil komputasi koefisien korelasi antara korelasi item dengan skor test, item yang ada dalam tes dikhawatirkan dapat mengakibatkan over estimate dikarenakan besarnya kontribusi item dalam menentukan skor test. Keadaan inilah yang disebut spurious overlap. Untuk menghilangkan efek spurious overlap tersebut maka koefisien korelasi item total yang dihitung dengan korelasi product moment Pearson dikoreksi dengan nilai Deviasi Standar. Formula ini kemudian menghasilkan koefisien yang dikenal dengan corrected item-total correlation coefficient. Namun jika jumlah item cukup banyak (di atas 30), efek tersebut bisa diabaikan.

Pada tes yang dikotomi (skor item terdiri dari 1 dan 0), koefisien korelasi item-total dapat dihitung dengan formula korelasi point-biserial (rpbis). Rumus untuk menghitung korelasi point-biserial (rpbis) adalah sebagai berikut

Indeks daya diskriminasi berkisar antara -1 sampai dengan 1. Dalam seleksi item, ada beberapa ahli yang mengungkapkan nilai minimal daya diskriminasi item yang diperlukan. Meskipun tidak ada pendapat yang mutlak yang mengatakan berapa nilai indeks diskriminasi minimal yang ditetapkan dalam seleksi item, namun prinsip umum yang digunakan adalah memilih item dengan indeks daya diskriminasi item yang tinggi. Sebagai gambaran Ebel (dalam Azwar, 2015) menyarankan penggunaan kriteria evaluasi terhadap indeks diskriminasi item ebagai berikut.
Indeks Diskriminasi
Evaluasi
>0,40
Bagus sekali
0,30 – 0,39
Lumayan bagus, tapi masih perlu peningkatan
0,20 – 0,29
Belum memuaskan, perlu perbaikan
<0,20
Jelek dan item harus dibuang

Efektivitas Disktraktor
 
Efektivitas distraktor hanya digunakan dalam soal yang berbentuk pilihan ganda. Efektivitas distraktor digunakan untuk melihat apakah pilihan jawaban distraktor (yang bukan kunci jawaban) berfungsi sebagaimana mestinya, yaitu dipilih oleh sebagian besar subjek dari kelompok rendah dan hanya sedikit dipilih oleh kelompok dengan abilitas tinggi. Distraktor dapat dikatakan efektif apabila (a) dipilih oleh mayoritas atau seluruh subjek dari kelompok abilitas rendah, dan (b) jawaban yang dipilih oleh kelompok tersebut menyebar secara merata pada masing-masing distraktor (Azwar, 2013).

Referensi
Azwar, S. (2013). Penyusunan Skala Psikologi Edisi 2. Yogyakarta: Pustaka Pelajar.

Azwar, S. (2015). Konstruksi Tes Kemampuan Kognitif. Yogyakarta: Pustaka Pelajar

Mahasiswa PhD di ELTE, Hungaria. Dosen Psikologi di UMM, Indonesia.

Share this

Related Posts

Previous
Next Post »

1 komentar:

Write komentar
April 9, 2019 at 12:29 AM delete

thank you banget, postnya berguna, disertai dengan sitasi dan daftar pustaka da bes. God bless

Reply
avatar
Dalam proses penyusunan tes, item-item yang telah direview secara kualitatif oleh ahli di bidangnya dapat dinyatakan valid secara isi. Meskipun demikian, dalam tes prestasi perlu dilakukan analisis tambahan yang bertujuan untuk memperoleh item-item yang memiliki daya ukur dan daya beda yang tinggi sehingga tujuan pengkuran yakni untuk membedakan kemampuan satu individu dengan individu lain dapat tercapai. Prosedur ini sering disebut sebagai analisis dan seleksi item karena tujuan dari prosedur ini tidak lain adalah mengetahui item-item mana saja yang layak untuk dipertahankan atau direvisi bahkan dibuang.

Prosedur analisis dan seleksi item soal berdasarkan teori tes klasik memperhatikan tiga parameter, yaitu (1) tingkat kesulitan item, (2) daya diskriminasi item, dan (3) efektivitas distraktor (Azwar, 2015). Analisis tersebut dilakukan beradsarkan jawaban subjek terhadap item-item dalam tes. Meskipun tingkat kesulitan item dan daya diskriminasi item dihitung secara terpisah, namun dalam evaluasi terhadap item soal keduanya dilihat sebagai kesatuan komponen yang akan menentukan apakah suatu item dianggap baik atau tidak (Azwar, 2013). Parameter ketiga yakni efektivitas distraktor hanya berlaku pada soal berbentuk pilihan ganda.

Tingkat Kesulitan Item   
Tingkat kesulitan item merupakan perbandingan antara jumlah penjawab item benar dengan banyaknya penjawab item. Tingkat kesulitan biasa ditentukan oleh indeks kesukaran dan dilambangkan dengan p. Indeks kesukaran item dapat dihitung melalui persamaan berikut.

  P = ni / N

N merupakan total subjek yang menjawab item tersebut, sementara ni merupakan jumlah subjek yang menjawab dengan benar. Indeks kesukaran item berkisar antara 0 sampai 1, dimana indeks yang mendekati angka 1 berarti item tersebut semakin mudah. Begitu pula sebaliknya, semakin mendekati angka 0 berarti item tersebut semakin sulit. Item soal yang ideal adalah item yang memiliki tingkat kesukaran berada di sekitar p=0,5, hal ini dikarenakan nilai p=0,5 memungkinkan untuk mendapat varians terbesar. Rumus varians pada item dikotomi adalah s2=p(1-p), hal ini berarti varians akan maksimal pada p=0,5. Secara teoritis varians yang maksimal akan menghasilkan daya diskriminasi yang tinggi pula (Azwar, 2013). Meskipun demikian, tidak ada acuan pokok dalam menentukan berapa nilai tingkat kesulitan yang baik. Hal ini dikarenakan tingkat kesulitan sangat bergantung pada tujuan tes tersebut. Jika tes dilakukan untuk suatu penempatan (placement test), maka tingkat kesulitan disesuaikan secara beragam mulai dari yang paling mudah sampai yang paling sulit. Namun jika tes dilakukan untuk suatu seleksi, maka dapat dipilih item-item yang sulit karena yang dipilih adalah sebagian kecil pelamar saja yang memiliki kemampuan tinggi.    

Seperti yang sudah dijelaskan dalam artikel mengenai teori tes klasik, salah satu keterbatasan dari teori tes klasik adalah adanya sample dependent, artinya indeks kesukaran yang diperoleh juga bergantung dari dimana tes itu diujikan. Misalkan soal matematika yang sama, bisa jadi terasa sulit jika diujikan di sekolah yang berada di pelosok, namun bisa jadi terasa mudah jika diujikan di sekolah favorit. Tingkat kesulitan item merupakan ukuran bagi seluruh kelompok subjek, bukan bagi masing-masing individu. Tingkat kesukaran item bagi masing-masing individu adalah berbeda dan kita tidak dapat mengetahuinya.

Daya Dikskriminasi Item
Daya diskriminasi item adalah kemampuan item dalam membedakan antara satu subjek dengan subjek yang lain. Dalam hal tes kognitif, daya diskriminasi item berarti bertujuan untuk membedakan individu yang memiliki kemampuan tinggi (pintar) dan kemampuan rendah (bodoh). Suatu item soal dapat dikatakan memiliki daya diskriminasi yang baik apabila item tersebut dapat dijawab dengan benar oleh seluruh atau sebagian besar subjek dari kelompok kemampuan tinggi dan tidak dapat dijawab dengan benar oleh sebagian atau seluruh subjek dari kelompok kemampuan rendah. Jika proporsi penjawab benar soal dari kelompok tinggi lebih besar daripada proporsi penjawab benar pada kelompok rendah, maka daya dikriminasinya tinggi. Namun sebaliknya,  jika proporsi penjawab benar soal dari kelompok rendah lebih besar daripada proporsi penjawab benar pada kelompok tinggi, maka daya dikriminasinya rendah. Item yang demikian bisa jadi menyesatkan, bisa jadi soal tersebut salah kunci atau sulit dipahami kalimatnya (Azwar, 2013).

Secara sederhana, daya diskriminasi merupakan perbedaan proporsi penjawab benar kelompok kemampuan tinggi (PT) dan penjawab benar kelompok kemampuan rendah (PR). Rumus untuk menghitung daya diskriminasi butir dapat dituliskan sebagai berikut (Azwar, 2013).

  d = PT - PR

Seperti rumus dalam indeks kesukaran, PT merupakan rasio antara banyaknya butir yang dijawab benar di kelompok tinggi (niT) dengan banyaknya penjawab dari kelompok tinggi (NT). Begitu pula proporsi (PR) adalah rasio antara banyaknya butir yang dijawab benar di kelompok rendah (niR) dengan banyaknya penjawab dari kelompok rendah (NR). Sehingga rumus di atas dapat dijabarkan sebagai berikut.


Bila sampel yang digunakan sedikit, kelompok tinggi dapat dijelaskan sebagai 50% subjek yang memiliki skor tertinggi sedangkan kelompok rendah merupakan 50% subjek yang memiliki skor terendah. Namun jika subjek yang digunakan cukup banyak, maka dapat ditentukan kelompok tinggi sebagai 27% dari seluruh subjek dengan skor tertinggi dan kelompok rendah adalah 27% dari seluruh subjek dengan skor terendah. Sedangkan sisanya 46% subjek termasuk dalam kelompok sedang dan tidak disertakan dalam analisis.

Selain diestimasi melalui indeks daya diskriminasi item, daya beda juga bisa diestimasi melalui korelasi item-total. Dasar yang digunakan dalam analisis item ini adalah memilih item-item yang fungsi ukurnya sesuai dengan fungsi ukur tes secara keseluruhan. Koefisien korelasi item-total dapat dihitung dengan korelasi product moment Pearson yang berkisar antara -1 sampai dengan 1. Item yang memiliki koefisien korelasi item-total mendekati 1 berarti baik dalam membedakan individu, sedangkan item yang memiliki koefisien korelasi item-total mendekati -1 berarti menyesatkan. Azwar (2015) menjelaskan bahwa dalam kaitannya dengan hasil komputasi koefisien korelasi antara korelasi item dengan skor test, item yang ada dalam tes dikhawatirkan dapat mengakibatkan over estimate dikarenakan besarnya kontribusi item dalam menentukan skor test. Keadaan inilah yang disebut spurious overlap. Untuk menghilangkan efek spurious overlap tersebut maka koefisien korelasi item total yang dihitung dengan korelasi product moment Pearson dikoreksi dengan nilai Deviasi Standar. Formula ini kemudian menghasilkan koefisien yang dikenal dengan corrected item-total correlation coefficient. Namun jika jumlah item cukup banyak (di atas 30), efek tersebut bisa diabaikan.

Pada tes yang dikotomi (skor item terdiri dari 1 dan 0), koefisien korelasi item-total dapat dihitung dengan formula korelasi point-biserial (rpbis). Rumus untuk menghitung korelasi point-biserial (rpbis) adalah sebagai berikut

Indeks daya diskriminasi berkisar antara -1 sampai dengan 1. Dalam seleksi item, ada beberapa ahli yang mengungkapkan nilai minimal daya diskriminasi item yang diperlukan. Meskipun tidak ada pendapat yang mutlak yang mengatakan berapa nilai indeks diskriminasi minimal yang ditetapkan dalam seleksi item, namun prinsip umum yang digunakan adalah memilih item dengan indeks daya diskriminasi item yang tinggi. Sebagai gambaran Ebel (dalam Azwar, 2015) menyarankan penggunaan kriteria evaluasi terhadap indeks diskriminasi item ebagai berikut.
Indeks Diskriminasi
Evaluasi
>0,40
Bagus sekali
0,30 – 0,39
Lumayan bagus, tapi masih perlu peningkatan
0,20 – 0,29
Belum memuaskan, perlu perbaikan
<0,20
Jelek dan item harus dibuang

Efektivitas Disktraktor
 
Efektivitas distraktor hanya digunakan dalam soal yang berbentuk pilihan ganda. Efektivitas distraktor digunakan untuk melihat apakah pilihan jawaban distraktor (yang bukan kunci jawaban) berfungsi sebagaimana mestinya, yaitu dipilih oleh sebagian besar subjek dari kelompok rendah dan hanya sedikit dipilih oleh kelompok dengan abilitas tinggi. Distraktor dapat dikatakan efektif apabila (a) dipilih oleh mayoritas atau seluruh subjek dari kelompok abilitas rendah, dan (b) jawaban yang dipilih oleh kelompok tersebut menyebar secara merata pada masing-masing distraktor (Azwar, 2013).

Referensi
Azwar, S. (2013). Penyusunan Skala Psikologi Edisi 2. Yogyakarta: Pustaka Pelajar.

Azwar, S. (2015). Konstruksi Tes Kemampuan Kognitif. Yogyakarta: Pustaka Pelajar

1 comment

  1. thank you banget, postnya berguna, disertai dengan sitasi dan daftar pustaka da bes. God bless

    ReplyDelete

Artikel Lainnya