Semesta Psikometrika: Tujuh Dosa Besar dalam Analisis Statistik

Tulisan ini merupakan inti sari dan sedikit modifikasi dari tulisan Kuzon, Urbancheck, dan McCabe (1996) yang berjudul “The Seven Deadly Sins of Statistical Analysis”. Meskipun artikel tersebut sudah ditulis lebih dari 20 tahun yang lalu, namun kenyataannya dosa-dosa besar tersebut masih banyak dilakukan oleh para peneliti kuantitatif saat ini. Oleh karena itu tulisan ini hanya sebagai pengingat sekaligus menjelaskan kembali dosa-dosa tersebut bagi yang belum tahu. Ketujuh dosa besar dalam analisis statistik tersebut adalah

1. Menggunakan analisis parametrik untuk data ordinal

Data pengukuran secara umum dapat dibagi menjadi empat jenis, nominal, ordinal, interval, dan rasio. Data nominal adalah data kategori atau angka yang tidak memiliki makna kuantitatif sama sekali (misal jenis kelamin, nomer rumah). Data ordinal adalah data yang digunakan untuk merangking secara hirarkis. Data ordinal yang terkenal adalah pada skala likert dimana urutan levelnya kurang lebih adalah sebagai berikut: sangat setuju > setuju > netral > tidak setuju > sangat tidak setuju. Meskipun demikian, pada data ordinal jarak interval antar data tidak diketahui. Data interval adalah data yang selain menunjukkan urutan rangking juga memiliki jarak yang tetap antar data. Level variasi pengukuran biasanya diskalakan dengan unit yang setara. Contoh data interval adalah suhu dalam Celcius dan skor IQ. Data rasio secara ringkas adalah data interval yang memiliki nilai nol mutlak, artinya nilai nol dalam pengukuran data ini artinya memang tidak ada konstrak tersebut. Contoh data rasio adalah tinggi badan, jarak, dll. Penjelasan jenis data ini dapat dilihat di artikel ini.

Dalam teori sampling, sampel merupakan representasi dari populasi. Parameter dari populasi dan statistik dari sampel diperoleh dengan cara penghitungan. Untuk memperoleh hasil penghitungan yang valid, dimana statistik sampel dapat merepresentasikan parameter populasi, data harus berbentuk interval atau rasio. Hanya mengubah data ordinal menjadi bilangan bulat tidak menjadikan penggunaan statistik parametrik tepat. Tidak dapat dibenarkan ketika kita memperoleh data setuju, tidak setuju, dan netral kemudian kita mengkonversi menjadi skor 4, 2, 3; lalu menghitung rata-ratanya yaitu 3 yang bermakna netral. Untuk menghindari dosa pertama, pada data ordinal dan nominal gunakan statistik non-parametrik.

2. Penggunaan yang tidak tepat analisis parametrik

Beberapa analisis populer seperti independent sample t-test, Anova, regresi, semuanya adalah statistik parametrik. Untuk dapat menyimpulkan bahwa statistik pada sampel dapat mewakiliki parameter di populasi, sampel harus memenuhi kriteria (1) diambil secara acak dari populasi yang berdistribusi normal, dan (2) jumlahnya cukup besar agar representatif terhadap populasi. Meskipun beberapa analisis relatif “toleran” terhadap pelanggaran keduanya, namun dalam panduan yang ketat, analisis parametrik hanya bisa dilakukan jika dua kriteria tersebut terpenuhi.

Uji normalitas bisa dilakukan dengan banyak cara, seperti Kolmogorov-Smirnov (lihat di sini). Jumlah minimum sampel penelitian juga menjadi perhatian, ada yang mengatakan harus lebih dari 10, ada yang lebih dari 30. Namun cara yang paling lazim adalah dengan memperhatikan signifikansi, poer statistik, dan effect size (lihat di sini). Lagi-lagi statistik non-parametrik merupakan alternatif jika kriteria tidak terpenuhi. Untuk melihat statistik non-parametrik yang setara dengan statistik paramaterik, dapat dilihat di artikel ini.

3. Tidak mempertimbangkan Type II Error

Kebanyakan penelitian sudah menetapkan Type I error (α) pada level 0,05, namun sebagian besar mengabaikan type II error. Type II error (β) terjadi ketika hipotesis null kita salah dan kita tidak bisa menolaknya. Beta ini berkaitan erat dengan power statistik dimana power statistik secara komputasi dituliskan sebagai 1-β. Sebagian analisis tidak mampu menolak hipotesis null yang salah karena kurangnya power statistik. Namun peneliti sering mengabaikan hal tersebut, sehingga dalam penentuan jumlah sampel tidak didasarkan pertimbangan power statistik ini. Padahal dengan mengontrol α dan β, kita dapat mengestimasi jumlah sampel yang dibutuhkan dalam penelitian. Alpha yang diterima dalam ilmu sosial biasanya di bawah 0,05; sementara beta yang diterima di bawah 0,20. Dengan menentukan alpha dan beta, dapat ditentukan jumlah sampel yang harus diperoleh. Hal ini harus sudah selesai sebelum pengambilan data. Untuk menentukan jumlah sampel dengan mempertimbangkan type II error dapat dilihat di artikel ini. Namun ketika hasil analisis statistik sudah signifikan, masalah type II error sudah tidak menjadi perhatian lagi.

4. Menggunakan t-test yang tidak dimodifikasi untuk perbandingan banyak kelompok

Semisal kita memiliki tiga kelompok, A, B, dan C. Jika kita ingin membandingkan ketiganya, maka kita akan melakukan uji pasangan A vs B, A vs C, dan B vs C. Dengan demikian peluang kumulatif untuk menolak hipotesis null (α) adalah 5% (untuk A vs B) + 5% (untuk A vs C) + 5% untuk (B vs C) = 15%. Ketika banyak kelompok dilibatkan, peluang kumulatif type I error juga akan dilipatgandakan. Oleh karena itu penggunaan t-test tanpa modifikasi pada banyak kelompok tidak valid.

Alternatif yang digunakan untuk membandingkan banyak kelompok adalah dengan ANOVA. ANOVA menjawab pertanyaan: apakah variasi data karena perbedaan antar kelompok lebih besar daripada variasi data karena perbedaan dalam kelompok? Hal ini dilakukan dengan menghitung nilai F yang merupakan perbandingan variasi antar kelompok dibagi variasi dalam kelompok. Jika kasusnya adalah nilai F pada analisis ANOVA tidak signifikan, maka tidak valid jika kita melakukan uji pasangan untuk membandingkan antar kelompok. Jika nilai F signifikan, maka boleh dilakukan analisis post-hoc untuk membandingkan antar kelompok melalui uji pasangan. Syaratnnya, analisis post-hoc harus dimodifikasi agar peluang kumulatif α tetap 5%. Dalam contoh kasus tadi, modifikasi dapat dilakukan dengan membagi α dengan 3; sehingga peluang kumulatif α adalah adalah 5%/3 (untuk A vs B) + 5%/3 (untuk A vs C) + 5%/3 untuk (B vs C) = 5%. Analisis dengan software umumnya sudah melakukan modifikasi ini.

5. Tidak dimanfaatkannya Analisis Cavarians (ANCOVA), Multivariate regression, nonlinear regression, dan logistic regression

Dalam berbagai penelitian, terkadang ada variabel lain yang juga turut mempengaruhi hasil dari variabel utama yang kita teliti. Misal, ketika peneliti ingin melakukan eksperimen terapi bersyukur untuk meningkatkan kebahagiaan, peneliti menyadari bahwa ada variabel lain yang mungkin menpengaruhi hasil yaitu pendapatan. Oleh karena itu peneliti dapat melakukan analisis ANCOVA dengan memasukan pendapatan sebagai kovariat. Begitupun jikan banyak variabel lain yang mempengaruhi hasil, peneliti dapat menggunakan multivariate regression. Pun ternyata tidak semua hubungan itu linear, peneliti dapat menggunakan nonlinear regression. Namun sayangnya berbagai jenis analisis tadi masih belum banyak dimanfaatkan, padahal bisa menghasilkan estimasi yang lebih cermat.

6. Melaporkan Standar Error, bukannya Standar Deviasi

Melaporkan standar error (SE) sesungguhnya bukan dosa, namun melaporkan standar error tanpa paham maknanya merupakan sesuatu yang kurang bijak. SE sangat berkaitan dengan standar deviasi (SD) karena diperoleh dari SD/akar N. Makna standar error dari mean jauh lebih sulit dipahami dibanding memberikan informasi mengenai SD yang lebih menggambarkan seberapa jauh jarak data dibandingkan mean. Jadi, untuk melaporkan statistik deskriptif data, gunakan mean dan SD karena selain mudah diinterpretasikan, juga lebih menggambarkan variasi data secara langsung.

7. Tidak percaya ahli statistik atau terlalu percaya ahli statistik

Ketika ada peneliti mengatakan “ahli statistik saya mengatakan begitu...”, itu memiliki dua sisi pedang. Sisi positifnya, dia sudah bertanya pada ahli yang tepat tentang interpretasi datanya, namun sisi negatifnya, dia tidak memiliki konsep yang jelas tentang analisis statistik yang dia kerjakan. Memang betul bahwa semua orang tidak bisa menjadi ahli di berbagai bidang. Tapi dengan memilih analisis statistik sebagai jalan untuk menjawab pertanyaan penelitian, seorang peneliti tentu juga harus mempelajari bagaimana analisis statistik ini bekerja. Dan jika memang kita tidak memiliki keahlian di bidang statistik, solusi paling bijak adalah bertanya pada ahlinya, bukannya memecahkan masalah sendiri. Memilih ahli statistik idealnya adalah seperti memilih dokter atau pengacara yang dapat menyelesaikan masalah kita. Perlu waktu untuk menemukan kecocokan. Dan tentu saja, tidak semua ahli statistik tidak memahami konteks penelitian kita. Jadi yang diperlukan adalah kolaborasi, bukan menyerahkan begitu saja tanpa kita mengetahui intervensi apa yang sedang dilakukan oleh ahli statistik tersebut.

Referensi

Kuzon, W.M., Urbancheck, M.G., McCabe, S. (996). The Seven Deadly Sins of Statistical Analysis. Analysis of Plastic Surgery. 37(3), 265-272

12 comments:

tejaswiniAugust 18, 2020 at 1:47 AM
Happy to visit your blog, I am by all accounts forward to more solid articles and I figure we as a whole wish to thank such huge numbers of good articles, blog to impart to us.
360DigiTMG data science course
360digitmgdelhiAugust 26, 2020 at 4:40 AM
Happy to visit your blog, I am by all accounts forward to more solid articles and I figure we as a whole wish to thank such huge numbers of good articles, blog to impart to us.data science course in delhi
360DigiTMGAugust 27, 2020 at 8:51 PM
Very Useful article
hrdf contribution
360DigiTMGNoidaAugust 30, 2020 at 2:14 AM
it's really cool blog. Linking is very useful thing.you have really helped
iot training in noida
BhavanaAugust 30, 2020 at 10:07 PM
wonderful bLog! its intriguing. thankful to you for sharing.
360DigiTMG
360digitmgSeptember 23, 2020 at 10:56 PM
It is perfect time to make some plans for the future and it is time to be happy. I’ve read this post and if I could I desire to suggest you few interesting things or tips. Perhaps you could write next articles referring to this article. I want to read more things about it!
data science course in hyderabad

360digitmgSeptember 23, 2020 at 11:00 PM
Truly, this article is really one of the very best in the history of articles. I am a antique ’Article’ collector and I sometimes read some new articles if I find them interesting. And I found this one pretty fascinating and it should go into my collection. Very good work!
typeerror nonetype object is not subscriptable

360DigiTMGAurangabadFebruary 11, 2021 at 11:43 PM
nice blog!! i hope you will share a blog on Data Science.
digital marketing course in aurangabad
vé máy bay từ canada về Việt NamMarch 5, 2021 at 1:47 AM
Liên hệ Aivivu, đặt vé máy bay tham khảo

vé máy bay đi Mỹ bao nhiêu

cách mua vé máy bay giá rẻ từ mỹ về việt nam

vé máy bay giá rẻ đi Sài Gòn pacific airlines

vé máy bay sg đi hà nội

khoảng cách hà nội đà nẵng
cakes shop in mohaliMay 18, 2022 at 5:16 AM
Thank you for sharing such a great article.
pink velvet cake , Fruit sensation cake in mohali,Hazelnut Almond Cake
Supreme HospitalSeptember 24, 2022 at 1:23 AM
Keep doing this work it really helps me a lot to understand new things also have a look on this laparoscopic surgeon in Faridabad
Supreme HospitalSeptember 24, 2022 at 1:24 AM
What a wonderful blog it has everything I was looking for Keep doing this work and thank for this post also check out this Heart Specialist in Faridabad

Friday, February 28, 2020

Tujuh Dosa Besar dalam Analisis Statistik

12 comments: