Tulisan
ini merupakan inti sari dan sedikit modifikasi dari tulisan Kuzon, Urbancheck,
dan McCabe (1996) yang berjudul “The
Seven Deadly Sins of Statistical Analysis”. Meskipun artikel tersebut sudah
ditulis lebih dari 20 tahun yang lalu, namun kenyataannya dosa-dosa besar
tersebut masih banyak dilakukan oleh para peneliti kuantitatif saat ini. Oleh karena
itu tulisan ini hanya sebagai pengingat sekaligus menjelaskan kembali dosa-dosa
tersebut bagi yang belum tahu. Ketujuh dosa besar dalam analisis statistik
tersebut adalah
1. Menggunakan
analisis parametrik untuk data ordinal
Data
pengukuran secara umum dapat dibagi menjadi empat jenis, nominal, ordinal,
interval, dan rasio. Data nominal
adalah data kategori atau angka yang tidak memiliki makna kuantitatif sama
sekali (misal jenis kelamin, nomer rumah). Data
ordinal adalah data yang digunakan untuk merangking secara hirarkis. Data ordinal
yang terkenal adalah pada skala likert dimana urutan levelnya kurang lebih
adalah sebagai berikut: sangat setuju > setuju > netral > tidak setuju
> sangat tidak setuju. Meskipun demikian, pada data ordinal jarak interval
antar data tidak diketahui. Data
interval adalah data yang selain menunjukkan urutan rangking juga memiliki
jarak yang tetap antar data. Level variasi pengukuran biasanya diskalakan
dengan unit yang setara. Contoh data interval adalah suhu dalam Celcius dan
skor IQ. Data rasio secara ringkas
adalah data interval yang memiliki nilai nol mutlak, artinya nilai nol dalam
pengukuran data ini artinya memang tidak ada konstrak tersebut. Contoh data
rasio adalah tinggi badan, jarak, dll. Penjelasan jenis data ini dapat dilihat di artikel ini.
Dalam
teori sampling, sampel merupakan representasi dari populasi. Parameter dari
populasi dan statistik dari sampel diperoleh dengan cara penghitungan. Untuk memperoleh
hasil penghitungan yang valid, dimana statistik sampel dapat merepresentasikan
parameter populasi, data harus berbentuk interval atau rasio. Hanya mengubah
data ordinal menjadi bilangan bulat tidak menjadikan penggunaan statistik
parametrik tepat. Tidak dapat dibenarkan ketika kita memperoleh data setuju, tidak
setuju, dan netral kemudian kita mengkonversi menjadi skor 4, 2, 3; lalu menghitung
rata-ratanya yaitu 3 yang bermakna netral. Untuk menghindari dosa pertama, pada
data ordinal dan nominal gunakan statistik non-parametrik.
2. Penggunaan
yang tidak tepat analisis parametrik
Beberapa
analisis populer seperti independent sample t-test, Anova, regresi, semuanya
adalah statistik parametrik. Untuk dapat menyimpulkan bahwa statistik pada
sampel dapat mewakiliki parameter di populasi, sampel harus memenuhi kriteria
(1) diambil secara acak dari populasi yang berdistribusi normal, dan (2)
jumlahnya cukup besar agar representatif terhadap populasi. Meskipun beberapa
analisis relatif “toleran” terhadap pelanggaran keduanya, namun dalam panduan
yang ketat, analisis parametrik hanya bisa dilakukan jika dua kriteria tersebut
terpenuhi.
Uji
normalitas bisa dilakukan dengan banyak cara, seperti Kolmogorov-Smirnov (lihat di sini). Jumlah minimum sampel
penelitian juga menjadi perhatian, ada yang mengatakan harus lebih dari 10, ada
yang lebih dari 30. Namun cara yang paling lazim adalah dengan memperhatikan
signifikansi, poer statistik, dan effect size (lihat di sini). Lagi-lagi statistik non-parametrik merupakan
alternatif jika kriteria tidak terpenuhi. Untuk melihat statistik non-parametrik
yang setara dengan statistik paramaterik, dapat dilihat di artikel ini.
3. Tidak
mempertimbangkan Type II Error
Kebanyakan
penelitian sudah menetapkan Type I error (α) pada level 0,05, namun sebagian besar
mengabaikan type II error. Type II error (β) terjadi ketika hipotesis null kita
salah dan kita tidak bisa menolaknya. Beta ini berkaitan erat dengan power
statistik dimana power statistik secara komputasi dituliskan sebagai 1-β. Sebagian
analisis tidak mampu menolak hipotesis null yang salah karena kurangnya power
statistik. Namun peneliti sering mengabaikan hal tersebut, sehingga dalam
penentuan jumlah sampel tidak didasarkan pertimbangan power statistik ini.
Padahal dengan mengontrol α dan β, kita dapat mengestimasi jumlah sampel yang
dibutuhkan dalam penelitian. Alpha yang diterima dalam ilmu sosial biasanya di
bawah 0,05; sementara beta yang diterima di bawah 0,20. Dengan menentukan alpha
dan beta, dapat ditentukan jumlah sampel yang harus diperoleh. Hal ini harus
sudah selesai sebelum pengambilan data. Untuk menentukan jumlah sampel dengan
mempertimbangkan type II error dapat dilihat di artikel ini. Namun ketika hasil analisis statistik sudah
signifikan, masalah type II error sudah tidak menjadi perhatian lagi.
4. Menggunakan
t-test yang tidak dimodifikasi untuk perbandingan banyak kelompok
Semisal
kita memiliki tiga kelompok, A, B, dan C. Jika kita ingin membandingkan
ketiganya, maka kita akan melakukan uji pasangan A vs B, A vs C, dan B vs C.
Dengan demikian peluang kumulatif untuk menolak hipotesis null (α) adalah 5%
(untuk A vs B) + 5% (untuk A vs C) + 5% untuk (B vs C) = 15%. Ketika banyak
kelompok dilibatkan, peluang kumulatif type I error juga akan dilipatgandakan. Oleh
karena itu penggunaan t-test tanpa modifikasi pada banyak kelompok tidak valid.
Alternatif
yang digunakan untuk membandingkan banyak kelompok adalah dengan ANOVA. ANOVA
menjawab pertanyaan: apakah variasi data karena perbedaan antar kelompok lebih
besar daripada variasi data karena perbedaan dalam kelompok? Hal ini dilakukan
dengan menghitung nilai F yang merupakan perbandingan variasi antar kelompok
dibagi variasi dalam kelompok. Jika kasusnya adalah nilai F pada analisis ANOVA
tidak signifikan, maka tidak valid jika kita melakukan uji pasangan untuk
membandingkan antar kelompok. Jika nilai F signifikan, maka boleh dilakukan
analisis post-hoc untuk membandingkan antar kelompok melalui uji pasangan. Syaratnnya,
analisis post-hoc harus dimodifikasi agar peluang kumulatif α tetap 5%. Dalam contoh
kasus tadi, modifikasi dapat dilakukan dengan membagi α dengan 3; sehingga
peluang kumulatif α adalah adalah 5%/3 (untuk A vs B) + 5%/3 (untuk A vs C) +
5%/3 untuk (B vs C) = 5%. Analisis dengan software umumnya sudah melakukan
modifikasi ini.
5. Tidak
dimanfaatkannya Analisis Cavarians (ANCOVA), Multivariate regression, nonlinear
regression, dan logistic regression
Dalam
berbagai penelitian, terkadang ada variabel lain yang juga turut mempengaruhi
hasil dari variabel utama yang kita teliti. Misal, ketika peneliti ingin
melakukan eksperimen terapi bersyukur untuk meningkatkan kebahagiaan, peneliti
menyadari bahwa ada variabel lain yang mungkin menpengaruhi hasil yaitu
pendapatan. Oleh karena itu peneliti dapat melakukan analisis ANCOVA dengan
memasukan pendapatan sebagai kovariat. Begitupun jikan banyak variabel lain
yang mempengaruhi hasil, peneliti dapat menggunakan multivariate regression. Pun
ternyata tidak semua hubungan itu linear, peneliti dapat menggunakan nonlinear
regression. Namun sayangnya berbagai jenis analisis tadi masih belum banyak dimanfaatkan,
padahal bisa menghasilkan estimasi yang lebih cermat.
6. Melaporkan
Standar Error, bukannya Standar Deviasi
Melaporkan
standar error (SE) sesungguhnya bukan dosa, namun melaporkan standar error
tanpa paham maknanya merupakan sesuatu yang kurang bijak. SE sangat berkaitan
dengan standar deviasi (SD) karena diperoleh dari SD/akar N. Makna standar
error dari mean jauh lebih sulit dipahami dibanding memberikan informasi
mengenai SD yang lebih menggambarkan seberapa jauh jarak data dibandingkan mean.
Jadi, untuk melaporkan statistik deskriptif data, gunakan mean dan SD karena
selain mudah diinterpretasikan, juga lebih menggambarkan variasi data secara
langsung.
7. Tidak
percaya ahli statistik atau terlalu percaya ahli statistik
Ketika
ada peneliti mengatakan “ahli statistik saya mengatakan begitu...”, itu
memiliki dua sisi pedang. Sisi positifnya, dia sudah bertanya pada ahli yang
tepat tentang interpretasi datanya, namun sisi negatifnya, dia tidak memiliki
konsep yang jelas tentang analisis statistik yang dia kerjakan. Memang betul
bahwa semua orang tidak bisa menjadi ahli di berbagai bidang. Tapi dengan
memilih analisis statistik sebagai jalan untuk menjawab pertanyaan penelitian,
seorang peneliti tentu juga harus mempelajari bagaimana analisis statistik ini
bekerja. Dan jika memang kita tidak memiliki keahlian di bidang statistik, solusi
paling bijak adalah bertanya pada ahlinya, bukannya memecahkan masalah sendiri.
Memilih ahli statistik idealnya adalah seperti memilih dokter atau pengacara
yang dapat menyelesaikan masalah kita. Perlu waktu untuk menemukan kecocokan. Dan
tentu saja, tidak semua ahli statistik tidak memahami konteks penelitian kita.
Jadi yang diperlukan adalah kolaborasi, bukan menyerahkan begitu saja tanpa
kita mengetahui intervensi apa yang sedang dilakukan oleh ahli statistik
tersebut.
Referensi
Kuzon,
W.M., Urbancheck, M.G., McCabe, S. (996). The Seven Deadly Sins of Statistical Analysis. Analysis of Plastic Surgery. 37(3),
265-272
Happy to visit your blog, I am by all accounts forward to more solid articles and I figure we as a whole wish to thank such huge numbers of good articles, blog to impart to us.
ReplyDelete360DigiTMG data science course
Happy to visit your blog, I am by all accounts forward to more solid articles and I figure we as a whole wish to thank such huge numbers of good articles, blog to impart to us.data science course in delhi
ReplyDeleteVery Useful article
ReplyDeletehrdf contribution
it's really cool blog. Linking is very useful thing.you have really helped
ReplyDeleteiot training in noida
wonderful bLog! its intriguing. thankful to you for sharing.
ReplyDelete360DigiTMG
It is perfect time to make some plans for the future and it is time to be happy. I’ve read this post and if I could I desire to suggest you few interesting things or tips. Perhaps you could write next articles referring to this article. I want to read more things about it!
ReplyDeletedata science course in hyderabad
Truly, this article is really one of the very best in the history of articles. I am a antique ’Article’ collector and I sometimes read some new articles if I find them interesting. And I found this one pretty fascinating and it should go into my collection. Very good work!
ReplyDeletetypeerror nonetype object is not subscriptable
nice blog!! i hope you will share a blog on Data Science.
ReplyDeletedigital marketing course in aurangabad
Liên hệ Aivivu, đặt vé máy bay tham khảo
ReplyDeletevé máy bay đi Mỹ bao nhiêu
cách mua vé máy bay giá rẻ từ mỹ về việt nam
vé máy bay giá rẻ đi Sài Gòn pacific airlines
vé máy bay sg đi hà nội
khoảng cách hà nội đà nẵng
Thank you for sharing such a great article.
ReplyDeletepink velvet cake , Fruit sensation cake in mohali,Hazelnut Almond Cake
Keep doing this work it really helps me a lot to understand new things also have a look on this laparoscopic surgeon in Faridabad
ReplyDeleteWhat a wonderful blog it has everything I was looking for Keep doing this work and thank for this post also check out this Heart Specialist in Faridabad
ReplyDelete