Seringkali kita merasa gagal sebagai peneliti ketika
hasil analisis statistik kita ternyata tidak sesuai dengan hipotesis kita atau
hasil uji statistik kita tidak signifikan. Menanggapi kemungkinan buruk tersebut,
kita seharusnya tidak tergesa-gesa mengambil kesimpulan bahwa hipotesis kita
tidak terbukti. Kita harus mencari tahu terlebih dahulu apakah analisis yang
kita gunakan sudah tepat, atau data yang kita gunakan sudah benar-benar dapat
dipertanggungjawabkan. Salah satu penyebab kacaunya hasil analisis statistik
kita adalah karena adanya data outliers.
Apa itu outliers?
Outliers adalah data yang memiliki nilai sangat jauh dari
nilai umumnya, atau dengan kata lain memiliki nilai yang ekstrem. Adanya
outliers ini dapat berpengaruh pada hasil uji asumsi, seperti uji normalitas,
lineraritas, maupun homogenitas varians. Lebih parah lagi, outliers ini dapat
berpengaruh pada pegambilan kesimpulan penelitian dari hasil uji statistik. Ada
beberapa faktor yang menyebabkan munculnya data outliers, diantaranya adalah:
- Kesalahan penginputan data
- Kesalahan pengambilan sampel
- Subjek yang mengerjakan secara asal-asalan
- Fakta di lapangan memang demikian
Jika alasan munculnya outliers adalah karena kesalahan
penginputan, maka bisa kita koreksi. Namun jika munculnya outliers adalah
karena kesalahan pengambilan sampel atau subjek yang mengerjakan secara
asal-asalan, maka lebih baik kita bersihkan terlebih dahulu data tersebut
sebelum kita melakukan analisis statistik.
Cara mengidentifikasi
outliers
Ada berbagai macam cara mengidentifikasi outliers,
seperti dengan menampilkan histogram, menampilkan nilai Z, dan boxplot. Secara
umum, data disebut outliers jika memiliki nilai Z di atas 2,5 atau di bawah
-2,5. Berikut adalah cara mengidentifikasi dengan boxplot di SPSS. Untuk melihat
data outliers, kita dapat melakukannya di menu analyze – descriptive statistics – explore. Kemudian kita masukan
variabel yang dinyatakan tidak normal, yakni variabel kepuasan ke kotak dependent list, lalu klik menu statistics dan centang bagian outliers. Jika sudah klik continue dan OK.
Untuk melihat data mana saja yang terindikasi sebagai
outliers, kita dapat langsung menuju bagian boxplot pada output. Hasil output
boxplot data kita dapat dilihat pada gambar di bawah.
Gambar tersebut mengindikasikan data-data mana saja yang
terindikasi merupakan data ekstrem atau outliers. Jika data berada di atas kotak, menunjukkan
data ekstrem tinggi, sedangkan jika berada di bawah kotak menunjukkan data
ekstrem rendah. Semakin jauh dari kotak, semakin ekstrem data tersebut. Dari
output di atas kita dapat melihat bahwa subjek nomer 1, 2, 3, 4, 5 terindikasi
sebagai outliers. Subjek nomer 1 dan 2 merupakan subjek yang paling ekstrem
nilainya.
Dampak outliers
pada uji statistik
Outliers dapat mengubah kesimpulan penelitian yang
diambil dari hasil analsis statistik. Berikut ini adalah contoh penelitian
mengenai “hubungan antara pelayanan istri dengan kepuasan suami”. Untuk melihat
hubungan kedua variabel tersebut di SPSS, dapat dilihat dari menu analyze – correlate – bivariate. Lalu
masukkan variabel kepuasan dan pelayanan, lalu klik OK.
Jika dilihat dari output di atas, diperoleh nilai r=0,167
dan p=0,129 (p>0,05), sehingga diperoleh kesimpulan tidak ada hubungan
antara pelayanan istri dengan kepuasan suami. Namun apakah memang benar
demikian? Mari kita lihat scaterplot dan garis korelasi kedua variabel
tersebut.
Untuk melihat scaterplot, klik graph – legacy dialogs – scatter/dot – simple scatter – define. Lalu
masukkan variabel kepuasan ke Y axis, pelayanan ke X Axix, dan
ID ke label cases by. Kemudian klik options
dan centang display charts with case
labels.
Jika sudah tekan continue
dan OK, maka kita akan mendapatkan
ouput berupa scatterplot. Untuk menampilkan garis korelasi scatterplot kita, doble klik pada gambar scatterplot,
lalu klik menu add fit line at total yang
berada di atas gambar. Maka akan
diperoleh output seperti gambar di bawah ini.
Dari gambar di atas daat kita lihat bahwa terdapat dua
subjek yang memiliki nilai jauh sekali dari garis korelasinya. Hal ini tentu
akan berpengaruh pada kemiringan garis korelasi. Nilai R square yang
menunjukkan sumbangan efektif variabel pelayanan terhadap kepuasan hanya
sebesar 0,026 (2,6%). Adanya outliers yakni subjek nomer 1 dan 2 menarik garis korelasi,
yang menyebabkan hubungan kedua variabel tersebut menjadi lemah.
Sekarang mari kita coba hapus dua outliers tersebut. Untuk
menghapus data subjek, klik kanan pada
nomer subjek, lalu pilih clear. Untuk
menghapus, jangan lupa, kita menghapus dari subjek yang bawah terlebih dahulu,
agar nomer subjek tidak bergeser nantinya. Setelah data outliers tersebut kita
hapus, kita anlisis ulang data kita dengan analisis korelasi pearson. Hasil analisis
ulang kita adalah sebagai berikut.
Dari output tersebut terlihat bahwa ada hubungan yang
signifikan antara pelayanan dengan kepuasan. Nilai r=0,381 dan p<0,01. Nilai
ini jauh lebih tinggi dibanding sebelumnya. Sekarang mari kita lihat
scatterplotnya kembali. Ulangi prosedur menampilkan scatterplot tadi. Berikut adalah
hasilnya.
Dari output tersebut terlihat bahwa garis korelasi
menjadi lebih curam, semakin mendekati 45 derajat jika dibanding sebelumnya. Nilai
R Square juga meningkat menjadi 0,145 (14,5%).
Simulasi ini menunjukkan bahwa adanya dua subjek yang
memiliki nilai ekstrem ternyata dapat membuat pengaruh yang begitu besar dalam
kesimpulan hasil analisis statistik. Analisis statistik yang melibatkan
outliers, meskipun hanya dua orang, menghasilkan kesimpulan tidak signifikan. Sedangkan
ketika outliers dihapus, hasil analisis menjadi signifikan dan nilai R Square
juga meningkat. Jadi ketika kita hendak mengambil kesimpulan akan hasil
analisis kita, terlebih dahulu kita harus mengecek data kita apakah sudah
bersih atau belum.
Mau nanya jika di boxplot muncul 5 data outlier tapi data yang dihapus hanya 1 yaitu data yang paling ekstrem, apakah tindakan tersebut diperbolehkan ?
ReplyDeleteDan kalau boleh tau judul buku yang menjelaskan ttg box plot dan scatterplot itu buku apa ya ?
Terima kasih ��
Boleh sekali, justru lebih baik jika hanya menghapus sedikit subjek yang paling eskrem nilainya. Referensi terkait outliers, boxplot, dan scatterplot bisa dilihat di buku Andy Field: Discovering statistics using SPSS. Buku bisa didownload di halaman download
DeleteHalaman donwloadnya dmn pak?
Deletehttp://semestapsikometrika.blogspot.co.id/p/download.html
Deletedi halaman berapa ya pak yang menyatakan lebih baik jika hanya menghapus sedikit subjek yang paling ekstrim di buku andi field tersebut?
DeleteApakah boleh setelah di outlier dengen melihat nilai zscores tetapi data tidak normal kemudian melakukan outlier kembali dengan boxplot?
ReplyDeleteSilakan
DeleteApakah ada modul yang mendukung ketika outlier dilakukan dengan zscore kemudian outlier ke dua dengan boxplot?.
DeleteReferensi terkait outliers, boxplot, dan scatterplot bisa dilihat di buku Andy Field: Discovering statistics using SPSS. Buku bisa didownload di halaman download
DeleteApakah bisa melakukan boxplot pertama data belum normal kemudian melakukan bloxpot ke dua kali ?
ReplyDeleteApakah bisa melakukan boxplot pertama data belum normal kemudian melakukan bloxpot ke dua kali ?
ReplyDeleteSilakan saja kalau itu membantu, asalkan jumlah sampel masih tetap mencukupi
ReplyDeleteBagaimana jika tidak ada data outlier sdngkan data tidak normal?
ReplyDeleteBisa digunakan transformasi data atau menggunakan analisis statistik non-parametrik
DeleteSaya mau bertanya, apakah ada keunggulan tersendiri menggunakan outlier ketimbang transformasi data??
ReplyDeleteKeduanya memiliki kelebihan dan kekurangan masing-masing. Menghilangkan outliers tentu akan mengurangi jumlah sample kita yang juga bisa berdampak pada power statistik kita, namun interpretasi bisa dilakukan sesui dengan skor aslinya. Sementara menggunakan transformasi kita tidak bisa menginterpretasikan skor pada skor asli
DeleteSaya mau bertanya. Apakah boleh menggunakan data outlier pada penelitian yg menggunan data pertahun. Misal kita mengambil penelitian 5 tahun tiap perusahaan. Setelah menggunakn outlier brrt kn ada yg dihilangkn misalnya 2 tahun dihilangkn. Apakah bisa dipertamggung jwbkn dtnya nnt.. terima kash
ReplyDeleteSaya mau bertanya ni mas, apabila setelah diuji normalitas dan data yg dihasilkan normal tapi masih memiliki 2 data outlier, apakah data outlier trrsebut harus tetap dibuang?
ReplyDeletetidak harus
DeletePak mau bertanya jika kejadiannya seperti ini apakah diperlukan teori yang mendukung kenapa tidak menghapus outlier nya ?
DeleteBatul, setiap tindakan baik menghapus ataupun mempertahankan outliers harus melalui didukung argumen teoritis atau logis
DeleteKalau boleh minta informasi mengenai saran dari bapak mengenai teori dari siapa dan bagaimana yang sekiranya dapat mendukung argumen untuk mempertahankan outlier tersebut pak ? Karena saat ini saya sedang melakukan penelitian dan data saya normal akan tetapi dibagian boxplotnya terdapat data outlier jika data tersebut dihilangkan pada kasus saya data jadi tidak signifikan sehingga saya ingin mempertahankan data tersebut karena data outliernya ada 2 saja namun saya bingung terkait apakah ada argumen secara teoritis yang dapat membantu saya agar data tersebut tetap dapat dipertahankan. mohon sarannya pak. Terima kasih
Deletemas saya mau tanya, kalau di contoh kan itu pake 2 variabel. bagaimana jika hanya 1 variabel?
ReplyDeleteSaya kurang paham maksud hanya 1 variabel seperti apa. Tapi cara untuk mengidentifikasi outliers 1 varibel juga sama seperti langkah pertama di artikel ini
ReplyDeleteJika outlayer lebih dari setengah data itu knp ya ?
DeleteSaya mau tanya bagaimana jika uji f pada spss f hitung lebih besar daripada f tabel tp sig nya jg ikut lebih besar dari 0,05 ? Apakah itu tetep layak atau tidak
ReplyDeleteSaya mau tanya..batasan outlier itu berapa sih..??kalau sampe 25 outlier ..apakah boleh..?
ReplyDeleteAssalamualaikum
ReplyDeleteMaaf ka mau tanya apakah boleh jika data udah di outlier sekali tetep tidak normal terus di outlier lagi sampe 2 kali itu boleh tidak yaa ka
Mohon jawabannya yaa ka
Terimakasih ka😇
say mau nanyak
ReplyDeleteapakah boleh data yang sudah kita transform terus kita outlierkan lagi?
adakah bahan reftensi seperti ini
Apakah alasan data di outlier itu ada literaturnya ?
ReplyDeleteMas saya mau nanya..
ReplyDeleteJika penguji menanyakan kenapa data kamu menggunakan tranfom data sedangkan tranfom data itu memanipulasikan data ? Jawbnya apa mas
Siang mas, mau nanya . Setelah dilakukan outlier otomatis jmlh data mnjdi berkurang dari data awalnya. Kemudian yg saya mau tanyakan, Data yang digunakan sebagai uji hipotesis itu tetap data awal( sebelum dlkkn outlier) atau data setelah dilakkn outlier? Trmksih
ReplyDeleteOutlier sangat membantu!!
ReplyDeleteSemoga bermanfaat
DeleteMas mau tanya kalau outlier dengan nilai residual ada nggak ya mas? Trus saya kan outlier pakai yang melihat nilai max dan min pada bagian bloxplot terhadap cara descriptix explore itu.. itu ada buku panduannya tidak ya mas? Terima kasih
ReplyDeleteUnntuk olah data untuk tabel coefficients varibel x1 dan x2 tidak signifikan apa bisa kak? Utk olah datanya sudah saya outlier 2kali krn awalnya gk normal tetapi setelah saya outlier 2kali sudah normal tp untuk tabel corfficientsnya belum. Pakai cara apalagi ya pak?🙏🏻
ReplyDeleteThanks, Mr. Hanif and Semesta Team. Reading all of your articles is like summarizing all materials that I've learned from my school. Thank you so much for the simple explanation about this not that complicated statistic. Finding an outliers after reading your article, even if it's just only one outliers, is like a miracle. Bārakallāhu fī kum.
ReplyDeleteJika kita melakukan outlier dua kali
ReplyDeleteDilampiran apakah semua dicantumkan kan semua kak outlier pertama dan kedua?
Saya mau bertanya pak, kan data saya bersih ya gaada outliersnya tapi hasilnya tetep nihil atau tidak berdistribusi normal, itu bagaimana ya pak?
ReplyDeleteSaya mau bertanya pak, bagaimana jika data yg ourlier tersebut memang data yg sebenarnya, apakah harus diganti atau bagaimna pak?
ReplyDeleteAssalamualaikum selamat malam, untuk penjelasan mengenai outlier sangat sangat membantu pak 👍🏼👍🏼👍🏼 mau bertanya juga pak, misal saya kan pake data sekunder perusahaan gitu, 20 perusahaan selama 5 tahun, totalnya 100 lalu setelah outlier jadi 89 nah dari data outlier itu ada dibeberapa perusahaan tidak sampe 5 tahun jadinya, apa kasus seperti ini diperbolehkan dan apakah ada literatur yang sejalan pak? Terima kasih banyak pak sebelumnya 🙏🏻🙏🏻
ReplyDeleteIzin bertanya pak, untuk uji hipotesis menggunakan data sebelum di outlier atau sesudah pak?
ReplyDeletePak, saya mau bertanya, misalkan kalau variabel dengan skala data berupa skala likert 1-5, apakah outlier juga harus dihapus ? Karena mungkin saja fakta di lapangan memang begitu sehingga responden memberikan nilai yang sesuai dengan apa yang dia rasakan. Kalau di hapus nanti mempengaruhi model dan mengaburkan fakta di lapangan
ReplyDeleteId yang dimasukkan ke label case by itu apa ya?
ReplyDelete