Tuesday, December 19, 2017

Pengaruh Adanya Outliers terhadap Analisis Statistik

Seringkali kita merasa gagal sebagai peneliti ketika hasil analisis statistik kita ternyata tidak sesuai dengan hipotesis kita atau hasil uji statistik kita tidak signifikan. Menanggapi kemungkinan buruk tersebut, kita seharusnya tidak tergesa-gesa mengambil kesimpulan bahwa hipotesis kita tidak terbukti. Kita harus mencari tahu terlebih dahulu apakah analisis yang kita gunakan sudah tepat, atau data yang kita gunakan sudah benar-benar dapat dipertanggungjawabkan. Salah satu penyebab kacaunya hasil analisis statistik kita adalah karena adanya data outliers.

Apa itu outliers?
Outliers adalah data yang memiliki nilai sangat jauh dari nilai umumnya, atau dengan kata lain memiliki nilai yang ekstrem. Adanya outliers ini dapat berpengaruh pada hasil uji asumsi, seperti uji normalitas, lineraritas, maupun homogenitas varians. Lebih parah lagi, outliers ini dapat berpengaruh pada pegambilan kesimpulan penelitian dari hasil uji statistik. Ada beberapa faktor yang menyebabkan munculnya data outliers, diantaranya adalah:
  • Kesalahan penginputan data
  • Kesalahan pengambilan sampel
  • Subjek yang mengerjakan secara asal-asalan
  • Fakta di lapangan memang demikian

Jika alasan munculnya outliers adalah karena kesalahan penginputan, maka bisa kita koreksi. Namun jika munculnya outliers adalah karena kesalahan pengambilan sampel atau subjek yang mengerjakan secara asal-asalan, maka lebih baik kita bersihkan terlebih dahulu data tersebut sebelum kita melakukan analisis statistik.

Cara mengidentifikasi outliers
Ada berbagai macam cara mengidentifikasi outliers, seperti dengan menampilkan histogram, menampilkan nilai Z, dan boxplot. Secara umum, data disebut outliers jika memiliki nilai Z di atas 2,5 atau di bawah -2,5. Berikut adalah cara mengidentifikasi dengan boxplot di SPSS. Untuk melihat data outliers, kita dapat melakukannya di menu analyze – descriptive statistics – explore. Kemudian kita masukan variabel yang dinyatakan tidak normal, yakni variabel kepuasan ke kotak dependent list, lalu klik menu statistics dan centang bagian outliers. Jika sudah klik continue dan OK.

Untuk melihat data mana saja yang terindikasi sebagai outliers, kita dapat langsung menuju bagian boxplot pada output. Hasil output boxplot data kita dapat dilihat pada gambar di bawah.
Gambar tersebut mengindikasikan data-data mana saja yang terindikasi merupakan data ekstrem atau outliers.  Jika data berada di atas kotak, menunjukkan data ekstrem tinggi, sedangkan jika berada di bawah kotak menunjukkan data ekstrem rendah. Semakin jauh dari kotak, semakin ekstrem data tersebut. Dari output di atas kita dapat melihat bahwa subjek nomer 1, 2, 3, 4, 5 terindikasi sebagai outliers. Subjek nomer 1 dan 2 merupakan subjek yang paling ekstrem nilainya.

Dampak outliers pada uji statistik
Outliers dapat mengubah kesimpulan penelitian yang diambil dari hasil analsis statistik. Berikut ini adalah contoh penelitian mengenai “hubungan antara pelayanan istri dengan kepuasan suami”. Untuk melihat hubungan kedua variabel tersebut di SPSS, dapat dilihat dari menu analyze – correlate – bivariate. Lalu masukkan variabel kepuasan dan pelayanan, lalu klik OK.
Jika dilihat dari output di atas, diperoleh nilai r=0,167 dan p=0,129 (p>0,05), sehingga diperoleh kesimpulan tidak ada hubungan antara pelayanan istri dengan kepuasan suami. Namun apakah memang benar demikian? Mari kita lihat scaterplot dan garis korelasi kedua variabel tersebut.

Untuk melihat scaterplot, klik graph – legacy dialogs – scatter/dot – simple scatter – define. Lalu masukkan variabel kepuasan ke Y axis, pelayanan ke X Axix, dan ID ke label cases by. Kemudian klik options dan centang display charts with case labels.   

Jika sudah tekan continue dan OK, maka kita akan mendapatkan ouput berupa scatterplot. Untuk menampilkan garis korelasi scatterplot kita, doble klik pada gambar scatterplot, lalu klik menu add fit line at total yang berada di atas gambar. Maka akan diperoleh output seperti gambar di bawah ini.
Dari gambar di atas daat kita lihat bahwa terdapat dua subjek yang memiliki nilai jauh sekali dari garis korelasinya. Hal ini tentu akan berpengaruh pada kemiringan garis korelasi. Nilai R square yang menunjukkan sumbangan efektif variabel pelayanan terhadap kepuasan hanya sebesar 0,026 (2,6%). Adanya outliers yakni subjek nomer 1 dan 2 menarik garis korelasi, yang menyebabkan hubungan kedua variabel tersebut menjadi lemah.

Sekarang mari kita coba hapus dua outliers tersebut. Untuk menghapus data subjek, klik kanan pada nomer subjek, lalu pilih clear. Untuk menghapus, jangan lupa, kita menghapus dari subjek yang bawah terlebih dahulu, agar nomer subjek tidak bergeser nantinya. Setelah data outliers tersebut kita hapus, kita anlisis ulang data kita dengan analisis korelasi pearson. Hasil analisis ulang kita adalah sebagai berikut.
Dari output tersebut terlihat bahwa ada hubungan yang signifikan antara pelayanan dengan kepuasan. Nilai r=0,381 dan p<0,01. Nilai ini jauh lebih tinggi dibanding sebelumnya. Sekarang mari kita lihat scatterplotnya kembali. Ulangi prosedur menampilkan scatterplot tadi. Berikut adalah hasilnya.
Dari output tersebut terlihat bahwa garis korelasi menjadi lebih curam, semakin mendekati 45 derajat jika dibanding sebelumnya. Nilai R Square juga meningkat menjadi 0,145 (14,5%).

Simulasi ini menunjukkan bahwa adanya dua subjek yang memiliki nilai ekstrem ternyata dapat membuat pengaruh yang begitu besar dalam kesimpulan hasil analisis statistik. Analisis statistik yang melibatkan outliers, meskipun hanya dua orang, menghasilkan kesimpulan tidak signifikan. Sedangkan ketika outliers dihapus, hasil analisis menjadi signifikan dan nilai R Square juga meningkat. Jadi ketika kita hendak mengambil kesimpulan akan hasil analisis kita, terlebih dahulu kita harus mengecek data kita apakah sudah bersih atau belum.











44 comments:

  1. Mau nanya jika di boxplot muncul 5 data outlier tapi data yang dihapus hanya 1 yaitu data yang paling ekstrem, apakah tindakan tersebut diperbolehkan ?

    Dan kalau boleh tau judul buku yang menjelaskan ttg box plot dan scatterplot itu buku apa ya ?
    Terima kasih ��

    ReplyDelete
    Replies
    1. Boleh sekali, justru lebih baik jika hanya menghapus sedikit subjek yang paling eskrem nilainya. Referensi terkait outliers, boxplot, dan scatterplot bisa dilihat di buku Andy Field: Discovering statistics using SPSS. Buku bisa didownload di halaman download

      Delete
    2. http://semestapsikometrika.blogspot.co.id/p/download.html

      Delete
    3. di halaman berapa ya pak yang menyatakan lebih baik jika hanya menghapus sedikit subjek yang paling ekstrim di buku andi field tersebut?

      Delete
  2. Apakah boleh setelah di outlier dengen melihat nilai zscores tetapi data tidak normal kemudian melakukan outlier kembali dengan boxplot?

    ReplyDelete
    Replies
    1. Apakah ada modul yang mendukung ketika outlier dilakukan dengan zscore kemudian outlier ke dua dengan boxplot?.

      Delete
    2. Referensi terkait outliers, boxplot, dan scatterplot bisa dilihat di buku Andy Field: Discovering statistics using SPSS. Buku bisa didownload di halaman download

      Delete
  3. Apakah bisa melakukan boxplot pertama data belum normal kemudian melakukan bloxpot ke dua kali ?

    ReplyDelete
  4. Apakah bisa melakukan boxplot pertama data belum normal kemudian melakukan bloxpot ke dua kali ?

    ReplyDelete
  5. Silakan saja kalau itu membantu, asalkan jumlah sampel masih tetap mencukupi

    ReplyDelete
  6. Bagaimana jika tidak ada data outlier sdngkan data tidak normal?

    ReplyDelete
    Replies
    1. Bisa digunakan transformasi data atau menggunakan analisis statistik non-parametrik

      Delete
  7. Saya mau bertanya, apakah ada keunggulan tersendiri menggunakan outlier ketimbang transformasi data??

    ReplyDelete
    Replies
    1. Keduanya memiliki kelebihan dan kekurangan masing-masing. Menghilangkan outliers tentu akan mengurangi jumlah sample kita yang juga bisa berdampak pada power statistik kita, namun interpretasi bisa dilakukan sesui dengan skor aslinya. Sementara menggunakan transformasi kita tidak bisa menginterpretasikan skor pada skor asli

      Delete
  8. Saya mau bertanya. Apakah boleh menggunakan data outlier pada penelitian yg menggunan data pertahun. Misal kita mengambil penelitian 5 tahun tiap perusahaan. Setelah menggunakn outlier brrt kn ada yg dihilangkn misalnya 2 tahun dihilangkn. Apakah bisa dipertamggung jwbkn dtnya nnt.. terima kash

    ReplyDelete
  9. Saya mau bertanya ni mas, apabila setelah diuji normalitas dan data yg dihasilkan normal tapi masih memiliki 2 data outlier, apakah data outlier trrsebut harus tetap dibuang?

    ReplyDelete
    Replies
    1. Pak mau bertanya jika kejadiannya seperti ini apakah diperlukan teori yang mendukung kenapa tidak menghapus outlier nya ?

      Delete
    2. Batul, setiap tindakan baik menghapus ataupun mempertahankan outliers harus melalui didukung argumen teoritis atau logis

      Delete
    3. Kalau boleh minta informasi mengenai saran dari bapak mengenai teori dari siapa dan bagaimana yang sekiranya dapat mendukung argumen untuk mempertahankan outlier tersebut pak ? Karena saat ini saya sedang melakukan penelitian dan data saya normal akan tetapi dibagian boxplotnya terdapat data outlier jika data tersebut dihilangkan pada kasus saya data jadi tidak signifikan sehingga saya ingin mempertahankan data tersebut karena data outliernya ada 2 saja namun saya bingung terkait apakah ada argumen secara teoritis yang dapat membantu saya agar data tersebut tetap dapat dipertahankan. mohon sarannya pak. Terima kasih

      Delete
  10. mas saya mau tanya, kalau di contoh kan itu pake 2 variabel. bagaimana jika hanya 1 variabel?

    ReplyDelete
  11. Saya kurang paham maksud hanya 1 variabel seperti apa. Tapi cara untuk mengidentifikasi outliers 1 varibel juga sama seperti langkah pertama di artikel ini

    ReplyDelete
    Replies
    1. Jika outlayer lebih dari setengah data itu knp ya ?

      Delete
  12. Saya mau tanya bagaimana jika uji f pada spss f hitung lebih besar daripada f tabel tp sig nya jg ikut lebih besar dari 0,05 ? Apakah itu tetep layak atau tidak

    ReplyDelete
  13. Saya mau tanya..batasan outlier itu berapa sih..??kalau sampe 25 outlier ..apakah boleh..?

    ReplyDelete
  14. Assalamualaikum
    Maaf ka mau tanya apakah boleh jika data udah di outlier sekali tetep tidak normal terus di outlier lagi sampe 2 kali itu boleh tidak yaa ka
    Mohon jawabannya yaa ka
    Terimakasih ka😇

    ReplyDelete
  15. say mau nanyak
    apakah boleh data yang sudah kita transform terus kita outlierkan lagi?
    adakah bahan reftensi seperti ini

    ReplyDelete
  16. Apakah alasan data di outlier itu ada literaturnya ?

    ReplyDelete
  17. Mas saya mau nanya..
    Jika penguji menanyakan kenapa data kamu menggunakan tranfom data sedangkan tranfom data itu memanipulasikan data ? Jawbnya apa mas

    ReplyDelete
  18. Siang mas, mau nanya . Setelah dilakukan outlier otomatis jmlh data mnjdi berkurang dari data awalnya. Kemudian yg saya mau tanyakan, Data yang digunakan sebagai uji hipotesis itu tetap data awal( sebelum dlkkn outlier) atau data setelah dilakkn outlier? Trmksih

    ReplyDelete
  19. Mas mau tanya kalau outlier dengan nilai residual ada nggak ya mas? Trus saya kan outlier pakai yang melihat nilai max dan min pada bagian bloxplot terhadap cara descriptix explore itu.. itu ada buku panduannya tidak ya mas? Terima kasih

    ReplyDelete
  20. Unntuk olah data untuk tabel coefficients varibel x1 dan x2 tidak signifikan apa bisa kak? Utk olah datanya sudah saya outlier 2kali krn awalnya gk normal tetapi setelah saya outlier 2kali sudah normal tp untuk tabel corfficientsnya belum. Pakai cara apalagi ya pak?🙏🏻

    ReplyDelete
  21. Thanks, Mr. Hanif and Semesta Team. Reading all of your articles is like summarizing all materials that I've learned from my school. Thank you so much for the simple explanation about this not that complicated statistic. Finding an outliers after reading your article, even if it's just only one outliers, is like a miracle. Bārakallāhu fī kum.

    ReplyDelete
  22. Jika kita melakukan outlier dua kali
    Dilampiran apakah semua dicantumkan kan semua kak outlier pertama dan kedua?

    ReplyDelete
  23. Saya mau bertanya pak, kan data saya bersih ya gaada outliersnya tapi hasilnya tetep nihil atau tidak berdistribusi normal, itu bagaimana ya pak?

    ReplyDelete
  24. Saya mau bertanya pak, bagaimana jika data yg ourlier tersebut memang data yg sebenarnya, apakah harus diganti atau bagaimna pak?

    ReplyDelete
  25. Assalamualaikum selamat malam, untuk penjelasan mengenai outlier sangat sangat membantu pak 👍🏼👍🏼👍🏼 mau bertanya juga pak, misal saya kan pake data sekunder perusahaan gitu, 20 perusahaan selama 5 tahun, totalnya 100 lalu setelah outlier jadi 89 nah dari data outlier itu ada dibeberapa perusahaan tidak sampe 5 tahun jadinya, apa kasus seperti ini diperbolehkan dan apakah ada literatur yang sejalan pak? Terima kasih banyak pak sebelumnya 🙏🏻🙏🏻

    ReplyDelete
  26. Izin bertanya pak, untuk uji hipotesis menggunakan data sebelum di outlier atau sesudah pak?

    ReplyDelete
  27. Pak, saya mau bertanya, misalkan kalau variabel dengan skala data berupa skala likert 1-5, apakah outlier juga harus dihapus ? Karena mungkin saja fakta di lapangan memang begitu sehingga responden memberikan nilai yang sesuai dengan apa yang dia rasakan. Kalau di hapus nanti mempengaruhi model dan mengaburkan fakta di lapangan

    ReplyDelete
  28. Id yang dimasukkan ke label case by itu apa ya?

    ReplyDelete