SKRIPSI Jurusan Teknik Elektro - Fakultas Teknik UM, 2019

Ukuran Huruf:  Kecil  Sedang  Besar

ANALISIS PERBAIKAN DATA HILANG DENGAN IMPUTASI BERBASIS K-NEAREST NEIGHBOR

murti della murbarani prawidya

Abstrak


RINGKASAN

Murti, Della Murbarani Prawidya.2019. Analisis Perbaikan Data Hilang Dengan Imputasi Berbasis K-Nearest Neighbor. Skripsi, Jurusan Teknik Elektro Fakultas Teknik Universitas Negeri Malang, Pembimbing (I) Aji Prasetya Wibawa, S.T., M.M.T., Ph. D.

Kata Kunci : missing data, imputasi, imputasi K-Nearest Neighbor, Klasifikasi Naive Bayes, Klasifikasi K-NN

Salah satu permasalahan yang terjadi dalam data mining adalah adanya missing data. Missing data dapat diartikan sebagai suatu keadaan dimana terdapat nilai yang kosong atau suatu informasi yang tidak tersedia dalam suatu data. Terdapat beberapa teknik yang dapat dilakukan untuk mengatasi missing data salah satunya dengan mengestimasi nilai atau imputasi data. Imputasi merupakan metode yang digunakan untuk mengisi nilai yang hilang dengan nilai yang berdasarkan dari informasi pada suatu data set.

Penanganan missing data dengan menggunakan metode K-NN sudah bukan hal yang baru karena metode ini merupakan metode yang sederhana dan fleksibel baik pada kontinu maupun data diskrit. Metode K-NN bekerja dengan memperkirakan nilai yang didapatkan dari tetangga terdekat menggunakan jarak Euclidian. Penelitian ini bertujuan untuk mengestimasi nilai yang hilang pada suatu data dengan beberapa simulasi missing data berdasarkan  nilai yang diambil dari tetangga terdekat.  Pengukuran kinerja metode K-NN dilakukan dengan mengklasifikasikan data imputasi menggunakan algoritma Naive Bayes dan K-NN dengan parameter k=5. Sementara evaluasi dilakukan berdasarkan selisih akurasi yang dihasilkan.

Berdasarkan penelitian yang telah dilakukan, menunjukkan bahwa metode K-NN dapat menangani missing data. Setiap algoritma klasifikasi menunjukkan akurasi hasil imputasi dengan parameter k yang berbeda. Parameter k terbaik hasil imputasi dengan algoritma Naive Bayes yakni pada k=5, sedangkan parameter k terbaik hasil imputasi dengan algoritma K-NN yakni pada k=1 dan k=3. Walaupun terdapat perbedaan, metode K-NN mampu digunakan sebagai imputasi dengan hasil yang mendekati akurasi data sebenarnya dengan beberapa kasus missing data yang diberikan serta pengujian pada algoritma yang berbeda.