Analisis kombinasi preprocessing pada klasifikasi artikel ilmiah berbahasa Indonesia menggunakan k-nearest neighbour / Hidayatul Ma\'rifah

Pencarian Spesifik

Pencarian berdasarkan :

SEMUA Pengarang Subjek ISBN/ISSN Pencarian Spesifik

Pencarian terakhir:

Skripsi

Analisis kombinasi preprocessing pada klasifikasi artikel ilmiah berbahasa Indonesia menggunakan k-nearest neighbour / Hidayatul Ma\'rifah

Ma'rifah, Hidayatul - Nama Orang;

Abstrak
RINGKASAN Ma rifah Hidayatul. 2019. Analisis Kombinasi Preprocessing Pada Klasifikasi Artikel Ilmiah Berbahasa Indonesia Menggunakan K-Nearest Neighbour. Skripsi Program Studi S1 Teknik Informatika Jurusan Elektro Fakultas Teknik Universitas Negeri Malang Pembimbing (I) Aji Prasetya Wibawa S.T. M.MT. Ph.D. (II) Muhammad Iqbal Akbar S.ST. M.MT Kata Kunci Text Mining Preprocessing K-Nearest Neighbour Cosine Similarity Preprocessing merupakan bagian yang paling berpengaruh terhadap hasil klasifikasi. Untuk klasifikasi dokumen teks preprocessing terdiri dari beberapa langkah antara lain case folding tokenizing stemming dan stopwords removal. Sejauh ini para peneliti di bidang text mining menggunakan komposisi dan urutan preprocessing yang berbeda-beda untuk dataset yang dikelolanya. Padahal kesalahan dalam implementasi dan pengurutan teknik preprocessing yang kurang tepat akan mengacaukan hasil klasifikasi. Penelitian ini bertujuan untuk menemukan kombinasi dan urutan preprocessing dalam text mining yang paling maksimal untuk klasifikasi bidang jurnal berbahasa Indonesia berdasarkan judul dan abstraknya. 10 Skenario dirancang dengan komposisi dan urutan preprocessing yang berbeda-beda. Dengan skenario yang paling kompleks tersusun dari case folding tokenizing stemming serta dua teknik stopwors removal berbasis kamus dan berbasis document frequency. Pengamatan tiap skenario berfokus pada stemming dan dua stopwords removal yang digunakan. Sehingga dapat diketahui bagaimana implementasi stemming atau stopwords removal dan kolaborasinya memberikan perubahan dokumen serta seberapa baik pengaruhnya terhadap hasil klasifikasi. Kemudian dilakukan analisis mengenai kausal yang menyebabkan tinggi atau rendahnya hasil klasifikasi menggunakan skenario-skenario preprocessing yang diuji. Proses klasifikasi mengadopsi algoritma k-NN (K-Nearest Neighbour) yang menentukan kelas suatu data tes dengan melihat tetangga terdekatnya. Dalam penelitian ini metrik untuk menemukan jarak tetangga terdekat adalah Cosine Similarity. Pengujian klasifikasi menggunakan 10-Fold Cross Validation untuk menghasilkan Confusion Matrix sebagai hasil akhir. Kinerja klasifikasi terbaik dicapai Skenario 10 dengan persentase accuracy precision dan recall masing-masing 72.92% 73.36% dan 72.92%. Komposisi Skenario 10 secara berurutan yaitu case folding tokenizing stopwords removal berbasis kamus stemming dan stopwords removal berbasis document frequency. Sedangkan Skenario yang kinerjannya paling buruk adalah Skenario 4 hasil klasifikasinya memberikan nilai accuracy precision dan recall masing-masing 68.05% 69.98% dan 68.05%. Komposisi preprocessing pada Skenario 4 terdiri dari case folding tokenizing dan stemming.

Informasi Detail

DDC: Rs 005.1 MAR a
Prodi: Universitas Negeri Malang. Program Studi Teknik Informatika, 2019.
Deskripsi Fisik: xiii, 73 lembar : il., tab.; 30 cm.
Bahasa: Indonesia
No Reg: 00017/KI/20
Edisi: Skripsi (Sarjana)--Universitas Negeri Malang. 2019
Subjek: 1. ALGORITMA KOMPUTER
2. K-NEAREST NEIGHBOUR
3. COMPUTER ALGORITHMS
Pembimbing: 1. Aji Prasetya Wibawa; 2. Muhammad Iqbal Akbar

Lampiran Berkas

You must be logged in to get fulltext