PENGGUNAAN KNN (K-NEARST NEIGHBOR) UNTUK KLASIFIKASI TEKS BERITA YANG TAK-TERKELOMPOKKAN PADA SAAT PENGKLASTERAN OLEH STC (SUFFIX TREE CLUSTERING)


Jumadi Jumadi Jumadi(1*), Edi Winarko(2)

(1) Informatics Department, Faculty of Science and Technology UIN Sunan Gunung Djati Bandung, Indonesia
(2) Computer Science and Electronics Department, Faculty of Mathematics and Natural Sciences Universitas Gadjah Mada, Yogyakarta, Indonesia
(*) Corresponding Author

Abstract


Dokumen teks yang dipublikasi di internet dari hari ke hari semakin banyak jumlahnya. Salah satu teknologi internet yang paling sering terjadi proses pemuktahiran konten dokumen teks ini, adalah microblogging yang dijadikan sebagai sarana untuk membangun komunitas di dunia maya dan penyebar informasi yang praktis dan cepat. Salah satunya adalah Twitter yang merupakan salah satu social media dengan jumlah tweet yang dipublikasi dalam hitungan jam oleh para pemilik akun tersebut, khususnya para jurnalis.
Berita-berita yang dipublikasi oleh para jurnalis melaui Twitter terkadang kurang nyaman untuk dibaca oleh para pembaca berita. Karena berita-berita tersebut ditampilkan secara tersusun beruntun ke bawah pada halaman web tersebut. Tetapi setelah tweet-tweet yang ada dikelompokkan secara tematik jadi semakin menarik karena pembaca dapat memilih berita-berita tertentu yang telah dikelompokkan oleh Algoritma Suffix Tree Clustering (STC). Tetapi pada algoritma ini, masih tetap menghasilkan dokumen-dokumen yang tidak memiliki kelompok. Pada Penelitian ini, dokumen-dokumen tersebut mencoba untuk di klasifikasikan ke dalam kelompok yang ada dengan menggunakan Algoritma K-Nearset Neighbor (KNN).

Full Text:

PDF

References


Arifin, A. Z., Darwanto, R., Navastara, D. A., Ciptaningtyas, H. T., 2008, Klasifikasi Online Dokumen Berita dengan Menggunakan Algoritma Suffix Tree Clustering, Seminar Sistem Informasi Indonesia, ITS, Surabaya.

Budhi, G. S., Gunawan I., Yuwono F., 2006, Algoritma Porter Stemmer for Bahasa Indonesia untuk Pre-processing Text Mining Berbasis Metode Market Basket Analysis.

Cao G., Song D., Bruza P., 2003, Suffix Tree Clustering on Post-retrieval Document, Distributed System Technology Center, The University of Queensland

Esko, U., 1995, On-Line Construction of Suffix Trees. In: Algorithmica, Vol. 14, No. 3., pp. 249-260.

Farach. M., 1997, Optimal Suffix Tree Construction with Large Alphabets, In Proc. 38th Annual Symposium on Foundations of Computer Science , pages 137–143. IEEE

Frakes, W.B., and Baeza R., 1992, Information Retrieval, Data Structures and Algorithms.Prentice Hall.

Gusfield D., 1997, Linear-Time Construction of Suffix Tree, University of California, Cambridge University Press

Kusrini dan Luthfi, E.T, 2009, Algoritma Data Mining, Andi Offset, Yogyakarta

Kwok, J. T.-Y., 1998, Automatic Text Categorization Using Support Vector Machine, Proceedings of International Conference on Neural Information Processing, 347-351.

Kwon O., Lee J., 2003, Text Categorization Based on k-Nearest Neighbor Approach for Web Site Classification, Elsevier Science Ltd.

Liao Y., 2002, Review of K-Nearest Neighbor Text Categorization Method, https://www.usenix.org/legacy/events/sec02/full_papers/liao/liao_html/node4.htm, diakses 21 Agustus 2013

Nagwani N. K. dan Verma S., 2011, Software Bug Classification using Suffix Tree Clustering (STC) Algorithm, IJCST vol. 2, Department of CS&E, National Institute of Technology Raipur

Salton, G., 1983, Introduction to Modern Information Retrieval, McGraw-Hill BookCompany, New York.

Sandi, F. R., 2012, Klasifikasi Posting Twitter Kemacetan Lalu Lintas Kota Bandung Menggunakan Naïve Bayesian Classification, Tesis, Program Studi S2 Ilmu Komputer, FMIPA, UGM.

Santosa B., 2007, Data Mining Teknik Pemanfaatan data untuk Keperluan Bisnis, Graha Ilmu.

Snowsill T., 2012, Data Mining in Text Stream using Suffix Tree, Disertasi, Jurusan Matematika Teknik, Fakultas Teknik, Universitas Bristol, United Kingdom.

Pribadi A.A., Martiana E., 2012, Pencarian Judul TA menggunakan Text Mining dan Metode Suffix Tree, Jurusan Tekknik Informatika, ITS

Tala, F. Z., 2003, A Study of Stemming Effects on Information Retrieval in Bahasa Indonesia, Universiteit van Amsterdam, Netherland

Weiss D., Osinki S., 2004, Carrot2 Clustering Framework, Poznan University of Technology, Poznan Poland

Weiner, P., 1973, Linear pattern matching algorithms, in Proceedings of the 14th Annual IEEE Symposium on Switching and Automata Theory, pp. 1–11,

Wicaksono T., 2012, Text Mining untuk Pencarian Dokumen Bahasa Inggris menggunakan Suffix Tree Clustering, Jurusan Teknik Informatika, ITS

Yang R., Xie H., dan Zhu Q., 2011, Sentence-based Suffix Tree Clustering for Web Documents, College of Computer Science, Chongqing University, Hongtao

Zamir, O., Etzioni, O., 1998, Web document clustering: a feasibility demonstration. In: SIGIR 1998, pp. 46-54