Klastering Dokumen dengan Menambahkan Metadata Menggunakan Algoritma COATES


Indri Nurandini(1*), Arief Fatchul Huda(2)

(1) UIN Sunan Gunung Djati Bandung, Indonesia
(2) UIN Sunan Gunung Djati Bandung, Indonesia
(*) Corresponding Author

Abstract


Text mining adalah proses ekstraksi pola berupa informasi dan pengetahuan yang berguna dari sejumlah besar sumber data tak terstruktur. Salah satu perkembangan text mining adalah ruang lingkup perbaikan dari pemanfaatan sebuah “side information”  yang digunakan untuk membantu proses klastering yang lebih efisien.  “side information”  yang dimiliki data dapat membantu proses text mining jika “side information”  tersebut bersifat informatif. Di dalam “side information” , metadata merupakan bagian dari “side information”  yang dimiliki oleh data. Oleh karena itu, algoritma klastering partisi klasik dan model probabilistik dalam text mining telah dikembangkan untuk memproses data bersama “side information”  dengan menggunakan algoritma Content and Auxiliary attribute Based Text Clustering  (COATES). Adapun proses klastering ini menggunakan inisialisasi klaster dengan algoritma k-means berdasarkan perhitungan jarak euclidean distance.


Keywords


text mining; metadata; klastering teks; algoritma k-means; algoritma COATES

Full Text:

PDF

References


Shraddha S. Bhanuse, Shailesh D. Kamble, Sandeep M. Kakde. “Text Mining using Metadata for Generation of Side Information”.in Proc. ICISP(2015) .pp 807-814.

Wikipedia, “Metadata” (online), (https://id.wikipedia.org/wiki/Metadata. diakses tanggal 5 september, pukul 13.20)

C. C. Aggarwal and H. Wang, Managing and Mining Graph Data.New York, NY, USA: Springer, 2010

C. Silverstein and J. Pedersen, “Almost-constant time clustering of arbitrary corpus sets,” in Proc. ACM SIGIR Conf., New York, NY, USA, 1997, pp. 60–66

C. C. Aggarwal and C.-X. Zhai, Mining Text Data. New York, NY, USA: Springer, 2012.

Ms. Neha Tiwari dan Prof. Gaima Singh. “ A Framework For Mining Of Text Data With The Application Of Side Information”. 2015

Mrunal V. Uspani , dan Rucha C. Samant. “ Clustering and Classification based on Meta Information using COATES and COLT Algorithm”.2015

Monica. M dan Ganesh. J. “An Effective Clistering Approach for Mining Text Data Using Side Information”. 2014

Shilpa S. Raut dan Prof. V. Maral. dul “ Text Clustering and Classification on The Use of Side Information” . 2014

Nikhil Patankar dan Sailee Salkar. “On the use of Side Information Based Improved K-Means Algorithm for Text Clustering”. 2015

Mrunal V. Uspani , dan Rucha C. Samant. “Meta Information Based On Text Clustering and Classification with the Use of COATES and COLT Algorithm”. 2015

C. C. Aggarwal and P. S. Yu, “On text clustering with side information,” in Proc. IEEE ICDE Conf. Washington, DC, USA,2012.




DOI: https://doi.org/10.15575/kubik.v2i2.1859

Refbacks

  • There are currently no refbacks.


Copyright (c) 2017 Indri Nurandini, Arief Fatchul Huda

Creative Commons License
This work is licensed under a Creative Commons Attribution-ShareAlike 4.0 International License.


Journal KUBIK: Jurnal Publikasi Ilmiah Matematika has indexed by:

SINTA DOAJ Dimensions Google Scholar Garuda Moraref DOI Crossref

Creative Commons License
This work is licensed under a Creative Commons Attribution-ShareAlike 4.0 International License.