Text Mining Menggunakan Naive Bayes

Text Mining Menggunakan Naive Bayes

  2019-01-14 16:59:09     Ulti Desi Arni     Dibaca 21 kali

Text mining merupakan proses ekstraksi pada pola infromasi dan pengetahuan yang akan berguna untuk sumber data tak terstruktur yang jumlahnya sangat besar. Penambahan teks ini pun memiliki tujuan yang digunakan untuk dalam proses yang sama dengan penambahan data, namun ini memiliki masukan yang berbeda. Masukan dalam penambahan teks adalah data yang tidak terstruktur, contoh nya dokumen : word, PDF, kutipan, teks, dll. Sedangkan masukan penambahan data adalah data terstruktur.

Penambahan data teks ini dengan menggunakan proses dua tahap. Yang diawali dengan penerapan struktur terhadap sumber data teks dan dilanjutkan sebuah ekstraksi informasi yang relevan terhadap data teks terstruktur dengan menggunakan teknik yang sama dari penambahan data.

Karena faktor semakin meningkatnya penggunaan aplikasi sistem informasi dalam berbagai bidang, tentu saja berefek pada kebutuhan dalam peningkatan kecepatan pemrosesan data. Pemrosesan data yang dilakukan secara proses semi manual. Dan proses tersebut memiliki beberapa kendala seperti waktu untuk proses lebih lama dan besaran data yang diproses relative sedikit. Metode ini akan diimplementasi menggunakan text mining.

Salah satu permasalahan yang ditangani oleh sistem informasi adalah penemuan kembali informasi menggunakan text mining. Pemanfaatan text mining dalam metode naïve bayes ini sangat bervariasi, diantaranya perangkat bantu untuk mengklasifikasi data.

Penggunaan classifier ini dapat meningkatkan tools sistem operasi berupa kecepatan proses pencarian karena data telah dikelompokkan berdasarkan kategori tertentu secara signifikan. Salah satu metode klasifikasi yang diterapkan yaitu metode naïve bayes.

Kelebihan dari metode NBC ini alias sederhana namun memiliki akurasi yang tinggi. Jadi berdasarkan penelitian dalam untuk memanfaatkan saran kuesioner dalam evaluasi pembelajaran dengan menggunakan NBC menyebutkan metode tersebut dapat memperoleh akurasi mencapai 85,95%. Metode NBC merupakan salah satu metode yang digunakan untuk perhitungan probabilitas. Keuntungan dari penggunaan tersebut adalah hanya dengan membutuhkan sejumlah data kecil yang difungsikan untuk memperkirakan parameter yang diperlukan untuk klasifikasi.

Dalam machine learning, istilah metode NBC ini adalah keluarga dari pengklasifikasi probabilistic sederhana yang menerapkan teorema bayes dengan memiliki pendapat kuat yang berupa pendapat kemandirian diantara fiturnya.

Metode tersebut hanya membutuhkan sejumlah parameter linier dalam jumlah variabel dalam masalah belajar. Pelatihan kemungkinan maksimum hanya dilakukan dengan mengevaluasi ekspresi bentuk tertutup, yang membutuhkan waktu linier, bukan dengan pendekatan berulang.

Naïve bayes adalah sebuah teknik yang sederhana untuk melakukan pengembangan model klasifikasi dengan menetapkan kelas pelabelan dalam contoh masalah, yang akan direpresentasikan sebagai vektor dari nilai tersebut, dimana label kelas itu akan diambil dari beberapa himpunan yang berhingga. Sebuah NBC tersebut akan menganggap masing fitur ini untuk berkontribusi secara independen untuk probabilitas. Untuk beberapa jenis model probabilitas, NBC ini dapat dilatih secara efisien dalam pengaturan supervised learning. Dalam banyak aplikasi yang praktis, estimasi parameter untuk model naïve bayes ini menggunakan metode probabilitas maksimum, dengan kata lain, kita dapat bekerja dengan model naïve bayes tanpa mengetahui konsep probabilitas Bayesian atau menggunakan metode Bayesian.

Hasil perbandingan tersebut dengan algoritma klasifikasi lainnya, akan menunjukkan bahwa naïve bayes lebih unggul dibandingkan berbagai pendekatan lainnya. Kelebihan dari NBC adalah bahwa metode ini hanya membutuhkan sejumlah kecil data pelatihan untuk memperkirakan parameter yang diperlukan dalam klasifikasi.

Contoh implementasi NBC yang telah dijelaskan antara lain :

  1. Penggunaan naïve bayes sebagai filter spam pada email.
  2. Penggunaan naïve bayes untuk pengklasifikasian trending topic twitter.
  3. Penelitian berikut ini menggunakan naïve bayes dan algoritma dalam memprediksi perilaku klien.

 

Penulis : Izul


Sukai/Like Fan Page Facebook Garuda Cyber Indonesia
Subscribe Channel Youtube Garuda Cyber Indonesia
Follow Instagram Garuda Cyber Indonesia
Chat Wa

Signup for Newsletter

Langganan Newsletter dari Garuda Cyber untuk mendapatkan informasi terupdate dari Garuda Cyber Indonesia