Dalam artikel ini akan ditunjukkan penerapan algoritma Term Frequency-Inverse Document Frequency (TF-IDF) yang merupakan salah satu dari algoritma dalam Data Mining untuk sistem temu kembali informasi (information retrieval system). Akan ditunjukkan juga langkah-langkah pembuatan aplikasinya dengan bahasa pemrograman PHP dan database MySQL.
author : cahya dsn
,
published on : February 9th, 2017
updated on : February 9th, 2017
Metode Term Frequency-Inverse Document Frequency (TF-IDF) adalah cara
pemberian bobot hubungan suatu kata (term) terhadap dokumen. Untuk dokumen
tunggal tiap kalimat dianggap sebagai dokumen. Metode ini menggabungkan dua
konsep untuk perhitungan bobot, yaitu Term frequency (TF) merupakan frekuensi
kemunculan kata (t) pada kalimat (d). Document frequency (DF) adalah banyaknya
kalimat dimana suatu kata (t) muncul. Frekuensi kemunculan kata di dalam dokumen
yang diberikan menunjukkan seberapa penting kata itu di dalam dokumen tersebut.
Frekuensi dokumen yang mengandung kata tersebut menunjukkan seberapa umum
kata tersebut. Bobot kata semakin besar jika sering muncul dalam suatu dokumen dan
semakin kecil jika muncul dalam banyak dokumen (Robertson, 2004
). Pada Metode
ini pembobotan kata dalam sebuah dokumen dilakukan dengan mengalikan nilai TF
dan IDF.
Semakin canggihnya teknologi di bidang komputasi dan telekomunikasi pada masa kini, membuat informasi dapat dengan mudah didapatkan oleh banyak orang. Kemudahan ini menyebabkan informasi menjadi semakin banyak dan beragam. Informasi dapat berupa dokumen, berita, surat, cerita, laporan penelitian, data keuangan, dan lain-lain. Tidak dapat dipungkiri lagi informasi telah menjadi komoditi yang paling penting dalam dunia modern masa kini.
Seiring dengan perkembangan informasi, banyak pihak menyadari bahwa masalah utama telah bergeser dari cara mengakses informasi menjadi memilih informasi yang berguna secara selektif. Usaha untuk memilih informasi ternyata lebih besar dari sekedar mendapatkan akses terhadap informasi. Pemilihan atau penemuan kembali informasi ini tidak mungkin dilakukan secara manual karena kumpulan informasi yang sangat besar dan terus bertambah besar.
Sebagai bahan pembelajaran aplikasi Data Mining dengan Algoritma TF-IDF ini; dibuat database (dalam hal ini menggunakan MySQL/MariaDB Database server) sebagai berikut:
CREATE DATABASE IF NOT EXISTS db_dm; USE db_dm;