Definisi Dan Konsep Data Mining
Secara umum Data Mining terbagi atas dua kata yaitu:
1. Data yaitu Kumpulan Fakta yang terekam atau sebuah
entitas yang tidak memiliki arti dan selama ini terabaikan.
2. Mining yaitu proses Penambangan
Sehingga Data Mining itu
dapat diartikan sebagai proses
penambangan data yang menghasilkan
sebuah ouput (keluaran) berupa pengetahuan.
} Data Mining adalah analisis otomatis dari
data yang berjumlah besar atau kompleks dengan tujuan untuk menemukan pola atau
kecenderungan yang penting yang biasanya tidak disadari keberadaanya.
(Pramudiono,2006)
} Data Mining merupakan analisis dari peninjauan kumpulan data
untuk menemukan hubungan yang tidak diduga dan meringkas data dengan cara
berbeda dengan cara yang berbeda dengan sebelumnya, yang dapat dipahami dan
bermanfaat bagi pemilik data. (Larose, 2005)
Mengapa kita perlu memahami Data Mining?
} Manusia menghasilkan banyak sekali Data yang sangat besar baik
dalam bidang Bisnis, Kedokteran, Cuaca, Olahraga, Politik dan sebagainya.
} Data Mining merupakan bidang dari beberapa bidang
keilmuan yang menyatukan teknik dari
pembelajaran mesin, pengenalan pola, statistic,database, dan visualisasi untuk penanganan permasalahan
pengambilan informasi dari database yang besar. (Larose, 2005)
3 (tiga) fase dalam proses
} Input : HimpunanData
} Proses : Algoritma atau
metode dalam Data Mining itu sendiri
} Output : Pengetahuan
dalam bentuk Pola, Decision Tree,
Cluster dan lainlain
Fase dalam Knowledge
Discovery Database (KDD)
1. Selection
Merupakan operasional sekumpulan datay ang perlu
dilakukan sebelum tahap penggalian informasi dalam KDD. Data
hasil seleksi yang akan digunakan disimpan dalam suatu berkas, terpisah dari
basis data operasional
2. Preprocessing
Mencakup antara lain membuang
duplikasi data, memeriksa data yang inkonsisten, dan memperbaiki kesalahan pada data (tipografi).
Juga dilakukan proses enrichment, yaitu proses “memperkaya” data dengan data
atau informasi yang relevan dan diperlukan untuk KDD.
3. Transformation
Mentransformasi bentuk data yang belum memiliki entitas
yang jelas kedalam bentuk data yang valid.
4. Data Mining
Menerapkan algoritma atau metode
pencarian pengetahuan.
5. Interpratation/Evaluation
Proses pembentukan keluaran yang
mudah dimengerti yang bersumber pada proses Data Mining Pola informasi.
1. Estimasi
Digunakan untuk melakukan estimasi
terhadap sebuah data baru yang tidak memiliki keputusan berdasarkan histori
data yang telah ada.
Contoh : ketika melakukan
Estimasti Pembiayaan pada saat pembangunan sebuah Hotel baru pada Kota yang
berbeda.
2. Asosiasi
Digunakan untuk mengenali kelakuan
dari kejadian khusus atau proses
dimana hubungan asosiasi muncul pada setiap kejadian. Adapun metode
pemecahan masalah yang sering digunakan seperti Algoritma Apriori.
Contoh : Minimarket
melakukan Tata letak produk yang dijual berdasarkan Produk-produk mana yang paling sering dibeli konsumen
3. Klasifikasi
Suatu teknik dengan melihat atribut
dari kelompok yang telah didefinisikan. Teknik ini memberikan klasifikasi pada
data baru dengan memanipulasi data dengan memberikan sejumlah aturan.
Decision tree yaitu salah satu metode klasifikasi yang paling
populer karena mudah untuk interpretasi seperti Algoritma C4.5, ID3.
Contoh : Klasifikasi
siswa yang layak masuk kedalam kelas unggulan atau akselerasi di sekolah tertentu.
4. Klastering
Digunakan untuk menganalisis
pengelompokkan berbeda terhadap data, mirip dengan klasifikasi, namun
pengelompokkan belum didefinisikan sebelum dijalankannya tool data mining.
Biasanya menggunkan metode neural network. Clustering membagi item
menjadi kelompok berdasarkan
yang ditemukan tool data mining.
5. Prediksi
Digunakan untuk memperkirakan atau
forecasting suatu kejadian sebelum peristiwa tertentu terjadi.
Contoh : Memperkirakan tanggal tertentu bagaimana Cuacanya,
apakah Hujan, Panas dll. Ada beberapa metode yang sering digunakan salah
satunya adalah Metode Rough Set.
2 (dua) kelompok data mining :
1. Supervised Learning
Pembelajaran menggunakan guru
(adanya data terlatih) dan biasanya ditandai dengan adanya Class/Label/Target
pada himpunan data. Metode yang digunakan : Metode Prediksi dan Klasifikasi seperti Algoritma C4.5, Metode Rough
Set dll. Contoh : data buku yang sudah dikelompokan kedalam buku masakan,
buku pendidkan, buku kesehatan, dll.
2. Unsupervised Learning
Pembelajaran tanpa menggunakan guru
dan biasanya ditandai pada himpunan datanya yang tidak memiliki attribut
keputusan atau Class/Label/Target. Metode yang digunakan : Metode
Estimasi, Clustering, dan
Asosiasi seperti Regresi Linier, Analytical Hierarchy Clustering
dan lain-lain. Contoh : mengelompokan buku sesuai dengan isinya.
Referensi
STMIK Pelita Nusantara Medan 2015 :
Data Mining