1. Peranan utama Data Mining
Estimation
Prediction
Classification
Clulstering
Association
2. Algoritma Estimasi : Algoritma estimasi mirip dengan
algoritma klasifikasi, tapi variabel target adalah berupa bilangan numerik (
Algoritma Prediksi : Algoritma prediksi/forecasting saa
dengan algoritma estimasi di mana label/target/class bertipe numerik, bedanya
Algoritma Klasifikasi :Klasifikasi adalah algoitma yang
menggunakan data dengan target/class/label berupa nilai kategorikal (nominal)
Algoritma Klastering :
Klastering adalah pengelompokan data, hasil observasi dan
kasus ke dalam class yang mirip
Suatu klaster
Klastering sering digunakan sebagai tahap awal dalam proses
data mining, dengan hasil klaster yang terbenuk akan menjadi input dari
algoritma berikutnya yang digunakan.
Algoritma Asosiasi
Algoritma association rule adalah algoritma yang menemukan
atribut yang “muncul bersamaan”
Dalam dunia bisnis, sering disebut juga dengan affinity
analysis atau market basket analysis
3. Estimasi mirip dengan algoritma klasifikasi, tapi
variabel target adalah berupa bilangan numerik (kontinyu) dan bukan kategorikal
(nominal atau diskrit). Estimasi nilai dari variabel target ditentukan berdasarkan nilai dari varibel
prediktor (atribut) Algoritma estimasi yang biasa digunakan adalah : Linear
Regression, Neural Network, Support Vector Machine sedangkan Algoritma
prediksi/forecasting saa dengan algoritma estimasi di mana label/target/class
bertipe numerik, bedanya adalah data yang digunakan merupakan data rentet waktu
(data time series).
4. Estimasi hampir sama dengan prediksi, kecuali variabel
target estimasi lebih ke arah numerik dari pada ke arah kategori. Model
dibangun menggunakan record lengkap yang menyediakan nilai dari variabel target
sebagai nilai prediksi. Selanjutnya, pada peninjauan berikutnya estimasi nilai
dari variabel target dibuat berdasarkan nilai variabel prediksi. Klasifikasi
merupakan proses menemukan sebuah model atau fungsi yang mendeskripsikan dan
membedakan data ke dalam kelas-kelas.
5. Klasifikasi merupakan proses menemukan sebuah model atau
fungsi yang mendeskripsikan dan membedakan data ke dalam kelas-kelas. Clustering
merupakan pengelompokan data tanpa berdasarkan kelas data tertentu ke dalam
kelas objek yang sama.
6. Clustering merupakan pengelompokan data tanpa berdasarkan
kelas data tertentu ke dalam kelas objek yang sama. prediksi/forecasting saa
dengan algoritma estimasi di mana label/target/class bertipe numerik, bedanya
adalah data yang digunakan merupakan data rentet waktu (data time series).
7. Supervised learning biasanya bertujuan untuk prediksi,
baik itu klasifikasi maupun numerik prediksi seperti regresi, ciri utamanya
adalah variabel targetnya (yang akan diprediksi) sudah ada. Sementara
unsupervised learning bertujuan untuk deskriptif atau mencari insight dari
data, sebagai misal market basket analysis Dan clustering. Ciri utama adalah
tidak adanya variabel target.
8. Proses utama Data Mining :
Input (Data)
Metode (Algoritma Data Mining)
Output (Pola/Model)
Evaluation (Akurasi, AUC, RMSE,dll) <-Tambahan
Output/Pola/Model/Knowledge :
Formula/Function (Rumus atau fungsi regresi)
Decision Tree (Pohon Keputusan)
Rule (Aturan)
Cluster