Agregasi atau aggregationadalah sebuah transformasi data didalam data mining Ayang merupakan operasi summary (peringkasan) diaplikasikan pada data numerik.
Dalam istilah yang lebih sederhana, ini mengacu pada menggabungkan dua atau lebih atribut (atau objek) menjadi atribut tunggal (atau objek).
Tujuan
→ Pengurangan Data
Mengurangi jumlah objek atau atribut. Untuk menghasilkan set data yang lebih kecil dan karenanya membutuhkan lebih sedikit memori dan waktu pemrosesan, dan karenanya, agregasi dapat memungkinkan penggunaan algoritma penambangan data yang lebih mahal.
→ Perubahan Skala
Dapat bekerja sebagai perubahan ruang lingkup atau skala dengan memberikan tampilan data tingkat tinggi alih-alih tampilan tingkat rendah.
Misalnya pada data penjualan harian digabungkan untuk menghitung pendapatan perbulan dan pertahun dengan dirata-rata atau ditotal. Langkah ini dilakukan dengan memanfaatkan operator data cube (operasi roll up/meringkas).
Contoh lain:
Kota-kota dikumpulkan menjadi daerah, negara bagian, negara, dll.
Hari digabungkan menjadi beberapa minggu, bulan, dan tahun.
→ Lebih Banyak Data “Stabil”
Data Teragregasi cenderung memiliki variabilitas yang lebih sedikit.
Terkait
Artikel terkait transformasi data Agregasi yaitu tentang Data Cube Agreggationdapat disimak di tautan berikut.
C.4.5 merupakan kelompok algoritma Decision Tree. Algoritma ini mempunyai input berupa training samples dan samples. Training samples berupa data dan contoh yang akan digunakan untuk membangun sebuah tree yang telah diuji kebenarannya. Sedangkan samples merupakan field-field data yang nantinya akan digunakan sebagai parameter dalam melakukan klasifikasi data. Algoritma C.4.5 dibuat oleh Ross Quinlan yang merupakan pengembangan dari ID3 yang juga dibuat oleh Quinlan.
Normalisasi pada Data Mining adalah proses penskalaan nilai atribut dari data sehingga bisa jatuh pada range tertentu. Hal ini berguna ketika data berada pada range berbeda dan sulit melihat apakah data tersebut memiliki kontribusi penting ketika proses learning selanjutnya.
Iterative Dichotomiser 3 (ID3) adalah algoritma decision tree learning (algoritma pembelajaran pohon keputusan) yang paling dasar. Algoritma ini melakukan pencarian secara menyeluruh (greedy) pada semua kemungkinan pohon keputusan. Salah satu algoritma induksi pohon keputusan yaitu ID3 (Iterative Dichotomiser 3). ID3 dikembangkan oleh J. Ross Quinlan. Algoritma ID3 dapat diimplementasikan menggunakan fungsi rekursif (fungsi yang memanggil dirinya sendiri). Algoritma ID3 berusaha membangun decision tree (pohon keputusan) secara top-down (dari atas ke bawah) (David, 2004).
Contoh Soal : Kita menggunakan data 10 di bawah ini untuk membentuk suatu pohon keputusan sehingga apabila data baru dapat kita uji menggunkan poho keputusan di bawah ini :
Asal Sekolah (SMA/MA/SMK) NEM(Bahasa, Matematika, B Ing SMA) IPK (Informatika)
NIM
AsalSekolah
Bhs
Mtk
BIng
IPK
1
MA
Istimewa9
Sangat Baik( 7,3)
Baik (5,2)
3,8
2
SMA
Baik5
Cukup (3,1)
Kurang (0,8)
3,4
3
SMK
cukup
Kurang (1,7)
Cukup (3,1)
2,5
4
MA
Baik
Baik (4,3)
Cukup (3,5)
3,3
5
SMA
cukup
Baik (5,2)
Sangatbaik (6,2)
3,6
6
SMK
kurang
Cukup (2,8)
Kurang (1,1)
1,9
7
SMA
baik
Istimewa (9,3)
Sangatbaik (7,5)
3,2
8
SMK
baik
Cukup (2,5)
Baik (4,6)
2,6
9
MA
cukup
Baik (4,4)
Cukup (2,3)
2,8
10
SMA
baik
Sangatbaik (6,8)
Baik (4,3)
3,3
Keterangan:
Istimewa : 8-10
sangat baik : 6-8
baik : 4-6
cukup :2-4
kurang : 0-2
Memuaskan : 3-4
Mengecewakan: 0
Jawab:
NIM
AsalSekolah
Bhs
Mtk
BIng
IPK
Kategori
1
MA
Istimewa
Sangat Baik
Baik
3,8
Memuaskan
2
SMA
Baik
Cukup
Kurang
3,4
Memuaskan
3
SMK
cukup
Kurang
Cukup
2,5
Mengecewakan
4
MA
Baik
Baik
Cukup
3,3
Memuaskan
5
SMA
cukup
Baik
Sangatbaik
3,6
Memuaskan
6
SMK
kurang
Cukup
Kurang
1,9
Mengecewakan
7
SMA
baik
Istimewa
Sangatbaik
3,2
Memuaskan
8
SMK
baik
Cukup
Baik
2,6
Mengecewakan
9
MA
cukup
Baik
Cukup
2,8
Mengecewakan
10
SMA
baik
Sangat Baik
Baik
3,3
Memuaskan
Memuaskan
6
Mengecewakan
4
Total
10
Rumus Entropi
Mencari Entropi total :
Entopi
Entopi 0,970950594
Hitung entropi tiap nilai-nilainya kemudian hitung gain per atributnya dengan rumus=
Sehingga didapatkan hasil:
node
atribut
nilai
frekuensi
Frek. sum
Frek. (puas)
Frek. (kecewa)
entropi
gain
1
Asal Sekolah
MA
3
10
2
1
0,918295834
0,695461844
SMA
4
4
0
0
SMK
3
0
3
0
Bhs
Istimewa
1
10
1
0
0
0,334497797
Baik
5
4
1
0,721928095
cukup
3
1
2
0,918295834
kurang
1
0
1
0
Mtk
Istimewa
1
10
1
0
0
0,419973094
Sangat Baik
2
2
0
0
Baik
3
2
1
0,918295834
Cukup
3
1
2
0,918295834
Kurang
1
0
1
0
Bing
Sangatbaik
2
10
2
0
0
0,219973094
Baik
3
2
1
0,918295834
Cukup
3
1
2
0,918295834
Kurang
2
1
1
1
Karena nilai gain terbesar adalah Gain (Asal Sekolah), maka atribut “Asal Sekolah” menjadi node akar (root node).
Kemudian pada “Asal Sekolah” MA, memiliki 3 kasus dan frekuensi kedua kategori (puas dan kecewa) tidak bernilai 0. Dengan demikian “Asal Sekolah” MA menjadi node.
Sedangkan pada “Asal Sekolah” SMA dan SMK keduanya memiliki nilai 0 pada salah satu frekuensi kategori (puas dan kecewa). Dengan demikian “Asal Sekolah” SMA dan SMK menjadi daun atau leaf.
Sehingga pohon keputusan node 1 menjadi:
Kemudian dilanjutkan dengan perhitungan pada node 1.1
Pilih nilai atribut yang berasal dari “Asal Sekolah” MA. Setelah didapatkan kemudian menghitung kembali entropi tiap nilai atribut tersebut.
Kemudian menghitung kembali Gain tiap atribut dengan menggunakan entropi “Asal Sekolah” yaitu : 0,695461844
Sehingga didapatkan hasil:
node
atribut
nilai
frekuensi
frek sum
Frek. (puas)
Frek. (kecewa)
entropi
gain
1.1
Bhs
Istimewa
1
3
1
0
0
0,918295834
Baik
1
1
0
0
cukup
1
0
1
0
Mtk
Sangat Baik
1
3
1
0
0
0,251629167
Baik
2
1
1
1
Bing
Baik
1
3
1
0
0
0,251629167
Cukup
2
1
1
1
Dari data diatas di dapatkan gain terbesar yaitu Bhs. Sehingga atribut “Bhs” menjadi node 1.1
Kemudian pada atribut “Bhs” memiliki 3 nilai yaitu Istimewa, baik, dan Cukup. Dimana ketiganya memiliki nilai 0 pada salah satu frekuensi kategori (puas dan kecewa). Dengan demikian “Bhs” Istimewa, Baik, dan Cukup menjadi daun atau leaf semua.
Sehingga hasil hasil akhir pohon keputusan menjadi:
DATA UJI
Misal di sajikan data berikut:
Kita mempunyai 10 data baru yang dapat kita gunakan sebagai data uji
NIM
Nama
Asal Sekolah
Bhs
Mtk
B.ing
IPK
1
Lila
MA
9
8
8
3,3
2
April
MA
9
5
7
2,8
3
Seto
SMA
6
8
7.5
2,8
4
Cucum
MA
5
9
8
2,9
5
Indri
SMA
4
7.25
8
2,4
6
Hanif
SMA
8.6
9
9
3,6
7
Aziz
SMA
9
7.25
6
3,0
8
Ilham
MA
8.4
9
7
3,2
9
Iqbal
SMA
4
9
8.6
2,6
10
Alvin
SMK
4
6
8
2,4
Langkah pertama beri keterangan kategori berdasarkan ketentuan awal, sehingga menjadi:
NIM
Nama
Asal Sekolah
Bhs
Mtk
B.Ing
IPK
Kategori
1
Lila
MA
9
Istimewa
8
Sangat Baik
8
Sangat Baik
3,3
Memuaskan
2
April
MA
9
Istimewa
5
Baik
7
Sangat Baik
2,8
Mengecewakan
3
Seto
SMA
6
Baik
8
Sangat Baik
7.5
Istimewa
2,8
Mengecewakan
4
Cucum
MA
5
Baik
9
Istimewa
8
Sangat Baik
2,9
Mengecewakan
5
Indri
SMA
4
Cukup
7.25
Istimewa
8
Sangat Baik
2,4
Mengecewakan
6
Hanif
SMA
8.6
Istimewa
9
Istimewa
9
Istimewa
3,6
Memuaskan
7
Aziz
SMA
9
Istimewa
7.25
Istimewa
6
Baik
3,0
Mengecewakan
8
Ilham
MA
8.4
Istimewa
9
Istimewa
7
Sangat Baik
3,2
Memuaskan
9
Iqbal
SMA
4
Cukup
9
Istimewa
8.6
Istimewa
2,6
Mengecewakan
10
Alvin
SMK
4
Cukup
6
Baik
8
Sangat Baik
2,4
Mengecewakan
Kemudian cek apakah data sudah akurat sesuai dengan pohon tree di atas, hasilnya adalah :
Density-Based Spatial Clustering of Applications with Noise (DBSCAN) merupakan metode clustering yang digunakkan pada proses machine learning untuk memisahkan antara cluster dengan kepadatan tinggi dari cluster kepadatan rendah.
Berdasarkan seperangkat titik (mari kita berpikir dalam ruang bidimensional), DBSCAN mengelompokkan titik-titik yang berdekatan satu sama lain berdasarkan pengukuran jarak (biasanya jarak Euclidean) dan jumlah titik minimum. Hal ini juga menandai titik-titik yang berada di daerah dengan kepadatan rendah.
Frequent Growth Algorithm, merupakan peningkatan pada metode Apriori. Algoritma ditujukan untuk menemukan pola, asosiasi, atau struktur sebab akibat dari kumpulan data dalam berbagai jenis database atau repositori data. Algoritma FP Growth mewakili database dalam bentuk pohon yang disebut Frequent Pattern Tree.
Struktur pohon ini akan menjaga hubungan antara itemset. Database dipecah menggunakan satu item yang berulang. Bagian yang terfragmentasi ini disebut “pattern fragment”. Butir pola yang terfragmentasi ini dianalisis. Maka dengan metode ini, waktu pencarian item yang berulang berkurang secara drastis.
Frequent Pattern Tree
FP-Tree adalah struktur mirip pohon yang dibuat dengan itemset awal dari database. Tujuan dari FP-Tree adalah untuk menambang pola yang paling sering berulang. Setiap node dari pohon FP mewakili item dari itemset.
Root node mewakili null sedangkan node yang lebih rendah mewakili itemset. Hubungan node dengan node yang lebih rendah (itemset dengan itemset lainnya) dipertahankan saat membentuk pohon.
Concept Map : Data Mining – Discovery – Unsupervised – Association – Apriori – FP Growth
Adalah salah satu algoritma dasar dan populer untuk menyelesaikan masalah klasifikasi yang masuk dalam algrotima regresi non-linear. Dinamai sebagai ‘Regresi Logistik’, karena teknik dasarnya cukup mirip dengan Regresi Linier karena masih satu induk yaitu regresi.
Perbedaan Linear Regression dengan Logistic Regression
Algoritma Logistic Regression digunakan untuk masalah klasifikasi, yang berupa analisis prediktif dan didasarkan pada konsep probabilitas.
Tujuan
Tujuan dari regresi logistik adalah untuk memperkirakan probabilitas sebuah peristiwa dengan variabel terikat yang berskala dikotomi.
Model Logistic Regression
Skala dikotomi yang dimaksud adalah skala data nominal dengan dua kategori, misalnya: Ya dan Tidak, Baik dan Buruk atau Tinggi dan Rendah.
Sebagai contoh,
Untuk memprediksi apakah email itu spam (1) atau (0)
Apakah tumornya ganas (1) atau tidak (0)
Jenis dari Logistic Regression
1. Regresi Logistik Biner
Tanggapan kategoris hanya memiliki dua 2 hasil yang mungkin. Contoh: Spam atau Tidak
2. Regresi Logistik Multinomial
Tiga atau lebih kategori tanpa memesan. Contoh: Memprediksi makanan mana yang lebih disukai (Veg, Non-Veg, Vegan)
3. Regresi Logistik Ordinal
Tiga atau lebih kategori dengan pemesanan. Contoh: Nilai film dari 1 hingga 5
Fungsi di dalam Logistic Regression
Fungsi Sigmoid
Untuk memetakan nilai prediksi ke probabilitas, kami menggunakan fungsi Sigmoid. Fungsi memetakan setiap nilai nyata menjadi nilai lain antara 0 dan 1. Dalam pembelajaran mesin, kami menggunakan sigmoid untuk memetakan prediksi ke probabilitas.
Grafik Fungsi Simoid
Representasi Hipotesis
Untuk regresi logistik memodifikasi sedikit dari rumus hipotesis linear regression
Hipotesis Regresi Logistik
Fungsi Biaya
Dalam Linear Regression , fungsi biaya mewakili tujuan optimasi yaitu membuat fungsi biaya dan menguranginya sehingga dapat mengembangkan model yang akurat dengan kesalahan minimum.
Untuk regresi logistik, fungsi Biaya didefinisikan sebagai berikut.
Fungsi biaya Regresi Logistik
Dua fungsi di atas dapat dikompresi menjadi fungsi tunggal yaitu
Fungsi di atas dikompresi menjadi satu fungsi biaya
Mind Map : Data Mining – Supervised Learning – Regresi – Logistic Regression
Unsupervised learning adalah salah satu tipe algoritma machine learning yang digunakan untuk menarik kesimpulan dari datasets yang terdiri dari input data labeled response. Metode unsupervised learning yang paling umum adalah analisa cluster, yang digunakan pada analisa data untuk mencari pola-pola tersembunyi atau pengelompokan dalam data. Salah satu algoritma yang digunakan metode unsupervised learning adalah K-Means algoritma.
Pendekatan unsupervised learning tidak menggunakan data latih atau data training untuk melakukan prediksi maupun klasifikasi. perbedaan Supervised Learning dengan Unsupervised Learning yaitu Supervised learning membutuhkan data training (harus dilatih terlebih dahulu) sedangkan unsupervised learning tidak membutuhkan data training (tidak perlu dilatih terlebih dahulu).
Misal dalam kasus pembagian kelompok mahasiswa pada suatu kelas yang akan dikelompokkan menjadi beberapa orang ini kedalam beberapa kelompok. Misalkan jumlah kelompok ada 4. Maka mahasiswa dikelompokkan menurut kesamaan ciri-ciri (atribut): berdasarkan indeks prestasi, jarak tempat tinggal atau gabungan keduanya. Dalam dua dimensi sumbu x merepresentasikan indeks prestasi, sumbu y merepresentasikan jarak tempat tinggal.
Teknik unsupervised : mahasiswa sebagai objek dari tugas kita, bisa dikempokkan dalam 4 kelompok menurut kedekatan IP dan jarak tempat tinggal. Pengelompokan ini, diasumsikan dalam satu kelompok, anggota-anggotanya harus memunyai kemiripan yang tinggi dibanding anggota dari kelompok lain.
Teknik supervised : output dari unsupervised dipakai sebagai guru dalam proses training dengan menggunakan teknik pengenalan pola , Dan dalam pemisahkan data training dan data testing (pelatih) maka diperlukan fungsi pemisah.
k-nearest neighbor (kNN) termasuk kelompok instance-based learning. Algoritma ini juga merupakan salah satu teknik lazy learning. kNN dilakukan dengan mencari kelompok k objek dalam data training yang paling dekat (mirip) dengan objek pada data baru atau data testing. Contoh kasus, misal diinginkan untuk mencari solusi terhadap masalah seorang pasien baru dengan menggunakan solusi dari pasien lama. Untuk mencari solusi dari pasien baru tersebut digunakan kedekatan dengan kasus pasien lama, solusi dari kasus lama yang memiliki kedekatan dengan kasus baru digunakan sebagai solusinya.
Pada Algoritma kNN terdapat beberapa metode perhitungan seperti Euclidean Distance dan Manhattan. untuk bisa memahami kedua metode perhitungan tersebut, maka perhatikan contoh berikut:
Contoh Perhitungan KNN Metode Euclidean Distance
Diketahui data berikut kemudian lakukan perhitungan Euclidean Distance:
Keterangan: NIM 1-10 merupakan data lama, sedangkan NIM 11-13 merupakan data baru. ingat jika IPK < 3 = Mengecewakan, sedangkan jika IPK >= 3 = Memuaskan
Kemudian hitung euclidean distance dari masing-masing data setiap nim terhadap masing-masing data baru (nim 11-13) dengan menggunakan rumus:
dimana X2 adalah data lama sedangkan X1 adalah data baru
serta tidak lupa untuk menentukan nilai terdekat (nilai euclidean terkecil) dengan cara dibuat urutan jarak dari terkecil hingga terbesar. sehingga didapatkan hasil perhitungan untuk data baru pertama (NIM 11):
Dari hasil perhitungan diatas dengan menggunakan K=3, maka di dapatkan 3 nilai kategori yang semuanya menunjukkan kategori memuaskan. maka dapat disimpulkan bahwa nilai prediksi kategori IPK untuk data baru dengan nim 11 adalah “Memuaskan“.
hasil perhitungan untuk terhadap data baru kedua (NIM 12):
Dari hasil perhitungan diatas dengan menggunakan K=3, maka di dapatkan 3 nilai kategori yang menunjukkan kategori memuaskan, memuaskan, dan mengecewakan. maka dapat disimpulkan bahwa nilai prediksi kategori IPK untuk data baru dengan nim 12 adalah “Memuaskan“.
hasil perhitungan untuk terhadap data baru ketiga (NIM 13):
Dari hasil perhitungan diatas dengan menggunakan K=3, maka di dapatkan 3 nilai kategori yang menunjukkan kategori memuaskan, mengecewakan, dan mengecewakan. maka dapat disimpulkan bahwa nilai prediksi kategori IPK untuk data baru dengan nim 13 adalah “Mengecewakan“.
Setelah menguji 3 data uji, kita mendapatkan nilai prediksi dari setiap data uji yaitu:
selanjutkan kita akan mencari precission, recall, dan accuracy. dari perhitungan diatas.
perlu di pahami :
TP = True Positive
TN =True Negative
FP = False Positive
FN = False Negative
Rumus
Perhitungan
Hasil
Precission
TP/TP+FP
1/(1+1)
50%
Recall
TP/TP+FN
1/(1+0)
100%
Accuracy
TP+TN/TP+TN+FP+FN
(1+1)/(1+1+1+0)
67%
Contoh Perhitungan KNN Metode Manhattan
Diketahui data berikut kemudian lakukan perhitungan dengan metode Manhattan:
Keterangan: NIM 1-10 merupakan data lama, sedangkan NIM 11-13 merupakan data baru. ingat jika IPK < 3 = Mengecewakan, sedangkan jika IPK >= 3 = Memuaskan
Kemudian hitung Manhattan dari masing-masing data setiap nim terhadap masing-masing data baru (nim 11-13) dengan menggunakan rumus yang hampir sama dengan rumus euclidean distance hanya saja tidak menggunakan akar.
dij = ∑Wk|xik – cjk|.
serta tidak lupa untuk menentukan 3 nilai terdekat (nilai Manhattan terkecil). sehingga didapatkan hasil perhitungan untuk data baru pertama (NIM 11):
Dari hasil perhitungan diatas dengan menggunakan K=3, maka di dapatkan 3 nilai kategori yang semuanya menunjukkan kategori memuaskan. maka dapat disimpulkan bahwa nilai prediksi kategori IPK untuk data baru dengan nim 11 adalah “memuaskan“.
hasil perhitungan untuk terhadap data baru kedua (NIM 12):
Dari hasil perhitungan diatas dengan menggunakan K=3, maka di dapatkan 3 nilai kategori yang menunjukkan kategori memuaskan, mengecewakan, mengecewakan. maka dapat disimpulkan bahwa nilai prediksi kategori IPK untuk data baru dengan nim 12 adalah “Mengecewakan“.
hasil perhitungan untuk terhadap data baru ketiga (NIM 13):
Dari hasil perhitungan diatas dengan menggunakan K=3, maka di dapatkan 3 nilai kategori yang semuanya menunjukkan kategori memuaskan, mengecewakan, mengecewakan. maka dapat disimpulkan bahwa nilai prediksi kategori IPK untuk data baru dengan nim 13 adalah “Mengecewakan“.
Setelah menguji 3 data uji, kita mendapatkan nilai prediksi dari setiap data uji yaitu:
Kemudian kita hitung nilai Presisi, Recall, Akurasi :
Data preprocessing adalah tahapan yang sangat penting dalam proses data mining. Data yang ingin diproses untuk data mining tidak selalu dalam bentuk yang ideal, maka perlu adanya data preprocessing untuk membuat data itu lebih ideal untuk diproses.
Di dalam data preprocessing, data disiapkan melalui beberapa tahap agar lebih berguna dan memiliki format yang lebih efisien. Langkah-langkah yang dilakukan dalam data preprocessing adalah kurang lebih sebagai berikut: