Data Mining 2020

Concept Map

Post author By tif17uinsk
Post date February 4, 2020
No Comments on Concept Map
Sticky post

Aggregation

Pengertian

Agregasi atau aggregation adalah sebuah transformasi data didalam data mining Ayang merupakan operasi summary (peringkasan) diaplikasikan pada data numerik.

Dalam istilah yang lebih sederhana, ini mengacu pada menggabungkan dua atau lebih atribut (atau objek) menjadi atribut tunggal (atau objek).

Tujuan

→ Pengurangan Data

Mengurangi jumlah objek atau atribut. Untuk menghasilkan set data yang lebih kecil dan karenanya membutuhkan lebih sedikit memori dan waktu pemrosesan, dan karenanya, agregasi dapat memungkinkan penggunaan algoritma penambangan data yang lebih mahal.

→ Perubahan Skala

Dapat bekerja sebagai perubahan ruang lingkup atau skala dengan memberikan tampilan data tingkat tinggi alih-alih tampilan tingkat rendah.

Misalnya pada data penjualan harian digabungkan untuk menghitung pendapatan perbulan dan pertahun dengan dirata-rata atau ditotal. Langkah ini dilakukan dengan memanfaatkan operator data cube (operasi roll up/meringkas).

Contoh lain:

Kota-kota dikumpulkan menjadi daerah, negara bagian, negara, dll.
Hari digabungkan menjadi beberapa minggu, bulan, dan tahun.

→ Lebih Banyak Data “Stabil”

Data Teragregasi cenderung memiliki variabilitas yang lebih sedikit.

Terkait

Artikel terkait transformasi data Agregasi yaitu tentang Data Cube Agreggation dapat disimak di tautan berikut.

https://towardsdatascience.com/data-mining-101-dimensionality-and-data-reduction-2a8fa427b092

Mind Map : Data Mining – Preprocessing – Data Transformation – Aggregation

Source:

https://towardsdatascience.com/data-preprocessing-in-data-mining-machine-learning-79a9662e2eb

http://chandraallim.blogspot.com/2018/01/transformasi-data-dalam-tahapan-data.html

by 1710605007 – Andika Rizki Syahputra

Uncategorized

C.4.5

C.4.5 merupakan kelompok algoritma Decision Tree. Algoritma ini mempunyai input berupa training samples dan samples. Training samples berupa data dan contoh yang akan digunakan untuk membangun sebuah tree yang telah diuji kebenarannya. Sedangkan samples merupakan field-field data yang nantinya akan digunakan sebagai parameter dalam melakukan klasifikasi data. Algoritma C.4.5 dibuat oleh Ross Quinlan yang merupakan pengembangan dari ID3 yang juga dibuat oleh Quinlan.

sumber : https://www.labwisnu.com/2018/06/pengertian-algoritma-c45.html

Uncategorized

Normalisasi

Normalisasi pada Data Mining adalah proses penskalaan nilai atribut dari data sehingga bisa jatuh pada range tertentu. Hal ini berguna ketika data berada pada range berbeda dan sulit melihat apakah data tersebut memiliki kontribusi penting ketika proses learning selanjutnya.

sumber : https://opensourcefaisal.blogspot.com/2016/04/normalisasi-pada-data-mining.html

Uncategorized

ID3

Post author By sitililkhawanurriskimukaromah
Post date February 5, 2020
No Comments on ID3

Iterative Dichotomiser 3 (ID3) adalah algoritma decision tree learning
(algoritma pembelajaran pohon keputusan) yang paling dasar. Algoritma ini melakukan pencarian secara menyeluruh (greedy) pada semua kemungkinan pohon keputusan.
Salah satu algoritma induksi pohon keputusan yaitu ID3 (Iterative Dichotomiser 3). ID3 dikembangkan oleh J. Ross Quinlan. Algoritma ID3 dapat diimplementasikan menggunakan fungsi rekursif (fungsi yang memanggil dirinya sendiri). Algoritma ID3 berusaha membangun decision tree (pohon keputusan) secara top-down (dari atas ke bawah) (David, 2004).

Contoh Soal : Kita menggunakan data 10 di bawah ini untuk membentuk suatu pohon keputusan sehingga apabila data baru dapat kita uji menggunkan poho keputusan di bawah ini :

Asal Sekolah (SMA/MA/SMK) NEM(Bahasa, Matematika, B Ing SMA) IPK (Informatika)

NIM	AsalSekolah	Bhs	Mtk	BIng	IPK
1	MA	Istimewa9	Sangat Baik( 7,3)	Baik (5,2)	3,8
2	SMA	Baik5	Cukup (3,1)	Kurang (0,8)	3,4
3	SMK	cukup	Kurang (1,7)	Cukup (3,1)	2,5
4	MA	Baik	Baik (4,3)	Cukup (3,5)	3,3
5	SMA	cukup	Baik (5,2)	Sangatbaik (6,2)	3,6
6	SMK	kurang	Cukup (2,8)	Kurang (1,1)	1,9
7	SMA	baik	Istimewa (9,3)	Sangatbaik (7,5)	3,2
8	SMK	baik	Cukup (2,5)	Baik (4,6)	2,6
9	MA	cukup	Baik (4,4)	Cukup (2,3)	2,8
10	SMA	baik	Sangatbaik (6,8)	Baik (4,3)	3,3

Keterangan:

Istimewa : 8-10

sangat baik : 6-8

baik : 4-6

cukup :2-4

kurang : 0-2

Memuaskan : 3-4

Mengecewakan: 0

Jawab:

NIM	AsalSekolah	Bhs	Mtk	BIng	IPK	Kategori
1	MA	Istimewa	Sangat Baik	Baik	3,8	Memuaskan
2	SMA	Baik	Cukup	Kurang	3,4	Memuaskan
3	SMK	cukup	Kurang	Cukup	2,5	Mengecewakan
4	MA	Baik	Baik	Cukup	3,3	Memuaskan
5	SMA	cukup	Baik	Sangatbaik	3,6	Memuaskan
6	SMK	kurang	Cukup	Kurang	1,9	Mengecewakan
7	SMA	baik	Istimewa	Sangatbaik	3,2	Memuaskan
8	SMK	baik	Cukup	Baik	2,6	Mengecewakan
9	MA	cukup	Baik	Cukup	2,8	Mengecewakan
10	SMA	baik	Sangat Baik	Baik	3,3	Memuaskan
Memuaskan	6
Mengecewakan	4
Total	10

Rumus Entropi

Mencari Entropi total :

Entopi

Entopi 0,970950594

Hitung entropi tiap nilai-nilainya kemudian hitung gain per atributnya dengan rumus=

Sehingga didapatkan hasil:

node	atribut	nilai	frekuensi	Frek. sum	Frek. (puas)	Frek. (kecewa)	entropi	gain
1	Asal Sekolah	MA	3	10	2	1	0,918295834	0,695461844
	SMA	4		4	0	0
	SMK	3		0	3	0
	Bhs	Istimewa	1	10	1	0	0	0,334497797
	Baik	5		4	1	0,721928095
	cukup	3		1	2	0,918295834
	kurang	1		0	1	0
	Mtk	Istimewa	1	10	1	0	0	0,419973094
	Sangat Baik	2		2	0	0
	Baik	3		2	1	0,918295834
	Cukup	3		1	2	0,918295834
	Kurang	1		0	1	0
	Bing	Sangatbaik	2	10	2	0	0	0,219973094
	Baik	3		2	1	0,918295834
	Cukup	3		1	2	0,918295834
	Kurang	2		1	1	1

Karena nilai gain terbesar adalah Gain (Asal Sekolah), maka atribut “Asal Sekolah” menjadi node akar (root node).

Kemudian pada “Asal Sekolah” MA, memiliki 3 kasus dan frekuensi kedua kategori (puas dan kecewa) tidak bernilai 0. Dengan demikian “Asal Sekolah” MA menjadi node.

Sedangkan pada “Asal Sekolah” SMA dan SMK keduanya memiliki nilai 0 pada salah satu frekuensi kategori (puas dan kecewa). Dengan demikian “Asal Sekolah” SMA dan SMK menjadi daun atau leaf.

Sehingga pohon keputusan node 1 menjadi:

Kemudian dilanjutkan dengan perhitungan pada node 1.1

Pilih nilai atribut yang berasal dari “Asal Sekolah” MA. Setelah didapatkan kemudian menghitung kembali entropi tiap nilai atribut tersebut.

Kemudian menghitung kembali Gain tiap atribut dengan menggunakan entropi “Asal Sekolah” yaitu : 0,695461844

Sehingga didapatkan hasil:

node	atribut	nilai	frekuensi	frek sum	Frek. (puas)	Frek. (kecewa)	entropi	gain
1.1	Bhs	Istimewa	1	3	1	0	0	0,918295834
	Baik	1		1	0	0
	cukup	1		0	1	0
	Mtk	Sangat Baik	1	3	1	0	0	0,251629167
	Baik	2		1	1	1
	Bing	Baik	1	3	1	0	0	0,251629167
	Cukup	2		1	1	1

Dari data diatas di dapatkan gain terbesar yaitu Bhs. Sehingga atribut “Bhs” menjadi node 1.1

Kemudian pada atribut “Bhs” memiliki 3 nilai yaitu Istimewa, baik, dan Cukup. Dimana ketiganya memiliki nilai 0 pada salah satu frekuensi kategori (puas dan kecewa). Dengan demikian “Bhs” Istimewa, Baik, dan Cukup menjadi daun atau leaf semua.

Sehingga hasil hasil akhir pohon keputusan menjadi:

DATA UJI

Misal di sajikan data berikut:

Kita mempunyai 10 data baru yang dapat kita gunakan sebagai data uji

NIM	Nama	Asal Sekolah	Bhs	Mtk	B.ing	IPK
1	Lila	MA	9	8	8	3,3
2	April	MA	9	5	7	2,8
3	Seto	SMA	6	8	7.5	2,8
4	Cucum	MA	5	9	8	2,9
5	Indri	SMA	4	7.25	8	2,4
6	Hanif	SMA	8.6	9	9	3,6
7	Aziz	SMA	9	7.25	6	3,0
8	Ilham	MA	8.4	9	7	3,2
9	Iqbal	SMA	4	9	8.6	2,6
10	Alvin	SMK	4	6	8	2,4

Langkah pertama beri keterangan kategori berdasarkan ketentuan awal, sehingga menjadi:

NIM	Nama	Asal Sekolah	Bhs	Mtk	B.Ing	IPK	Kategori
1	Lila	MA	9	Istimewa	8	Sangat Baik	8	Sangat Baik	3,3	Memuaskan
2	April	MA	9	Istimewa	5	Baik	7	Sangat Baik	2,8	Mengecewakan
3	Seto	SMA	6	Baik	8	Sangat Baik	7.5	Istimewa	2,8	Mengecewakan
4	Cucum	MA	5	Baik	9	Istimewa	8	Sangat Baik	2,9	Mengecewakan
5	Indri	SMA	4	Cukup	7.25	Istimewa	8	Sangat Baik	2,4	Mengecewakan
6	Hanif	SMA	8.6	Istimewa	9	Istimewa	9	Istimewa	3,6	Memuaskan
7	Aziz	SMA	9	Istimewa	7.25	Istimewa	6	Baik	3,0	Mengecewakan
8	Ilham	MA	8.4	Istimewa	9	Istimewa	7	Sangat Baik	3,2	Memuaskan
9	Iqbal	SMA	4	Cukup	9	Istimewa	8.6	Istimewa	2,6	Mengecewakan
10	Alvin	SMK	4	Cukup	6	Baik	8	Sangat Baik	2,4	Mengecewakan

Kemudian cek apakah data sudah akurat sesuai dengan pohon tree di atas, hasilnya adalah :

NIM	Nama	Asal Sekolah	Bhs	Mtk	B.Ing	IPK	Kategori	Hasil
1	Lila	MA	9	Istimewa	8	Sangat Baik	8	Sangat Baik	3,3	Memuaskan	Akurat
2	April	MA	9	Istimewa	5	Baik	7	Sangat Baik	2,8	Mengecewakan	tidak akurat
3	Seto	SMA	6	Baik	8	Sangat Baik	7.5	Istimewa	2,8	Mengecewakan	tidak akurat
4	Cucum	MA	5	Baik	9	Istimewa	8	Sangat Baik	2,9	Mengecewakan	tidak akurat
5	Indri	SMA	4	Cukup	7.25	Istimewa	8	Sangat Baik	2,4	Mengecewakan	tidak akurat
6	Hanif	SMA	8.6	Istimewa	9	Istimewa	9	Istimewa	3,6	Memuaskan	akurat
7	Aziz	SMA	9	Istimewa	7.25	Istimewa	6	Baik	3,0	Mengecewakan	tidak akurat
8	Ilham	MA	8.4	Istimewa	9	Istimewa	7	Sangat Baik	3,2	Memuaskan	Akurat
9	Iqbal	SMA	4	Cukup	9	Istimewa	8.6	Istimewa	2,6	Mengecewakan	tidak akurat
10	Alvin	SMK	4	Cukup	6	Baik	8	Sangat Baik	2,4	Mengecewakan	Akurat

Sumber :

Click to access 100742-ID-algoritma-iterative-dichotomiser-3-id3-u.pdf

Uncategorized

DBScan

Nadhij Hakiman Alim – 17106050026

Density-Based Spatial Clustering of Applications with Noise (DBSCAN)
merupakan metode clustering yang digunakkan pada proses machine learning untuk memisahkan antara cluster dengan kepadatan tinggi dari cluster kepadatan rendah.

Berdasarkan seperangkat titik (mari kita berpikir dalam ruang bidimensional), DBSCAN mengelompokkan titik-titik yang berdekatan satu sama lain berdasarkan pengukuran jarak (biasanya jarak Euclidean) dan jumlah titik minimum. Hal ini juga menandai titik-titik yang berada di daerah dengan kepadatan rendah.

Concept Map : Data Mining – Discovery – Unsupervised – Klasterisasi – DBSCAN

Ref:
– https://medium.com/@elutins/dbscan-what-is-it-when-to-use-it-how-to-use-it-8bd506293818
– https://towardsdatascience.com/how-dbscan-works-and-why-should-i-use-it-443b4a191c80

Uncategorized

FP Growth

Nadhij Hakiman Alim – 17106050026

Frequent Growth Algorithm, merupakan peningkatan pada metode Apriori. Algoritma ditujukan untuk menemukan pola, asosiasi, atau struktur sebab akibat dari kumpulan data dalam berbagai jenis database atau repositori data. Algoritma FP Growth mewakili database dalam bentuk pohon yang disebut Frequent Pattern Tree.

Struktur pohon ini akan menjaga hubungan antara itemset. Database dipecah menggunakan satu item yang berulang. Bagian yang terfragmentasi ini disebut “pattern fragment”. Butir pola yang terfragmentasi ini dianalisis. Maka dengan metode ini, waktu pencarian item yang berulang berkurang secara drastis.

Frequent Pattern Tree

FP-Tree adalah struktur mirip pohon yang dibuat dengan itemset awal dari database. Tujuan dari FP-Tree adalah untuk menambang pola yang paling sering berulang. Setiap node dari pohon FP mewakili item dari itemset.

Root node mewakili null sedangkan node yang lebih rendah mewakili itemset. Hubungan node dengan node yang lebih rendah (itemset dengan itemset lainnya) dipertahankan saat membentuk pohon.

Concept Map : Data Mining – Discovery – Unsupervised – Association – Apriori – FP Growth

Ref : https://www.softwaretestinghelp.com/fp-growth-algorithm-data-mining/

Uncategorized

Logistic Regression

Pengertian

Adalah salah satu algoritma dasar dan populer untuk menyelesaikan masalah klasifikasi yang masuk dalam algrotima regresi non-linear. Dinamai sebagai ‘Regresi Logistik’, karena teknik dasarnya cukup mirip dengan Regresi Linier karena masih satu induk yaitu regresi.

Perbedaan Linear Regression dengan Logistic Regression

Algoritma Logistic Regression digunakan untuk masalah klasifikasi, yang berupa analisis prediktif dan didasarkan pada konsep probabilitas.

Tujuan

Tujuan dari regresi logistik adalah untuk memperkirakan probabilitas sebuah peristiwa dengan variabel terikat yang berskala dikotomi.

Skala dikotomi yang dimaksud adalah skala data nominal dengan dua kategori, misalnya: Ya dan Tidak, Baik dan Buruk atau Tinggi dan Rendah.

Sebagai contoh,

Untuk memprediksi apakah email itu spam (1) atau (0)
Apakah tumornya ganas (1) atau tidak (0)

Jenis dari Logistic Regression

1. Regresi Logistik Biner

Tanggapan kategoris hanya memiliki dua 2 hasil yang mungkin. Contoh: Spam atau Tidak

2. Regresi Logistik Multinomial

Tiga atau lebih kategori tanpa memesan. Contoh: Memprediksi makanan mana yang lebih disukai (Veg, Non-Veg, Vegan)

3. Regresi Logistik Ordinal

Tiga atau lebih kategori dengan pemesanan. Contoh: Nilai film dari 1 hingga 5

Fungsi di dalam Logistic Regression

Fungsi Sigmoid

Untuk memetakan nilai prediksi ke probabilitas, kami menggunakan fungsi Sigmoid. Fungsi memetakan setiap nilai nyata menjadi nilai lain antara 0 dan 1. Dalam pembelajaran mesin, kami menggunakan sigmoid untuk memetakan prediksi ke probabilitas.

Representasi Hipotesis

Untuk regresi logistik memodifikasi sedikit dari rumus hipotesis linear regression

Fungsi Biaya

Dalam Linear Regression , fungsi biaya mewakili tujuan optimasi yaitu membuat fungsi biaya dan menguranginya sehingga dapat mengembangkan model yang akurat dengan kesalahan minimum.

Untuk regresi logistik, fungsi Biaya didefinisikan sebagai berikut.

Dua fungsi di atas dapat dikompresi menjadi fungsi tunggal yaitu

Fungsi di atas dikompresi menjadi satu fungsi biaya

Mind Map : Data Mining – Supervised Learning – Regresi – Logistic Regression

Source:

https://towardsdatascience.com/understanding-logistic-regression-9b02c2aec102

https://towardsdatascience.com/logistic-regression-detailed-overview-46c4da4303bc

https://searchbusinessanalytics.techtarget.com/definition/logistic-regression

by 17106050027 – Andika Rizki Syahputra

Uncategorized

Unsupervised Learning

17106050001 – Aprilia Nuryanti

Unsupervised learning adalah salah satu tipe algoritma machine learning yang digunakan untuk menarik kesimpulan dari datasets yang terdiri dari input data labeled response. Metode unsupervised learning yang paling umum adalah analisa cluster, yang digunakan pada analisa data untuk mencari pola-pola tersembunyi atau pengelompokan dalam data. Salah satu algoritma yang digunakan metode unsupervised learning adalah K-Means algoritma.

Pendekatan unsupervised learning tidak menggunakan data latih atau data training untuk melakukan prediksi maupun klasifikasi. perbedaan Supervised Learning dengan Unsupervised Learning yaitu Supervised learning membutuhkan data training (harus dilatih terlebih dahulu) sedangkan unsupervised learning tidak membutuhkan data training (tidak perlu dilatih terlebih dahulu).

Misal dalam kasus pembagian kelompok mahasiswa pada suatu kelas yang akan dikelompokkan menjadi beberapa orang ini kedalam beberapa kelompok. Misalkan jumlah kelompok ada 4. Maka mahasiswa dikelompokkan menurut kesamaan ciri-ciri (atribut): berdasarkan indeks prestasi, jarak tempat tinggal atau gabungan keduanya. Dalam dua dimensi sumbu x merepresentasikan indeks prestasi, sumbu y merepresentasikan jarak tempat tinggal.

Teknik unsupervised : mahasiswa sebagai objek dari tugas kita, bisa dikempokkan dalam 4 kelompok menurut kedekatan IP dan jarak tempat tinggal. Pengelompokan ini, diasumsikan dalam satu kelompok, anggota-anggotanya harus memunyai kemiripan yang tinggi dibanding anggota dari kelompok lain.

Teknik supervised : output dari unsupervised dipakai sebagai guru dalam proses training dengan menggunakan teknik pengenalan pola , Dan dalam pemisahkan data training dan data testing (pelatih) maka diperlukan fungsi pemisah.

Click to access 11342-32740-1-PB.pdf

Uncategorized

kNN

17106050001 – Aprilia Nuryanti

k-nearest neighbor (kNN) termasuk kelompok instance-based learning. Algoritma ini juga merupakan salah satu teknik lazy learning. kNN dilakukan dengan mencari kelompok k objek dalam data training yang paling dekat (mirip) dengan objek pada data baru atau data testing. Contoh kasus, misal diinginkan untuk mencari solusi terhadap masalah seorang pasien baru dengan menggunakan solusi dari pasien lama. Untuk mencari solusi dari pasien baru tersebut digunakan kedekatan dengan kasus pasien lama, solusi dari kasus lama yang memiliki kedekatan dengan kasus baru digunakan sebagai solusinya.

Pada Algoritma kNN terdapat beberapa metode perhitungan seperti Euclidean Distance dan Manhattan. untuk bisa memahami kedua metode perhitungan tersebut, maka perhatikan contoh berikut:

Contoh Perhitungan KNN Metode Euclidean Distance

Diketahui data berikut kemudian lakukan perhitungan Euclidean Distance:

Keterangan: NIM 1-10 merupakan data lama, sedangkan NIM 11-13 merupakan data baru. ingat jika IPK < 3 = Mengecewakan, sedangkan
jika IPK >= 3 = Memuaskan

Kemudian hitung euclidean distance dari masing-masing data setiap nim terhadap masing-masing data baru (nim 11-13) dengan menggunakan rumus:

dimana X2 adalah data lama
sedangkan X1 adalah data baru

serta tidak lupa untuk menentukan nilai terdekat (nilai euclidean terkecil) dengan cara dibuat urutan jarak dari terkecil hingga terbesar.
sehingga didapatkan hasil perhitungan untuk data baru pertama (NIM 11):

Dari hasil perhitungan diatas dengan menggunakan K=3, maka di dapatkan 3 nilai kategori yang semuanya menunjukkan kategori memuaskan. maka dapat disimpulkan bahwa nilai prediksi kategori IPK untuk data baru dengan nim 11 adalah “Memuaskan“.

hasil perhitungan untuk terhadap data baru kedua (NIM 12):

Dari hasil perhitungan diatas dengan menggunakan K=3, maka di dapatkan 3 nilai kategori yang menunjukkan kategori memuaskan, memuaskan, dan mengecewakan. maka dapat disimpulkan bahwa nilai prediksi kategori IPK untuk data baru dengan nim 12 adalah “Memuaskan“.

hasil perhitungan untuk terhadap data baru ketiga (NIM 13):

Dari hasil perhitungan diatas dengan menggunakan K=3, maka di dapatkan 3 nilai kategori yang menunjukkan kategori memuaskan, mengecewakan, dan mengecewakan. maka dapat disimpulkan bahwa nilai prediksi kategori IPK untuk data baru dengan nim 13 adalah “Mengecewakan“.

Setelah menguji 3 data uji, kita mendapatkan nilai prediksi dari setiap data uji yaitu:

selanjutkan kita akan mencari precission, recall, dan accuracy. dari perhitungan diatas.

perlu di pahami :

TP = True Positive

TN =True Negative

FP = False Positive

FN = False Negative

	Rumus	Perhitungan	Hasil
Precission	TP/TP+FP	1/(1+1)	50%
Recall	TP/TP+FN	1/(1+0)	100%
Accuracy	TP+TN/TP+TN+FP+FN	(1+1)/(1+1+1+0)	67%

Contoh Perhitungan KNN Metode Manhattan

Diketahui data berikut kemudian lakukan perhitungan dengan metode Manhattan:

Keterangan: NIM 1-10 merupakan data lama, sedangkan NIM 11-13 merupakan data baru. ingat jika IPK < 3 = Mengecewakan, sedangkan
jika IPK >= 3 = Memuaskan

Kemudian hitung Manhattan dari masing-masing data setiap nim terhadap masing-masing data baru (nim 11-13) dengan menggunakan rumus yang hampir sama dengan rumus euclidean distance hanya saja tidak menggunakan akar.

d_ij = ∑W_k|x_ik – c_jk|.

serta tidak lupa untuk menentukan 3 nilai terdekat (nilai Manhattan terkecil). sehingga didapatkan hasil perhitungan untuk data baru pertama (NIM 11):

hasil perhitungan untuk terhadap data baru kedua (NIM 12):

Dari hasil perhitungan diatas dengan menggunakan K=3, maka di dapatkan 3 nilai kategori yang menunjukkan kategori memuaskan, mengecewakan, mengecewakan. maka dapat disimpulkan bahwa nilai prediksi kategori IPK untuk data baru dengan nim 12 adalah “Mengecewakan“.

hasil perhitungan untuk terhadap data baru ketiga (NIM 13):

Dari hasil perhitungan diatas dengan menggunakan K=3, maka di dapatkan 3 nilai kategori yang semuanya menunjukkan kategori memuaskan, mengecewakan, mengecewakan. maka dapat disimpulkan bahwa nilai prediksi kategori IPK untuk data baru dengan nim 13 adalah “Mengecewakan“.

Setelah menguji 3 data uji, kita mendapatkan nilai prediksi dari setiap data uji yaitu:

Kemudian kita hitung nilai Presisi, Recall, Akurasi :

Presisi	1/(1+0)*100%	100%
Recall	1/(1+0)*100%	100%
Akurasi	(1+2)/(1+2+0+0)*100%	100%

sumber: https://media.neliti.com/media/publications/155541-ID-penerapan-algoritma-k-nearest-neighbor-u.pdf

Uncategorized

Preprocessing

Oleh: Achmad Ibrahim Humam – 17106050029

Data preprocessing adalah tahapan yang sangat penting dalam proses data mining. Data yang ingin diproses untuk data mining tidak selalu dalam bentuk yang ideal, maka perlu adanya data preprocessing untuk membuat data itu lebih ideal untuk diproses.

Di dalam data preprocessing, data disiapkan melalui beberapa tahap agar lebih berguna dan memiliki format yang lebih efisien. Langkah-langkah yang dilakukan dalam data preprocessing adalah kurang lebih sebagai berikut:

Sumber:
Jiawei Han, Micheline Chamber, and Jian Pei. “Data Mining Concepts and Techniques”
https://www.geeksforgeeks.org/data-preprocessing-in-data-mining/