Categories
Uncategorized

ID3

Iterative Dichotomiser 3 (ID3) adalah algoritma decision tree learning
(algoritma pembelajaran pohon keputusan) yang paling dasar. Algoritma ini melakukan pencarian secara menyeluruh (greedy) pada semua kemungkinan pohon keputusan.
Salah satu algoritma induksi pohon keputusan yaitu ID3 (Iterative Dichotomiser 3). ID3 dikembangkan oleh J. Ross Quinlan. Algoritma ID3 dapat diimplementasikan menggunakan fungsi rekursif (fungsi yang memanggil dirinya sendiri). Algoritma ID3 berusaha membangun decision tree (pohon keputusan) secara top-down (dari atas ke bawah) (David, 2004).

Contoh Soal : Kita menggunakan data 10 di bawah ini untuk membentuk suatu pohon keputusan sehingga apabila data baru dapat kita uji menggunkan poho keputusan di bawah ini :

Asal Sekolah (SMA/MA/SMK) NEM(Bahasa, Matematika, B Ing SMA) IPK (Informatika)

NIMAsalSekolahBhsMtkBIngIPK
1MAIstimewa9Sangat Baik( 7,3)Baik (5,2)3,8
2SMABaik5Cukup (3,1)Kurang (0,8)3,4
3SMKcukupKurang (1,7)Cukup (3,1)2,5
4MABaikBaik (4,3)Cukup (3,5)3,3
5SMAcukupBaik (5,2)Sangatbaik (6,2)3,6
6SMKkurangCukup (2,8)Kurang (1,1)1,9
7SMAbaikIstimewa (9,3)Sangatbaik (7,5)3,2
8SMKbaikCukup (2,5)Baik (4,6)2,6
9MAcukupBaik (4,4)Cukup (2,3)2,8
10SMAbaikSangatbaik (6,8)Baik (4,3)3,3

Keterangan:

Istimewa         : 8-10

sangat baik      : 6-8

baik                 : 4-6

cukup              :2-4

kurang             : 0-2

Memuaskan     : 3-4

Mengecewakan: 0

Jawab:

NIMAsalSekolahBhsMtkBIngIPKKategori
1MAIstimewaSangat BaikBaik3,8Memuaskan
2SMABaikCukupKurang3,4Memuaskan
3SMKcukupKurangCukup2,5Mengecewakan
4MABaikBaikCukup3,3Memuaskan
5SMAcukupBaikSangatbaik3,6Memuaskan
6SMKkurangCukupKurang1,9Mengecewakan
7SMAbaikIstimewaSangatbaik3,2Memuaskan
8SMKbaikCukupBaik2,6Mengecewakan
9MAcukupBaikCukup2,8Mengecewakan
10SMAbaikSangat BaikBaik3,3Memuaskan
Memuaskan6 
Mengecewakan4 
Total10 

Rumus Entropi

Mencari Entropi total :

Entopi

Entopi  0,970950594

Hitung entropi tiap nilai-nilainya kemudian hitung gain per atributnya dengan rumus=

Sehingga didapatkan hasil:

nodeatributnilaifrekuensiFrek. sumFrek. (puas)Frek. (kecewa)entropigain
1Asal SekolahMA310210,9182958340,695461844
 SMA4 400
 SMK3 030
 BhsIstimewa1101000,334497797
 Baik5 410,721928095
 cukup3 120,918295834
 kurang1 010
 MtkIstimewa1101000,419973094
 Sangat Baik2 200
 Baik3 210,918295834
 Cukup3 120,918295834
 Kurang1 010
 BingSangatbaik2102000,219973094
 Baik3 210,918295834
 Cukup3 120,918295834
 Kurang2 111

Karena nilai gain terbesar adalah Gain (Asal Sekolah), maka atribut “Asal Sekolah” menjadi node akar (root node).

Kemudian pada “Asal Sekolah” MA, memiliki 3 kasus dan frekuensi kedua kategori (puas dan kecewa) tidak bernilai 0. Dengan demikian “Asal Sekolah” MA menjadi node.

Sedangkan pada “Asal Sekolah” SMA dan SMK keduanya memiliki nilai 0 pada salah satu frekuensi kategori (puas dan kecewa). Dengan demikian “Asal Sekolah” SMA dan SMK menjadi daun atau leaf.

Sehingga pohon keputusan node 1 menjadi:

Kemudian dilanjutkan dengan perhitungan pada node 1.1

Pilih nilai atribut yang berasal dari “Asal Sekolah” MA. Setelah didapatkan kemudian menghitung kembali entropi tiap nilai atribut tersebut.

Kemudian menghitung kembali Gain tiap atribut dengan menggunakan entropi “Asal Sekolah” yaitu : 0,695461844

Sehingga didapatkan hasil:

nodeatributnilaifrekuensifrek sumFrek. (puas)Frek. (kecewa)entropigain
1.1BhsIstimewa131000,918295834
 Baik1 100 
 cukup1 010 
 MtkSangat Baik131000,251629167
 Baik2 111 
 BingBaik131000,251629167
 Cukup2 111 

Dari data diatas di dapatkan gain terbesar yaitu Bhs. Sehingga atribut “Bhs” menjadi node 1.1

Kemudian pada atribut “Bhs” memiliki 3 nilai yaitu Istimewa, baik, dan Cukup. Dimana ketiganya memiliki nilai 0 pada salah satu frekuensi kategori (puas dan kecewa). Dengan demikian “Bhs” Istimewa, Baik, dan Cukup menjadi daun atau leaf semua.

Sehingga hasil hasil akhir pohon keputusan menjadi:

DATA UJI

Misal di sajikan data berikut:

Kita mempunyai 10 data baru yang dapat kita gunakan sebagai data uji

NIMNamaAsal SekolahBhsMtkB.ingIPK
1LilaMA9883,3
2AprilMA9572,8
3SetoSMA687.52,8
4CucumMA5982,9
5IndriSMA47.2582,4
6HanifSMA8.6993,6
7AzizSMA97.2563,0
8IlhamMA8.4973,2
9IqbalSMA498.62,6
10AlvinSMK4682,4

Langkah pertama beri keterangan kategori berdasarkan ketentuan awal, sehingga menjadi:

NIMNamaAsal SekolahBhsMtkB.IngIPKKategori
1LilaMA9Istimewa8Sangat Baik8Sangat Baik3,3Memuaskan
2AprilMA9Istimewa5Baik7Sangat Baik2,8Mengecewakan
3SetoSMA6Baik8Sangat Baik7.5Istimewa2,8Mengecewakan
4CucumMA5Baik9Istimewa8Sangat Baik2,9Mengecewakan
5IndriSMA4Cukup7.25Istimewa8Sangat Baik2,4Mengecewakan
6HanifSMA8.6Istimewa9Istimewa9Istimewa3,6Memuaskan
7AzizSMA9Istimewa7.25Istimewa6Baik3,0Mengecewakan
8IlhamMA8.4Istimewa9Istimewa7Sangat Baik3,2Memuaskan
9IqbalSMA4Cukup9Istimewa8.6Istimewa2,6Mengecewakan
10AlvinSMK4Cukup6Baik8Sangat Baik2,4Mengecewakan

Kemudian cek apakah data sudah akurat sesuai dengan pohon tree di atas, hasilnya adalah :

NIMNamaAsal SekolahBhsMtkB.IngIPKKategoriHasil
1LilaMA9Istimewa8Sangat Baik8Sangat Baik3,3MemuaskanAkurat
2AprilMA9Istimewa5Baik7Sangat Baik2,8Mengecewakantidak akurat
3SetoSMA6Baik8Sangat Baik7.5Istimewa2,8Mengecewakantidak akurat
4CucumMA5Baik9Istimewa8Sangat Baik2,9Mengecewakantidak akurat
5IndriSMA4Cukup7.25Istimewa8Sangat Baik2,4Mengecewakantidak akurat
6HanifSMA8.6Istimewa9Istimewa9Istimewa3,6Memuaskanakurat
7AzizSMA9Istimewa7.25Istimewa6Baik3,0Mengecewakantidak akurat
8IlhamMA8.4Istimewa9Istimewa7Sangat Baik3,2MemuaskanAkurat
9IqbalSMA4Cukup9Istimewa8.6Istimewa2,6Mengecewakantidak akurat
10AlvinSMK4Cukup6Baik8Sangat Baik2,4MengecewakanAkurat

Sumber :

Click to access 100742-ID-algoritma-iterative-dichotomiser-3-id3-u.pdf

Categories
Uncategorized

Data Cleaning

By Siti Lilkhawa Nur R M – 17106050002

Data Cleaning

Data Cleaning adalah proses untuk mengisi data yang hilang(missing values) serta memperbaiki(atau menghapus) kesalahan dan ketidak konsistenan dalam data. Ini berkaitan dengan identifikasi data yang korup dan dulplikat yang melekat pada data untuk memperbaiki kualitas data.

Ada 3 inti dasar dalam data cleaning ini yaitu

  • Missing Values
  • Noisy Data
  • Data Cleaning as a Process

Sumber :

https://www.researchgate.net/publication/260632335_A_Review_of_Data_Cleansing_Concepts_Achievable_Goals_and_Limitations

International Journal of Computer Applications 76(7):19-22 · August 2013

Design a site like this with WordPress.com
Get started