Categories
Uncategorized

Asosiasi

17106050008 – Indri Dwi juanti

Asosiasi adalah metode yang menemukan suatu kombinasi item yang muncul bersamaan. Dalam dunia bisnis sering disebut dengan “Market Basket Analysis” atau analisis keranjang belanja . Biasanya menggunakan pola “jika(if) ” mewakili antecendent dan “maka(then)” mewakili consequence, bersamaan dengan pengukuran support (nilai penunjang) dan confidence (nilai kepastian) yang terasosiasi dalam aturan . Algoritma yang masuk kedalam Asosiasi adalah Algoritma Apriori, Fp Growth.

Penting tidaknya suatu aturan assosiatif dapat diketahui dengan dua parameter, support (nilai penunjang)
yaitu persentase kombinasi item tersebut dalam database dan confidence (nilai kepastian) yaitu kuatnya
hubungan antar item dalam aturan assosiatif.

Aturan assosiatif biasanya dinyatakan dalam bentuk :
{roti, mentega} -> {susu} (support = 40%, confidence = 50%)


Yang artinya : “50% dari transaksi di database yang memuat item roti dan mentega juga memuat item susu. Sedangkan 40% dari seluruh transaksi yang ada di database memuat ketiga item itu.” Dapat juga diartikan : “Seorang konsumen yang membeli roti dan mentega punya kemungkinan 50% untuk juga membeli susu. Aturan ini cukup signifikan karena mewakili 40% dari catatan transaksi selama ini.”
Analisis asosiasi didefinisikan suatu proses untuk menemukan semua aturan assosiatif yang memenuhi syarat minimum untuk support (minimum support) dan syarat minimum untuk confidence (minimum
confidence).

Metodologi dasar analisis asosiasi terbagi menjadi dua tahap :

a. Analisa pola frekuensi tinggi
Tahap ini mencari kombinasi item yang memenuhi syarat minimum dari nilai support dalam database. Nilai
support sebuah item diperoleh dengan rumus berikut:

sedangkan nilai support dari 2 item diperoleh dari rumus berikut:

b. Pembentukan aturan assosiatif
Setelah semua pola frekuensi tinggi ditemukan, barulah dicari aturan assosiatif yang memenuhi syarat
minimum untuk confidence dengan menghitung confidence aturan assosiatif A ->B
Nilai confidence dari aturan A ->B diperoleh dari rumus berikut:

sumber :

Categories
Uncategorized

K Means

17106050008- Indri Dwi Juanti

Algoritma K-Means merupakan algoritma klasterisasi yang mengelompokkan data berdasarkan titik pusat klaster (centroid)
terdekat dengan data. Tujuan dari K-Means adalah pengelompokkan data dengan memaksimalkan kemiripan data dalam satu klaster dan meminimalkan kemiripan data antar klaster. Ukuran kemiripan yang digunakan dalam klaster adalah fungsi jarak . Perhitungan Jarak antara data dan centroid menggunakan rumus diantaranya adalah Manhattan/City Block Distance, Euclidean Distance dan Minkowski Distance.

Karakteristik K-Means

  1. K-Means sangat cepat dalam proses clustering
  2. K-Means sangat sensitif pada pembangkitan centroid awal secara random
  3. Memungkinkan suatu cluster tidak mempunyai anggota
  4. Hasil clustering dengan K-Means bersifat tidak unik (selalu berubah-ubah) – terkadang baik, terkadang jelek
  5. K-means sangat sulit untuk mencapai global optimum

K-Means Clustering ini secara umum dilakukan dengan algoritma dasar sebagai berikut:

  1. Tentukan jumlah cluster
  2. Alokasikan data ke dalam cluster secara random
  3. Hitung centroid/rata-rata dari data yang ada di masing-masing cluster
  4. Alokasikan masing-masing data ke centroid/rata-rata terdekat
  5. Kembali ke Step 3, apabila masih ada data yang berpindah cluster atau apabila perubahan nilai centroid, ada yang di atas nilai threshold yang ditentukan atau apabila perubahan nilai pada objective function yang digunakan di atas nilai threshold yang ditentukan

Contoh Perhitungan K-Means :

Diketahui : jumlah cluster = 3, jumlah data = 12 , dan jumlah atribut =2

2. Perhitungan jarak pusat cluster dengan menggunakan rumus Euclidian distance

3. Pengelompokkan Data

Dari data diatas kemudian data dikelompokkan , berdasarkan jarak hasil perhitungan kemudian dilakukan perbandingan dan dipilih jarak yang terdekat antara data dan pusat cluster.

keterangan :
tanda * pada tabel diatas merupakan jarak terpendek pada Cn .

4. Menentukan Pusat Cluster Baru

Setelah diketahui anggota pada masing-masing cluster , kemudian pusat cluster baru dihitung berdasarkan data anggota di tiap-tiap cluster . sesuai dengan rumus pusat anggota cluster . Cara menghitungnya yaitu dengan menjumlahkan seluruh anggota masing-masing cluster dibagi jumlah anggotannya .

Untuk iterasi ke 2 C1,C2, C3 nya menggunakan cluster yang baru .

lakukan perhitungan yang sama untuk iterasi ke 2




untuk mencari iterasi ke 3 , lakukan langkah yang sama seperti yang telah dilakukan sebelumnya . sehingga diperoleh hasil sebagai berikut :

Iterasi akan berakhir jika titik pusat dari setiap cluster tidak berubah
lagi dan tidak ada lagi data yang berpindah dari
satu cluster ke cluster yang lain.

Untuk Perhitungan Lengkapnya dapat dilihat melalui link berikut :
https://drive.google.com/file/d/1118CfrONmu-JQBjBPxNm_TTYsJZh5fQp/view?usp=sharing

sumber : http://journal.umy.ac.id/index.php/st/article/download/708/858

https://informatikalogi.com/algoritma-k-means-clustering/

https://syafrudinmtop.blogspot.com/2015/10/contoh-perhitungan-manual-kmeans-klastering.html

Categories
Uncategorized

Data Stream

Ahmad Putra A.R | 17106050023

Data stream adalah satu set sinyal digital yang digunakan untuk berbagai jenis transmisi konten. Aliran data bekerja dalam berbagai cara di banyak teknologi modern, dengan standar industri untuk mendukung jaringan global yang luas dan akses individu.

Mining data streams merupakan evolusi dari data mining dimana proses mining pada awalnya pada data yang bersifat tetap (tidak bertambah) menjadi yang bersifat stream (terus menerus bertambah).

Sumber : https://www.techopedia.com/definition/6757/data-stream





Categories
Uncategorized

Klasterisasi

Ahmad Mu’allal Hifni – 17106050034

Klasterisasi (Clustering) merupakan pengelompokan sejumlah data atau objek ke dalam cluster (group) sehingga setiap dalam cluster tersebut akan berisi data yang semirip mungkin dan berbeda dengan objek dalam cluster yang lainnya.

Clustering yang paling efisien untuk menentukan cluster pada data dengan kepadatan yang berbeda adalah algoritma density based clustering. DBSCAN adalah salah satu contoh pelopor perkembangan teknik pengelompokan berdasarkan kepadatan atau yang biasa dikenal dengan sebutan density based clustering.

Perbedaan Klusterisasi dan Klasifikasi :

Dataset yang digunakan pada clustering tidak menampilkan class / target attribute, sedangkan dataset yang digunakan pada classification mutlak harus menampilkan class / target attribute.
Pengetahuan yang dihasilkan oleh metode clustering berupa cluster, sedangkan pengetahuan yang dihasilkan oleh metode classification berupa selain cluster (bisa Decision Tree, Ruleset, Weight pada BackPropagation, dan lain-lain).
Clustering dipakai ketika tidak diketahuinya bagaimana data harus dikelompokkan. Jumlah kelompok diasumsikan sendiri tanpa ditentukan terlebih dahulu. Keluaran pendekatan ini adalah data yang sudah dikelompokkan. Sedangkan classification, terdapat informasi mengenai bagaimana data tersebut dikelompokkan. Kemudian dilakukan training pada sistem dengan data yang sudah diberikan label (ke dalam kelompok manakah data tersebut dikelompokkan), selanjutnya sistem akan mengklasifikasikan data-data yang baru ke dalam kelompok yang ada. Tidak akan ada pertambahan kelompok.


Mind Map : Data Mining – Unsupervised – Klasterisasi

Sumber:
– Data Mining. Concepts and Techniques, 3rd Edition (The Morgan Kaufmann Series in Data Management Systems).
– Analisa Perbandingan Metode Hierarchical Clustering, K-means dan gabungan Keduanya dalam Cluster Data (Studi kasus : Problem Kerja Praktek Jurusan Teknik Industri ITS) oleh : Tahta Alfina, Budi Santosa, dan Ali Ridho Barakbah
– Implementasi Metode Clustering DBSCAN pada Proses Pengambilan Keputusan oleh : Ni Made Anindya Santika Devi,I Ketut Gede Darma Putra , I Made Sukarsa.

Categories
Uncategorized

Fuzzy C Means

Fuzzy C-Means Clustering (FCM) atau dikenal juga sebagai Fuzzy ISODATA, merupakan salah satu metode clustering yang merupakan bagian dari metode Hard K-Means. FCM menggunakan model pengelompokan fuzzy sehingga data dapat menjadi anggota dari semua
kelas atau cluster terbentuk dengan derajat atau tingkat keanggotaan yang berbeda antara 0 hingga 1. Tingkat keberadaan data dalam suatu kelas atau cluster ditentukan oleh derajat keanggotaannya.

sumber :

  • FUZZY C-MEANS CLUSTERING ON MEDICAL DIAGNOSTIC SYSTEMS oleh Songül Albayrak
  • Analisis Fuzzy C-Means dan Penerapannya Dalam Pengelompokan Kabupaten/Kota di Provinsi Sulawesi Selatan Berdasarkan Faktorfaktor Penyebab Gizi Buruk oleh Wahidah Sanusi, Ahmad Zaky, dan Besse Nur Afni1
Categories
Uncategorized

K-Medoids

Ahmad Putra A.R | 17106050023

K-Medoids atau Partitioning Around Medoids (PAM) adalah algoritma clustering yang mirip dengan K-Means. Perbedaan dari kedua algoritma ini yaitu algoritma K-Medoids
atau PAM menggunakan objek sebagai perwakilan (medoid) sebagai pusat cluster untuk
setiap cluster, sedangkan K-Means menggunakan nilai rata-rata (mean) sebagai pusat cluster [Kaur, dkk., 2014]. Algoritma K-Medoids memiliki kelebihan untuk mengatasi
kelemahan pada pada algoritma K-Means yang sensitive terhadap noise dan outlier, dimana objek dengan nilai yang besar yang memungkinkan menyimpang pada dari
distribusi data. Kelebihan lainnya yaitu hasil proses clustering tidak bergantung pada urutan masuk dataset [Furqon, dkk., 2015].

Sumber : http://j-ptiik.ub.ac.id/index.php/j-ptiik/article/download/204/101

Categories
Uncategorized

Linear Regression

Linear regression adalah salah satu dari teknik data smoothing  pada langkah data cleaning. regression adalah teknik yang membangun sebuah fungsi dari data. Linear regression adalah salah satu teknik  statistic untuk mengukur sejauh mana hubungan sebab akibat antar 2 variabel. kedua variabel tersebut yaitu variabel predictor atau biasa di lambangkan dengan X dan variabel response atau biasa di lambangkan dengan Y . variabel X dinamakan variabel prediksi karena nantinya dapat di gunakan untuk memprediksi variabel yang lain yaitu Y. output pada linear progression di modelkan dengan garis lurus. Contohnya, random variable y (variable tidak bebas) bisa di modelkan sebagai fungsi linear dari random variable x (variable bebas) dengan equasi :

y = wx + b

Dimana variable  y diasumsikan sebagai variable konstan. Pada konteks data mining x dan y adalah atribut database numerik. Koefisien w dan b disebut koefisien regresi yang menentukan kemiringan garis dan memotong y berurutan . Koefisien ini dapat dipecahkan dengan metode kuadrat terkecil, yang meminimalkan kesalahan antara garis aktual yang memisahkan data dan perkiraan garis.

Sumber :

  • Data Mining Concepts and Techniques Third Edition oleh Jiawei han
  • Analisis Regresi Linear Pada Statistika Non Parametrik oleh Desi Rahmatina, S. Pd, M.Sc

oleh : Fares Analis syahad | 17106050033

Categories
Uncategorized

CART

Ahmad Mu’allal Hifni – 17106050034

CART (Classification and Regression Trees) merupakan salah satu metode atau algoritma dari teknik pohon keputusan (decision tree). Metode yang dikembangkan oleh Leo Breiman, Jerome H. Friedman, Richard A. Olshen, dan Charles J.

Metode CART terdiri dari dua metode yaitu pohon klasifikasi dan metode regression. Jika variabel dependen yang dimiliki bertipe kategorik maka CART menghasilkan pohon klasifikasi (classification trees). Sedangkan jika variabel dependen yang dimiliki bertipe kontinu atau numerik maka CART menghasilkan pohon regresi (regression trees).

Data Mining – Supervised – Klasifikasi – Decision Tree – CART

Contoh Perhitungan Menggunakan Algoritma CART

Asal Sekolah (SMA/MA/SMK) NEM(Bahasa, Matematika, B Ing SMA) IPK (Informatika)

Istimewa : 8-10                                                Mengecewakan : 3-4
sangat baik      : 6-8 Memuaskan : 0-3
baik                 : 4-6
cukup              :2-4
kurang             : 0-2

Gini = 1 – Σ (Pi)2 for i=1 to number of classes

Asal Sekolah :

MA      = 1 – (2/3)^2 – (1/3)^2             = 1 – (0,44) – (0,11)             = 0,45  SMK   = 1 – (0/3)^2 – (3/3)^2             = 1 – (0) – (1)             = 0  
SMA   = 1 – (4/4)^2 – (0/4)^2             = 1 – (1) – (0)             = 0  Gini Asal Sekolah = (3/10)*0,45 + (4/10)*0 + (3/10)*0                           = (0,135 ) + 0 + 0                           = 0,135  

Bahasa Indonesia :

Istimewa = 1 – (1/1)^2 – (0/1)^2                = 1 – (1) – (0)                = 0  Kurang            = 1 – (0/1)^2 – (1/1)^2             = 1 – (0) – (1)             = 0  
Baik     = 1 – (4/5)^2 – (1/5)^2             = 1 – (0,64) – (0,04)             = 0,32  Gini Bahasa        = (1/10)*0 + (5/10)*0,32 + (3/10)*0,45 + (1/10)*0                         = 0 + 0,16 + 0,135 + 0                         = 0,295  
Cukup = 1 – (1/3)^2 – (2/3)^2             = 1 – (0,11) – (0,44)             = 0,45   

Matematika :

Istimewa = 1 – (1/1)^2 – (0/1)^2               = 1 – (1) – (0)              = 0  Cukup = 1 – (1/3)^2 – (2/3)^2             = 1 – (0,11) – (0,44)             = 0,45  
Sangat Baik = 1 – (2/2)^2 – (0/2)^2                    = 1 – (1) – (0)                   = 0  Kurang            = 1 – (0/1)^2 – (1/1)^2             = 1 – (0) – (1)             = 0  
Baik     = 1 – (2/3)^2 – (1/3)^2             = 1 – (0,44) – (0,11)             = 0,45Gini Matematika         = (1/10)*0 + (2/10)*0 + (3/10)*0,45 + (3/10)*0,45 + (1/10)*0 = (0) + (0) + (0,135) + (0,135) + (0) = 0,27    

Bahasa Inggris :

Sangat Baik     = 1 – (2/2)^2 – (0/2)^2                         = 1 – (1) – (0)                         = 0  Kurang            = 1 – (1/2)^2 – (1/2)^2             = 1 – (0,25) – (0,25)             = 0,5  
Baik     = 1 – (2/3)^2 – (1/3)^2             = 1 – (0,44) – (0,11)             = 0,45  Gini Bahasa Inggris = (2/10)*0 + (3/10)*0,45 + (3/10)*0,45 + (2/10)*0,5 = (0) + (0,135) + (0,135) + (0,1) = 0,37  
Cukup = 1 – (1/3)^2 – (2/3)^2             = 1 – (0,11) – (0,44)             = 0,45   

Mencari Root Atribut :

Dikarenakan SMA dan SMK telah **** tidak mempunyai leaf, maka tidak perlu mencari nilai GINI, sedangkan MA mempunyai **** yang berbeda sehingga dicari nilai GINI nya.

Bahasa Indonesia

Matematika

Bahasa Inggris

Mencari Root Bahasa :


Desision Tree :

Data UJI :

Data uji dalam label :

Hasil perhitungan : akurasi, presisi, recall :

Sumber:
– Data Mining. Concepts and Techniques, 3rd Edition (The Morgan Kaufmann Series in Data Management Systems).
– Penggunaan Metode Classification and Regression Trees (CART) untuk Klasifikasi Rekurensi Pasien Kanker Serviks di RSUD Dr. Soetomo Surabaya oleh Siti Holis Sumartini dan Santi Wulan Purnami.

Categories
Uncategorized

Bagging

NIM : 17106050038
Nama : Muhamad Hanif Zein

Bagging merupakan metode yang dapat memperbaiki hasil dari algoritma klasifikasi machine learning (Breimann, 1994)”. “Metode ini diformulasikan oleh Leo Breiman dan nama tersebut disimpulkan dari phrase “Bootstrap Aggregating” (Breimann, 1994)”. Bagging merupakan salah satu metode yang berdasar pada ensemble method.

Categories
Uncategorized

Decision Tree

NIM : 17106050038
Nama : Muhamad Hanif Zein

Decision tree adalah model prediksi menggunakan struktur pohon atau struktur berhirarki.

Konsep dari pohon keputusan adalah mengubah data menjadi decision tree dan aturan-aturan keputusan. Manfaat utama dari penggunaan decision tree adalah kemampuannya untuk mem-break down proses pengambilan keputusan yang kompleks menjadi lebih simple, sehingga pengambil keputusan akan lebih menginterpretasikan solusi dari permasalahan.

Nama lain dari decision tree adalah CART (Classification and Regression Tree). Dimana metode ini merupakan gabungan dari dua jenis pohon, yaitu classification tree dan juga regression tree. Untuk memudahkan, berikut ilustrasi dari keduanya.

Design a site like this with WordPress.com
Get started