Fuzzy K-Nearest Neighbor (FK-NN) melakukan prediksi data uji menggunakan basis nilai keanggotaan data uji pada setiap kelas, kemudian diambil kelas dengan nilai keangotaan terbesar dari data uji sebagai kelas hasil prediksi. metode tersebut memberikan cara klasifikasi yang sederhana, mudah dan cepat,tetapi akurasi prediksi yang diberikan masih kurang dari harapan.
Vertical Data Format
Oleh: Achmad Ibrahim Humam – 17106050029
Banyak sekali cara dan bentuk dalam menyajikan sebuah data. Misalnya dalam metode data mining seperti Apriori dan FP-growth, keduanya sama-sama mengolah data dalam format yang umum digunakan, yaitu format TID-itemset. Dalam format TID-itemset terdiri dari ID transaksi dan itemset yang merupakan serangkaian item yang ada dalam TID transaksi. Ini dikenal sebagai horizontal data format.
Selain itu ada juga cara lain, yaitu data dapat disajikan dalam format item-TIDset, di mana item adalah nama item dan TIDset adalah serangkaian ID transaksi yang berisi item tersebut. Nah inilah yang dikenal sebagai vertical data format. Berikut contoh penyajian data menggunakan vertical data format:
| ITEMSET | TID SET |
| I1 | {T101,T401,T501,T701,T801,T901} |
| I2 | {T101,T201,T301,T401,T601,T801,T901} |
| I3 | {T201,T501,T601,T701,T801,T901} |
| I4 | {T201,T401} |
| I5 | {T101,T801} |
Sumber:
Jiawei Han, Micheline Chamber, and Jian Pei. “Data Mining Concepts and Techniques”
Reinforcement Learning
M. Hanif Khoirul Amri | 17106050017
Reinforcement Learning adalah suatu cabang machine learning untuk mengajari agent agar membuat keputusan yg terbaik pada lingkungannya, yaitu menghailkan reward (hadiah) yg tebesar. Agent tidak diberi tahu tindakan mana yang harus dilakukan, tetapi sebaliknya harus mencoba beberapa aksi dan urutan-urutan aksi yang berbeda untuk menemukan tindakan mana yang menghasilkan reward paling banyak. Dengan begitu, agent akan belajar dari pengalamannya.

Sumber:
Richard S. Sutton, Andrew R. Barto. 2014. “Reinforcement Learning: An Introduction”
http://incompleteideas.net/book/RLbook2018.pdf
https://www.geeksforgeeks.org/what-is-reinforcement-learning/
Analisis Regresi
Regresi adalah suatu metode analisis statistik yang digunakan untuk melihat pengaruh antara dua atau lebih banyak variabel.
Hubungan variabel tersebut bersifat fungsional yang diwujudkan dalam suatu model matematis. Pada analisis regresi, variabel dibedakan menjadi dua bagian, yaitu variabel respons (response variable) atau biasa juga disebut variabel bergantung (dependent variable), dan variabel explanatory atau biasa disebut penduga (predictor variable) atau disebut juga variabel bebas (independent variable).
Regresi terbagi menjadi beberapa jenis, yaitu regresi sederhana (linier sederhana dan nonlinier sederhana) dan regresi berganda (linier berganda atau nonlinier berganda).
sumber : https://lifepal.co.id/blog/regresi/
TF IDF
Rima Melati | 17106050041
Algoritma TF-IDF (Term Frequency – Inverse Document Frequency) adalah salah satu algoritma yang dapat digunakan untuk menganalisa hubungan antara sebuah frase/kalimat dengan sekumpulan dokumen. Inti utama dari algoritma ini adalah melakukan perhitungan nilai TF dan nilai IDF dari sebuah setiap kata kunci terhadap masing-masing dokumen. Nilai TF dihitung dengan rumus TF = jumlah frekuensi kata terpilih / jumlah kata dan nilai IDF dihitung dengan rumus IDF = log(jumlah dokumen / jumlah frekuensi kata terpilih). Selanjutnya adalah melakukan perkalian antara nilai TF dan IDF untuk mendapatkan jawaban akhir.
Term Frequency — Inverse Document Frequency atau TF — IDF merupakan suatu metode algoritma yang berguna untuk menghitung bobot setiap kata yang umum digunakan. Metode ini juga terkenal efisien, mudah dan memiliki hasil yang akurat. Metode ini akan menghitung nilai Term Frequency (TF) dan Inverse Document Frequency (IDF) pada setiap token (kata) di setiap dokumen dalam korpus. Secara sederhana, metode TF-IDF digunakan untuk mengetahui berapa sering suatu kata muncul di dalam dokumen.
Untuk menentukan berapa seringnya kata tsb muncul dalam sebuah dokumen. Jadi, semakin banyak frekuensi kemunculan dari kata tsb, semakin besar pula nanti nilainya.
Pada Term Frequency (TF), terdapat beberapa jenis formula yang dapat digunakan :
- TF biner (binary TF), hanya memperhatikan apakah suatu kata atau term ada atau tidak dalam dokumen, jika ada diberi nilai satu (1), jika tidak diberi nilai nol (0).
- TF murni (raw TF), nilai TF diberikan berdasarkan jumlah kemunculan suatu term di dokumen. Contohnya, jika muncul lima (5) kali maka kata tersebut akan bernilai lima (5).
- TF normalisasi, menggunakan perbandingan antara frekuensi sebuah term dengan nilai maksimum dari keseluruhan atau kumpulan frekuensi term yang ada pada suatu dokumen.
- TF logaritmik, hal ini untuk menghindari dominansi dokumen yang mengandung sedikit term dalam query, namun mempunyai frekuensi yang tinggi.
Sebagai contoh, disini kita memiliki 3 data untuk diolah dan diuji :
D1 : semalam saya mengerjakan kerja tugas dari maghrib sampai shubuh, tanpa tidur dan tanpa shalat malam, menjelang → jelang shubuh tugas sudah selesai dan saya sangat mengantuk → kantuk sehingga ketiduran dan baru bangun pukul 8.45, 10 menit sebelum kuliah data mining dimulai.
D2 : Sekarang saya mahasiswa semester 6. tiga tahun sudah saya mengamati, menyukai, mengagumi seorang laki-laki. Semester pertama kami belum terlalu dekat. Semester kedua, saya menunjukkan kelebihan saya, sehingga dia mendekat untuk memanfaatkan kelebihan saya, yaitu mengerjakan tugas. Semester tiga dia menyatakan kagum pada saya, tapi saya pura2 menolak. Semester empat dia mengatakan ingin menikahi saya. Kesempatan ini tidak saya sia-siakan, saya langsung menerimanya. Semester lima, kami menjalani semester paling indah. Dan pada semester enam ini, dia dijodohkan oleh keluarganya dengan saudaranya.
D3 : Saya mahasiswa informatika, yang sejak sebelum masuk jurusan informatika uin sunan kalijaga, bertekad menjadi ilmuwan informatika, yang berkontribusi pada dunia islam. Semester satu, saya menjuarai lomba inovasi ilmuwan muslim tingkat dunia di Dubai. Semester kedua, saya diundang raja arab saudi untuk membuat aplikasi modernisasi masjidil haram dan masjid nabawi.
Penyelesaian :
| Term (t) | D1 | D2 | D3 | DF |
| Mahasiswa | 0 | 1 | 1 | 2 |
| Informatika | 0 | 0 | 3 | 3 |
| Ilmuwan | 0 | 0 | 1 | 1 |
| Semester | 0 | 8 | 2 | 10 |
| Tugas | 2 | 1 | 0 | 3 |
| Mengerjakan | 1 | 1 | 0 | 2 |
| IDF |
| Log (3/2) = 0,176 |
| Log (3/3) = 0 |
| Log (3/1) = 0,477 |
| Log (3/10) = 0,522 |
| Log (3/3) = 0 |
| Log (3/2) = 0.176 |
| TF-IDF | ||
| D1 | D2 | D3 |
| 0 | 0,176 | 0,176 |
| 0 | 0 | 0 |
| 0 | 0 | 0,477 |
| 0 | 0,522 | 0,522 |
| 0 | 0 | 0 |
| 0,176 | 0,176 | 0 |
Sumber : https://piptools.net/algoritma-tf-idf-term-frequency-inverse-document-frequency/
Metode Ensemble
Qomariyah(1710605005)
Ensemble method adalah metode yang digunakan untuk meningkatkan akurasi algoritma klasifikasi dengan membangun beberapa classifier dari data training kemudian pada saat klasifikasi metode ini menggunakan voting/aggregating dari classifier-classifer tersebut. Metode ini dapat meningkatkan akurasi karena ensemble method akan membangun beberapa classifier yang saling independent, jika classifier-classifier itu dikombinasikan hasilnya lebih baik daripada single classifier. Salah satu contoh dari ensemble method adalah bagging.
Diskretisasi
Hanif Manggala Putra/17106050003
Diskretisasi adalah proses mentransformasi nilai atribut continuous menjadi sejumlah interval terbatas yang berhubungan dengan nilai diskret, yaitu nilai numerik. Pendekatan yang biasa dilakukan dalam proses learning menggunakan mixed-mode data (campuran antara data numerik dan continuous) adalah melakukan diskretisasi terlebih dahulu sebelum proses learning (preprocessing).
Multiple Linear Regression
Rima Melati | 17106050041
Multiple Linear Regression atau biasa disebut dengan istilah (Regresi linier berganda) merupakan perpanjangan dari regresi linier, di mana lebih dari dua atribut dilibatkan dan data sesuai dengan permukaan multidimensi, yang memungkinkan variabel respon, y, menjadi dimodelkan sebagai fungsi linear dari dua atau lebih variabel prediktor.
Regresi berganda adalah model regresi atau prediksi yang melibatkan lebih dari satu variabel bebas atau prediktor. Istilah regresi berganda dapat disebut juga dengan istilah multiple regression. Kata multiple berarti jamak atau lebih dari satu variabel.
Model regresi linear berganda dilukiskan dengan persamaan sebagai berikut:
Y = α + β1 X2 + β2 X2 + βn Xn + e
Keterangan:
Y = Variabel terikat atau response.
X = Variabel bebas atau predictor.
α = Konstanta.
β = Slope atau Koefisien estimate.
Berikut merupakan contoh yang akan kita bahas, yang mana kita memiliki data yang nantinya kita olah dan kita uji. Data yang didalam nya mencakup NIM, Asal Sekolah, Bahasa Indonesia, Matematika, Bahasa Inggris, Nilai IPK dan Klasifikasi/Kategori.
| NIM | AsalSekolah | Bhs | Mtk | BIng | IPK | Klasifikasi | |||
| 1 | MA | 9,2 | Istimewa | 7,3 | Sangat Baik | 5,2 | Baik | 3,8 | Memuaskan |
| 2 | SMA | 5,5 | Baik | 3,1 | Cukup | 0,8 | Kurang | 3,4 | Memuaskan |
| 3 | SMK | 3,7 | Cukup | 1,7 | Kurang | 3,1 | Cukup | 2,5 | Mengecewakan |
| 4 | MA | 5,6 | Baik | 4,3 | Baik | 3,5 | Cukup | 3,3 | Memuaskan |
| 5 | SMA | 3,8 | Cukup | 5,2 | Baik | 6,2 | Sangat Baik | 3,6 | Memuaskan |
| 6 | SMK | 1,2 | Kurang | 2,8 | Cukup | 1,1 | Kurang | 1,9 | Mengecewakan |
| 7 | SMA | 5,2 | Baik | 9,3 | Istimewa | 7,5 | Sangat Baik | 3,2 | Memuaskan |
| 8 | SMK | 4,9 | Baik | 2,5 | Cukup | 4,6 | Baik | 2,6 | Mengecewakan |
| 9 | MA | 3,9 | Cukup | 4,4 | Baik | 2,3 | Cukup | 2,8 | Mengecewakan |
| 10 | SMA | 5,1 | Baik | 6,8 | Sangat Baik | 4,3 | Baik | 3,3 | Memuaskan |
| 11 | MA | 5,3 | Baik | 7 | Sangat Baik | 8 | Sangat Baik | 3,5 | Memuaskan |
| 12 | SMA | 3,2 | Cukup | 5 | Baik | 6 | Baik | 2,8 | Mengecewakan |
| 13 | SMK | 1,4 | Kurang | 4 | Cukup | 5 | Baik | 1,9 | Mengecewakan |
Multiple Linear Regression
| X1 | X2 | Y |
| 7,3 | 5,2 | 3,8 |
| 3,1 | 0,8 | 3,4 |
| 1,7 | 3,1 | 2,5 |
| 4,3 | 3,5 | 3,3 |
| 5,2 | 6,2 | 3,6 |
| 2,8 | 1,1 | 1,9 |
| 9,3 | 7,5 | 3,2 |
| 2,5 | 4,6 | 2,6 |
| 4,4 | 2,3 | 2,8 |
| 6,8 | 4,3 | 3,3 |
Tabel Persamaan Regresi
| No | X1 | X2 | Y | X1-X1 | X2-X2 | Y-Y | X1-X1 * Y-Y | (X1-X1)^2 | X2-X2 * Y-Y | (X2-X2)^2 |
| 1 | 7,3 | 5,2 | 3,8 | 2,56 | 1,34 | 0,76 | 1,9456 | 6,5536 | 1,0184 | 1,7956 |
| 2 | 3,1 | 0,8 | 3,4 | -1,64 | -3,06 | 0,36 | -0,5904 | 2,6896 | -1,1016 | 9,3636 |
| 3 | 1,7 | 3,1 | 2,5 | -3,04 | -0,76 | -0,54 | 1,6416 | 9,2416 | 0,4104 | 0,5776 |
| 4 | 4,3 | 3,5 | 3,3 | -0,44 | -0,36 | 0,26 | -0,1144 | 0,1936 | -0,0936 | 0,1296 |
| 5 | 5,2 | 6,2 | 3,6 | 0,46 | 2,34 | 0,56 | 0,2576 | 0,2116 | 1,3104 | 5,4756 |
| 6 | 2,8 | 1,1 | 1,9 | -1,94 | -2,76 | -1,14 | 2,2116 | 3,7636 | 3,1464 | 7,6176 |
| 7 | 9,3 | 7,5 | 3,2 | 4,56 | 3,64 | 0,16 | 0,7296 | 20,7936 | 0,5824 | 13,2496 |
| 8 | 2,5 | 4,6 | 2,6 | -2,24 | 0,74 | -0,44 | 0,9856 | 5,0176 | -0,3256 | 0,5476 |
| 9 | 4,4 | 2,3 | 2,8 | -0,34 | -1,56 | -0,24 | 0,0816 | 0,1156 | 0,3744 | 2,4336 |
| 10 | 6,8 | 4,3 | 3,3 | 2,06 | 0,44 | 0,26 | 0,5356 | 4,2436 | 0,1144 | 0,1936 |
| jumlah | 47,4 | 38,6 | 30,4 | 0 | 5,32907E-15 | -8,88178E-16 | 7,684 | 52,824 | 5,436 | 41,384 |
| rata-rata | 4,74 | 3,86 | 3,04 |
| W1 | 0,145464183 |
| W2 | 0,131355113 |
| W0 | 1,843469036 |
| Y | y=w0+w1x1+w2x2 |
Dan berikut merupakan data uji pada contoh yang kita gunakan.
| No | X1 | X2 | Y | Y’ | Y-Y | ()^2 | Absolute | Squared |
| 1 | 7 | 8 | 3,5 | 3,912559222 | 0,766666667 | 0,587777778 | 0,412559222 | 0,170205111 |
| 2 | 5 | 6 | 2,8 | 3,35892063 | 0,066666667 | 0,004444444 | 0,55892063 | 0,31239227 |
| 3 | 4 | 5 | 1,9 | 3,082101334 | -0,833333333 | 0,694444444 | 1,182101334 | 1,397363563 |
| Mean | 2,733333333 |
| Mean | Relative | ||
| Absolute | Squared | Absolute | Squared |
| 0,717860395 | 0,626653648 | 2,42472E+15 | 1,461109542 |
Sumber :
Data Mining Concepts and Techniques Third Edition oleh Jiawei han
Adaboost
Nama : Septira Nurul Hidayah | NIM : 17106050036
Metode AdaBoost merupakan salah satu algoritma supervised pada data mining yang diterapakan secara luas untuk membuat model klasifikasi. AdaBoost sendiri pertama kali diperkenalkan oleh Yoav Freund dan Robert Schapire(1995). Adaptive boosting (adaboost) merupakan salah satu dari beberapa varian pada algoritma boosting. Adaboost merupakan ensemble learning yang sering digunakan pada algoritma boosting. Boosting bisa dikombinasikan dengan classifier algoritma yang lain untuk meningkatkan performa klasifikasi. Tentunya secara intuitif, penggabungan beberapa model akan membantu jika model tersebut berbeda satu sama lain. Adaboost dan variannya telah sukses diterapkan pada beberapa bidang (domain) karena dasar teorinya yang kuat, presdiksi yang akurat, dan kesederhanaan yang besar.
Sumber :
Click to access 176144-ID-penerapan-adaboost-untuk-klasifikasi-sup.pdf
Bayes
Hanif manggala Putra/17106050003
Naïve Bayes Classifier merupakan merupakan salah satu metode di dalam data mining untuk mengklasifikasikan data. Cara kerja dari metode Naïve Bayes Classfier menggunakan perhitungan probabilitas. Konsep dasar yang digunakan oleh Naïve bayes adalah Teorema Bayes, yaitu teorema yang digunakan dalam statistika untuk menghitung suatu peluang, Bayes Optimal Classifier menghitung peluang dari satu kelas dari masing-masing kelompok atribut yang ada, dan menentukan kelas mana yang paling optimal.