melatirimaa

Rima Melati | 17106050041

Algoritma TF-IDF (Term Frequency – Inverse Document Frequency) adalah salah satu algoritma yang dapat digunakan untuk menganalisa hubungan antara sebuah frase/kalimat dengan sekumpulan dokumen. Inti utama dari algoritma ini adalah melakukan perhitungan nilai TF dan nilai IDF dari sebuah setiap kata kunci terhadap masing-masing dokumen. Nilai TF dihitung dengan rumus TF = jumlah frekuensi kata terpilih / jumlah kata dan nilai IDF dihitung dengan rumus IDF = log(jumlah dokumen / jumlah frekuensi kata terpilih). Selanjutnya adalah melakukan perkalian antara nilai TF dan IDF untuk mendapatkan jawaban akhir.

Term Frequency — Inverse Document Frequency atau TF — IDF merupakan suatu metode algoritma yang berguna untuk menghitung bobot setiap kata yang umum digunakan. Metode ini juga terkenal efisien, mudah dan memiliki hasil yang akurat. Metode ini akan menghitung nilai Term Frequency (TF) dan Inverse Document Frequency (IDF) pada setiap token (kata) di setiap dokumen dalam korpus. Secara sederhana, metode TF-IDF digunakan untuk mengetahui berapa sering suatu kata muncul di dalam dokumen.

Untuk menentukan berapa seringnya kata tsb muncul dalam sebuah dokumen. Jadi, semakin banyak frekuensi kemunculan dari kata tsb, semakin besar pula nanti nilainya.

Pada Term Frequency (TF), terdapat beberapa jenis formula yang dapat digunakan :

TF biner (binary TF), hanya memperhatikan apakah suatu kata atau term ada atau tidak dalam dokumen, jika ada diberi nilai satu (1), jika tidak diberi nilai nol (0).
TF murni (raw TF), nilai TF diberikan berdasarkan jumlah kemunculan suatu term di dokumen. Contohnya, jika muncul lima (5) kali maka kata tersebut akan bernilai lima (5).
TF normalisasi, menggunakan perbandingan antara frekuensi sebuah term dengan nilai maksimum dari keseluruhan atau kumpulan frekuensi term yang ada pada suatu dokumen.
TF logaritmik, hal ini untuk menghindari dominansi dokumen yang mengandung sedikit term dalam query, namun mempunyai frekuensi yang tinggi.

Sebagai contoh, disini kita memiliki 3 data untuk diolah dan diuji :

D1 : semalam saya mengerjakan kerja tugas dari maghrib sampai shubuh, tanpa tidur dan tanpa shalat malam, menjelang → jelang shubuh tugas sudah selesai dan saya sangat mengantuk → kantuk sehingga ketiduran dan baru bangun pukul 8.45, 10 menit sebelum kuliah data mining dimulai.

D2 : Sekarang saya mahasiswa semester 6. tiga tahun sudah saya mengamati, menyukai, mengagumi seorang laki-laki. Semester pertama kami belum terlalu dekat. Semester kedua, saya menunjukkan kelebihan saya, sehingga dia mendekat untuk memanfaatkan kelebihan saya, yaitu mengerjakan tugas. Semester tiga dia menyatakan kagum pada saya, tapi saya pura2 menolak. Semester empat dia mengatakan ingin menikahi saya. Kesempatan ini tidak saya sia-siakan, saya langsung menerimanya. Semester lima, kami menjalani semester paling indah. Dan pada semester enam ini, dia dijodohkan oleh keluarganya dengan saudaranya.

D3 : Saya mahasiswa informatika, yang sejak sebelum masuk jurusan informatika uin sunan kalijaga, bertekad menjadi ilmuwan informatika, yang berkontribusi pada dunia islam. Semester satu, saya menjuarai lomba inovasi ilmuwan muslim tingkat dunia di Dubai. Semester kedua, saya diundang raja arab saudi untuk membuat aplikasi modernisasi masjidil haram dan masjid nabawi.

Penyelesaian :

Term (t)	D1	D2	D3	DF
Mahasiswa	0	1	1	2
Informatika	0	0	3	3
Ilmuwan	0	0	1	1
Semester	0	8	2	10
Tugas	2	1	0	3
Mengerjakan	1	1	0	2

IDF

Log (3/2) = 0,176

Log (3/3) = 0

Log (3/1) = 0,477

Log (3/10) = 0,522

Log (3/3) = 0

Log (3/2) = 0.176

TF-IDF
D1	D2	D3
0	0,176	0,176
0	0	0
0	0	0,477
0	0,522	0,522
0	0	0
0,176	0,176	0

Sumber : https://piptools.net/algoritma-tf-idf-term-frequency-inverse-document-frequency/

Multiple Linear Regression

Rima Melati | 17106050041

Multiple Linear Regression atau biasa disebut dengan istilah (Regresi linier berganda) merupakan perpanjangan dari regresi linier, di mana lebih dari dua atribut dilibatkan dan data sesuai dengan permukaan multidimensi, yang memungkinkan variabel respon, y, menjadi dimodelkan sebagai fungsi linear dari dua atau lebih variabel prediktor.

Regresi berganda adalah model regresi atau prediksi yang melibatkan lebih dari satu variabel bebas atau prediktor. Istilah regresi berganda dapat disebut juga dengan istilah multiple regression. Kata multiple berarti jamak atau lebih dari satu variabel.

Model regresi linear berganda dilukiskan dengan persamaan sebagai berikut:

Y = α + β1 X2 + β2 X2 + βn Xn + e

Keterangan:
Y = Variabel terikat atau response.
X = Variabel bebas atau predictor.
α = Konstanta.
β = Slope atau Koefisien estimate.

Berikut merupakan contoh yang akan kita bahas, yang mana kita memiliki data yang nantinya kita olah dan kita uji. Data yang didalam nya mencakup NIM, Asal Sekolah, Bahasa Indonesia, Matematika, Bahasa Inggris, Nilai IPK dan Klasifikasi/Kategori.

NIM	AsalSekolah	Bhs		Mtk		BIng		IPK	Klasifikasi
1	MA	9,2	Istimewa	7,3	Sangat Baik	5,2	Baik	3,8	Memuaskan
2	SMA	5,5	Baik	3,1	Cukup	0,8	Kurang	3,4	Memuaskan
3	SMK	3,7	Cukup	1,7	Kurang	3,1	Cukup	2,5	Mengecewakan
4	MA	5,6	Baik	4,3	Baik	3,5	Cukup	3,3	Memuaskan
5	SMA	3,8	Cukup	5,2	Baik	6,2	Sangat Baik	3,6	Memuaskan
6	SMK	1,2	Kurang	2,8	Cukup	1,1	Kurang	1,9	Mengecewakan
7	SMA	5,2	Baik	9,3	Istimewa	7,5	Sangat Baik	3,2	Memuaskan
8	SMK	4,9	Baik	2,5	Cukup	4,6	Baik	2,6	Mengecewakan
9	MA	3,9	Cukup	4,4	Baik	2,3	Cukup	2,8	Mengecewakan
10	SMA	5,1	Baik	6,8	Sangat Baik	4,3	Baik	3,3	Memuaskan
11	MA	5,3	Baik	7	Sangat Baik	8	Sangat Baik	3,5	Memuaskan
12	SMA	3,2	Cukup	5	Baik	6	Baik	2,8	Mengecewakan
13	SMK	1,4	Kurang	4	Cukup	5	Baik	1,9	Mengecewakan

Multiple Linear Regression

X1	X2	Y
7,3	5,2	3,8
3,1	0,8	3,4
1,7	3,1	2,5
4,3	3,5	3,3
5,2	6,2	3,6
2,8	1,1	1,9
9,3	7,5	3,2
2,5	4,6	2,6
4,4	2,3	2,8
6,8	4,3	3,3

Tabel Persamaan Regresi

No	X1	X2	Y	X1-X1	X2-X2	Y-Y	X1-X1 * Y-Y	(X1-X1)^2	X2-X2 * Y-Y	(X2-X2)^2
1	7,3	5,2	3,8	2,56	1,34	0,76	1,9456	6,5536	1,0184	1,7956
2	3,1	0,8	3,4	-1,64	-3,06	0,36	-0,5904	2,6896	-1,1016	9,3636
3	1,7	3,1	2,5	-3,04	-0,76	-0,54	1,6416	9,2416	0,4104	0,5776
4	4,3	3,5	3,3	-0,44	-0,36	0,26	-0,1144	0,1936	-0,0936	0,1296
5	5,2	6,2	3,6	0,46	2,34	0,56	0,2576	0,2116	1,3104	5,4756
6	2,8	1,1	1,9	-1,94	-2,76	-1,14	2,2116	3,7636	3,1464	7,6176
7	9,3	7,5	3,2	4,56	3,64	0,16	0,7296	20,7936	0,5824	13,2496
8	2,5	4,6	2,6	-2,24	0,74	-0,44	0,9856	5,0176	-0,3256	0,5476
9	4,4	2,3	2,8	-0,34	-1,56	-0,24	0,0816	0,1156	0,3744	2,4336
10	6,8	4,3	3,3	2,06	0,44	0,26	0,5356	4,2436	0,1144	0,1936
jumlah	47,4	38,6	30,4	0	5,32907E-15	-8,88178E-16	7,684	52,824	5,436	41,384
rata-rata	4,74	3,86	3,04

W1	0,145464183
W2	0,131355113
W0	1,843469036
Y	y=w0+w1x1+w2x2

Dan berikut merupakan data uji pada contoh yang kita gunakan.

No	X1	X2	Y	Y’	Y-Y	()^2	Absolute	Squared
1	7	8	3,5	3,912559222	0,766666667	0,587777778	0,412559222	0,170205111
2	5	6	2,8	3,35892063	0,066666667	0,004444444	0,55892063	0,31239227
3	4	5	1,9	3,082101334	-0,833333333	0,694444444	1,182101334	1,397363563
		Mean	2,733333333

Mean		Relative
Absolute	Squared	Absolute	Squared
0,717860395	0,626653648	2,42472E+15	1,461109542

Sumber :

Data Mining Concepts and Techniques Third Edition oleh Jiawei han

http://myweb.sabanciuniv.edu/rdehkharghani/files/2016/02/The-Morgan-Kaufmann-Series-in-Data-Management-Systems-Jiawei-Han-Micheline-Kamber-Jian-Pei-Data-Mining.-Concepts-and-Techniques-3rd-Edition-Morgan-Kaufmann-2011.pdf