Categories
Uncategorized

Data Cleaning

By Siti Lilkhawa Nur R M – 17106050002

Data Cleaning

Data Cleaning adalah proses untuk mengisi data yang hilang(missing values) serta memperbaiki(atau menghapus) kesalahan dan ketidak konsistenan dalam data. Ini berkaitan dengan identifikasi data yang korup dan dulplikat yang melekat pada data untuk memperbaiki kualitas data.

Ada 3 inti dasar dalam data cleaning ini yaitu

  • Missing Values
  • Noisy Data
  • Data Cleaning as a Process

Sumber :

https://www.researchgate.net/publication/260632335_A_Review_of_Data_Cleansing_Concepts_Achievable_Goals_and_Limitations

International Journal of Computer Applications 76(7):19-22 · August 2013

Categories
Uncategorized

Apriori

M. Hanif Khoirul Amri | 17106050017

Algoritma apriori adalah suatu metode yang mencari kombinasi item berdasarkan barang yang dibeli pelanggan. Algoritma ini sering diaplikasikan untuk menganalisis isi keranjang pelanggan swalayan. Misal, jika pelanggan membeli barang A dan B, maka kemungkinan akan membeli barang C.

Sumber: Jiawei Han, Micheline Chamber, and Jian Pei. “Data Mining Concepts and Techniques”

Categories
Uncategorized

Text Mining

Seto Rahardyanto / 17106050014

Apa itu Text Mining?

Text Mining Adalah informasi baru atau informasi yang belum diketahui yang dihasilkan oleh komputer secara otomatis berdasarkan data atau sumberdaya yang berbeda-beda. Intinya adalah menghubungkan berbagai informasi yag telah diketahui untuk membuat informasi baru untuk mendukung pengembangan lebih lanjut.

Text mining bertujuan untuk menghasilkan informasi yang belum pernah ada sebelumnya dan belum pernah ditulis sebelumnya.

Perbedaan dasar dari text mining dan data mining adalah text mining datanya berupa text yang diekstrak dari bahasa natural (seeprti Bahasa Indonesia / Bahasa Inggris), sedangkan data mining sumber datanya berasal dari basisdata terstruktur.

Bagaimana Text Mining?

Terdapat 2 fase dalam melakukan text mining, yakni: pemurnian teks yang mengubah dokumen text bebas menjadi bentuk perantara, dan mengubah bentuk perantara menjadi distilasi pengetahuan yang menyimpulkan pola pengetahuan / informasi.

Bentuk perantara dapat berupa representasi grafik konseptual atau representasi data relasional

Sumber:

  1. https://www.jaist.ac.jp/~bao/MOT-Ishikawa/FurtherReadingNo1.pdf
  2. http://www.ntu.edu.sg/home/asahtan/papers/tm_pakdd99.pdf
Categories
Uncategorized

Klasifikasi

Klasifikasi merupakan salah satu topik utama dalam data mining atau machine learning. Klasifikasi adalah suatu pengelompokan data dimana data yang digunakan tersebut mempunyai kelas label atau target. Sehingga algoritma-algoritma untuk menyelesaikan masalah klasifikasi dikategorisasikan ke dalam supervised learning atau pembelajaran yang diawasi. Maksud dari pembelajaran yang diawasi adalah data label atau target ikut berperan sebagai ‘supervisor’ atau ‘guru’ yang mengawasi proses pembelajaran dalam mencapai tingkat akurasi atau presisi tertentu.

Beberapa metode standar dapat digunakan untuk menyelesaikan masalah klasifikasi yaitu: Backprogation neural network, support vector classification (SVC), extreme learning machine (ELM), K-NN, Naïve Bayes dan masih banyak lagi.

Tahapan dari klasifikasi dalam data mining terdiri dari 

  • Pembangunan model, dalam tahapan ini dibuat sebuah model untuk menyelesaikan masalah klasifikasi class atau attribut dalam data, model ini dibangun berdasarkan training set-sebuah contoh data dari permasalahan yang dihadapi, training set ini sudah mempunyai informasi yang lengkap baik attribut maupun classnya
  • Penerapan model, pada tahapan ini model yang sudah dibangun sebelumnya digunakan untuk menentukan attribut / class dari sebuah data baru yang attribut / classnya belum diketahui sebelumnya
  • Evaluasi, pada tahapan ini hasil dari penerapan model pada tahapan sebelumnya dievaluasi menggunakan parameter terukur untuk menentukan apakah model tersebut dapat diterima

sumber:
https://mti.binus.ac.id/2017/11/24/klasifikasi/

https://1pack.wordpress.com/2008/09/06/data-mining-klasifikasi-part-1/


By : Millati Pratiwi (17106050030)

Categories
Uncategorized

Data Integrasi

Qomariyah (17106050005)

Data Integration atau integrasi data merupakan proses menggabungkan atau menyatukan dua atau lebih sebuah data dari berbagai sumber database yang berbeda ke dalam sebuah penyimpanan seperti gudang data (data warehouse). Syarat integrasi data dapat terlaksana dengan berbagai cara seperti membuat konsisten dalam penamaan variabel, ukuran variabel, struktur pengkodean dan dalam atribut fisik dari data. Data integration perlu dilakukan secara teliti agar tidak terjadi kesalahan. Kesalahan yang sering terjadi pada integrasi data bisa menghasilkan sebuah ouput  yang menyimpang dan bahkan menyulitkan pengguna pada saat pengambilan keputusan.

 Sumber : https://www.softbless.com/Data-Integration

Categories
Uncategorized

Data Transformation

Seto Rahardyanto / 17106050014

Apa itu Data Transformation?

Data Transformation adalah proses mengubah data dari format atau struktur tertentu ke format atau struktur yang lain. Tujuan transformasi data adalah agar data menjadi lebih efisien dan lebih mudah untuk diolah dan dipahami.

Bagaimana Data Transformation?

Bila disederhanakan, data transformation dapat dilakukan dalam 4 proses: interpretasi data, pengecekan kualitas pra-translasi, translasi data, pengecekan kualitas pasca-translasi.

  • Interpretasi data: mengetahui format data saat ini ada dan mengetahui format yang ingin dilakukan translasi
  • Pengecekan kualitas pra-translasi: melakukan pengecekan daata apabila ada data yang hilang atau rusak
  • Translasi data: melakukan penggantian format data (replace) dengan format yang dituju / diinginkan
  • Pengecekan kualitas pasca-translasi: mengecek data apakah ada yang rusak atau hilang saat proses translasi

Sumber:

  1. Jiawei Han, Micheline Chamber, and Jian Pei. “Data Mining Concepts and Techniques”
  2. https://blog.syncsort.com/2018/10/big-data/data-transformation-process-four-steps/
Categories
Uncategorized

Data Reduction

Merupakan salah satu tahapan dalam Data Preprocessing. Teknik-teknik dapat diterapkan untuk memperoleh representasi data yang dikurangi dari yang lebih kecil dalam volume, namun tetap mempertahankan integrasi data asli. Yaitu, penambangan pada set data yang dikurangi harus lebih efisien namun menghasilkan hasil analitis yang sama (atau hampir sama). Dalam pengamatan tersebut, kita mempresentasikan tinjauan strategi strategi reduksi data, diikuti dengan pengamatan lebih dekat pada masing-masing teknik.

Nurahmad Miftahudin | 17106050032

Sumber : Jiawei Han, Micheline Chamber, and Jian Pei. “Data Mining Concepts and Techniques”

Categories
Uncategorized

Binerisasi

Nama : Septira Nurul Hidayah | NIM : 17106050036

Transformasi data dari tipe kontinu dan diskret ke atribut biner disebut binerisasi (binarization). Algoritma asosiasi membutuhkan data dengan atribut bertipe biner. Jumlah atribut yang dibutuhkan untuk binerisasi adalah N=⌈𝑙𝑜𝑔2(𝑀)⌉. Cara pertama untuk melakukan binerisasi adalah dari M macam nilai kategoris, masing-masing diberikan nilai yang unik dengan nilai integer dalam jangkauan [0,M-1]. Jika atribut ordinal, urutan nilai kategorisnya harus diperhatikan. Misalnya untuk nilai kategoris kualitas = {rusak, jelek, sedang, bagus, sempurna}, nilai-nilai tersebut memiliki urutan nilai dari rendah ke tinggi.

Sumber :

Click to access Pertemuan%204%20-%20Materi%20%5BDM%20-%202015%5D.pdf

https://slideplayer.info/slide/11958631/

Categories
Uncategorized

Korelasi

Korelasi. KBBI Daring mendefinisikan korelasi sebagai hubungan timbal balik atau sebab-akibat. Korelasi sendiri sering disebut dalam teori probabilitas dan statistika, yang memiliki arti nilai yang menunjukkan kekuatan dan arah hubungan antara dua buah variabel acak. Lalu, apa itu korelasi dalam data mining?

Salah satu fungsi dari data mining adalah untuk menggali Frequent Pattern; untuk selanjutnya disebut FP. Menggali FP akan mengarahkan kepada ditemukannya asosiasi dan korelasi menarik diantara data. Disinilah istilah korelasi digunakan.

Penemuan hubungan FP, asosiasi, dan korelasi di antara dataset yang besar akan sangat berguna dalam pemasaran selektif, analisis keputusan, dan manajemen bisnis. Contoh aplikasinya adalah dalam analisis berbasis market yang mempelajari pola pembeli dalam berbelanja dengan mencari barang-barang yang sering diblei bersama. Setelah menggunakan aturan asosiasi yang akan memenuhi ambang batas minimum, analisa dapat dilanjutkan untuk menemukan aturan korelasi, yang akan memberikan hubungan statistik antara itemset satu dengan yang lainnya.

The primary objective is to measure the strength or degree associatioan between two variables. Ther coefficient correlation measures this strength of (linier) association. For example we may be interested in finding the correlation (coefficient) between smooking and lung cancer, between scores of statistics and mathematic examination, between high school grades and collage grades, and so on,” (Gujarati, Damodar, 1995).

sumber :
Han, Jiawei, Jian Pei, and Micheline Kamber. Data mining: concepts and techniques. Elsevier, 2011.
http://www.mega.nu:8080/ampp/rummel/uc.htm
https://kbbi.kemdikbud.go.id/entri/korelasi

By: Millati Pratiwi (17106050030)

Categories
Uncategorized

Supervised Learning

Merupakan salah satu algoritma yang memodelkan normalitas dan abnormalitas data. Ahli domain memeriksa dan memberi label sampel data yang mendasarinya. Dalam supervised learning, algoritma tersebut seolah-olah dilatih terlebih dahulu agar dapat melakukan prediksi maupun klasifikasi. Data Scientist seolah-olah bertindak sebagai seorang supervisor untuk melatih algoritma tersebut.

Nurahmad Miftahudin | 17106050032

Sumber :

Jiawei Han, Micheline Chamber, and Jian Pei. “Data Mining Concepts and Techniques”

https://www.jagoanhosting.com/blog/cari-tahu-apa-bedanya-supervised-vs-unsupervised-learning/

Design a site like this with WordPress.com
Get started