Linear regression adalah salah satu dari teknik data smoothing pada langkah data cleaning. regression adalah teknik yang membangun sebuah fungsi dari data. Linear regression adalah salah satu teknik statistic untuk mengukur sejauh mana hubungan sebab akibat antar 2 variabel. kedua variabel tersebut yaitu variabel predictor atau biasa di lambangkan dengan X dan variabel response atau biasa di lambangkan dengan Y . variabel X dinamakan variabel prediksi karena nantinya dapat di gunakan untuk memprediksi variabel yang lain yaitu Y. output pada linear progression di modelkan dengan garis lurus. Contohnya, random variable y (variable tidak bebas) bisa di modelkan sebagai fungsi linear dari random variable x (variable bebas) dengan equasi :
y = wx + b
Dimana variable y diasumsikan sebagai variable konstan. Pada konteks data mining x dan y adalah atribut database numerik. Koefisien w dan b disebut koefisien regresi yang menentukan kemiringan garis dan memotong y berurutan . Koefisien ini dapat dipecahkan dengan metode kuadrat terkecil, yang meminimalkan kesalahan antara garis aktual yang memisahkan data dan perkiraan garis.
Sumber :
- Data Mining Concepts and Techniques Third Edition oleh Jiawei han
- Analisis Regresi Linear Pada Statistika Non Parametrik oleh Desi Rahmatina, S. Pd, M.Sc
oleh : Fares Analis syahad | 17106050033