ML: Linear Regression

Written by caveowner on February 12, 2025 in Uncategorized with no comments.

Dalam statistik, linear regression adalah model yang meng-estimasi hubungan linear antara respon skalar (variabel dependent) dan satu atau lebih variabel penjelas (regressor atau variabel independen). Model dengan tepat satu variabel penjelas adalah linear regression versi simpel; model dengan dua atau lebih variabel penjelas adalah linear regression multiple.[1] Term ini berbeda dari linear regression multivariate, yang memprediksi berbagai variabel dependensi yang terkorelasi bukannya variabel dependensi single.

Dalam linear regression, model hubungan dibuat berdasarkan fungsi prediktor linear dengan parameter yang tidak diketahui yang di estimasi dari data. Umumnya, rata-rata kondisional dari respons yang diberikan nilai-nilai variabel penjelas (atau prediktor) diasumsikan sebagai fungsi afine dari nilai-nilai tersebut; lebih jarang, median kondisional atau beberapa kuantil lainnya digunakan. Seperti bentuk lainnya dari regression analysis, linear regression fokus pada distribusi probabilitas respon yang didistribusikan berdasarkan nilai dari prediktor, dan bukan berdasarkan distribusi probabilitas gabungan dari semua variabel ini, yang adalah domain dari multivariate analysis.

Regresi linear juga adalah tipe algoritma machine learning, lebih tepatnya algoritma supervised, yang dapat belajar dari dataset yang sudah diberi label dan memetakan data points kepada fungsi linear yang paling optimal yang dapat digunakan untuk memprediksi dataset yang baru.

Regresi linear adalah tipe pertama dari regression analysis yang dipelajari secara menyeluruh, dan digunakan secara luas pada aplikasi praktikal. Ini karena model yang bergantung secara linear kepada parameter unknowns lebih mudah untuk fit daripada model yang tidak linear kepada parameter mereka dan karena atribut statistik dari estimasi yang dihasilkan jauh lebih mudah untuk ditentukan.

Regresi linear memiliki banyak kegunaan praktis. Sebagian besar aplikasi jatuh kepada dua kategori besar berikut:

Jika tujuan akhirnya adalah error (e.e. reduksi variasi pada prediksi atau ramalan), regresi linear dapat digunakan untuk memasangkan model prediktif kepada data set respons dan variabel penjelas yang telah diamati. Setelah mengembangkan model seperti itu, jika nilai tambahan dari variabel penjelas didapatkan tanpa nilai respon, model yang telah di fitted dapat digunakan untuk membuat prediksi respons.

Jika tujuannya adalah menjelaskan variasi dari variabel respon yang dapat diatribusikan kepada variasi dalam variabel penjelas, analisis regresi linear dapat diaplikasikan untuk mengukur kekuatan dari hubungan antara respon dan variabel penjelas, dan secara khusus untuk menentukan apakah variabel penjelas tertentu mungkin tidak memiliki hubungan linear dengan respon sama sekali, atau untuk mengidentifikasi subset dari variabel penjelas yang mana yang mungkin mengandung informasi redundan dari respons.

Model regresi linear biasanya di fit menggunakan pendekatan least squares, tetapi kadang mereka juga di fit menggunakan cara lain, seperti meminimalisasi “lack of fit” pada norma lain (seperti dengan least absolute deviations regression), atau dengan meminimalisasi versi penalized dari fungsi biaya least squares seperti dalam ridge regression (L2-norm penalty) dan lasso (L1-norm penalty). Penggunaan Mean Squared Error (MSE) sebagai biaya pada dataset yang memiliki banyak outlier yang besar. Sebaliknya, pendekatan least square dapat digunakan untuk melakukan fit pada model yang bukan model linear. Maka, meskipun term “least squares” dan “linear model” terhubung secara dekat, mereka tidak sinonim.

Leave a Reply

Your email address will not be published. Required fields are marked *