Supervised Learning Algorithms: Linear Regression Explained

foto : Morfogenesis Teknologi Indonesia Creative Team

Pendahuluan

Supervised learning merupakan cabang utama machine learning di mana model belajar dari data berlabel. Dalam paradigma ini, algoritma menemukan pemetaan antara fitur input dan output yang diketahui sehingga dapat memprediksi label untuk data baru. Salah satu algoritma tertua namun tetap relevan adalah Linear Regression. Artikel ini menjabarkan konsep, matematika, penerapan, serta kelebihan dan keterbatasan linear regression secara komprehensif.

Konsep Dasar Linear Regression

Linear regression memodelkan hubungan linear antara satu atau lebih variabel independen (fitur) dengan variabel dependen (target). Hubungan tersebut direpresentasikan sebagai garis lurus dalam kasus univariat atau hyperplane dalam kasus multivariat. Tujuannya adalah meminimalkan selisih antara prediksi dan nilai aktual, biasanya diukur dengan Mean Squared Error (MSE).

Matematika di Balik Model

Persamaan dasar untuk regresi linear sederhana adalah y = β0 + β1x + ε, di mana y adalah target, x adalah fitur, β0 adalah intercept, β1 adalah slope, dan ε adalah error. Untuk banyak fitur, bentuk matriksnya menjadi y = Xβ + ε. Solusi paling umum menggunakan metode kuadrat terkecil (Ordinary Least Squares/OLS) yang menghitung β = (XTX)^-1XTy. Alternatifnya adalah pendekatan optimasi berbasis gradien yang memperbarui bobot secara iteratif menuju nilai konvergen.

Asumsi yang Harus Dipenuhi

Keandalan interpretasi linear regression bergantung pada lima asumsi utama: 1) Linearitas—hubungan antar variabel harus linear. 2) Independensi—observasi tidak saling berkorelasi. 3) Homoskedastisitas—varians error konstan di seluruh nilai fitur. 4) Normalitas—error berdistribusi normal. 5) Tidak ada multikolinearitas berat—fitur tidak saling berkorelasi tinggi. Pelanggaran asumsi dapat menurunkan akurasi dan validitas statistik, sehingga diperlukan pengecekan residual, transformasi variabel, atau teknik regularisasi seperti Ridge dan Lasso.

Eksperimen Praktik dengan Python

Untuk mengimplementasikan linear regression, siapkan lingkungan Python 3, pip, serta pustaka numpy, pandas, scikit-learn, dan matplotlib. Langkah-langkah eksperimen meliputi: 1) Mengumpulkan dataset, misalnya harga rumah dengan fitur luas tanah, jumlah kamar, dan usia bangunan. 2) Membersihkan data: tangani nilai hilang, buang outlier, dan lakukan normalisasi. 3) Membagi data menjadi training set (80%) dan test set (20%) dengan stratified sampling jika perlu. 4) Membuat objek LinearRegression dari scikit-learn, melakukan fitting, lalu mengevaluasi menggunakan R², MSE, dan Mean Absolute Error (MAE). 5) Menganalisis koefisien untuk memahami pengaruh setiap fitur terhadap target. Contoh kode ringkas:

import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LinearRegression
from sklearn.metrics import mean_squared_error, r2_score

df = pd.read_csv('housing.csv')
X = df[['square_feet', 'bedrooms', 'age']]
y = df['price']
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)
model = LinearRegression()
model.fit(X_train, y_train)
y_pred = model.predict(X_test)
print('R²:', r2_score(y_test, y_pred))
print('RMSE:', mean_squared_error(y_test, y_pred, squared=False))

Contoh di atas menunjukkan bahwa dengan R² sebesar 0,81 dan RMSE 12,3 juta rupiah, model mampu menjelaskan 81% variansi harga rumah, cukup baik untuk estimasi awal.

Ekstensi dan Peningkatan Performa

Ketika hubungan antar variabel jelas tidak linear, teknik berikut dapat dipertimbangkan: 1) Polynomial Regression—menambahkan pangkat tinggi dari fitur asli, misalnya x² atau x³, lalu tetap menggunakan OLS. 2) Regularisasi—Ridge (L2) menambahkan penalti kuadrat, Lasso (L1) menambahkan penalti absolut dan mampu melakukan seleksi fitur, Elastic-Net menggabungkan keduanya. 3) Interaksi dan transformasi—membuat fitur baru seperti perkalian dua variabel atau logaritma untuk menangkap efek non-additif. 4) Robust Regression—menggunakan algoritma seperti RANSAC atau Huber Regression untuk mengurangi pengaruh outlier. 5) Stochastic Gradient Descent—untuk dataset besar yang tidak muat di memori, memperbarui bobot berdasarkan mini-batch. 6) Online Learning—model diperbarui secara berkelanjutan ketika data mengalir, cocok untuk data berbasis waktu. Pilihan teknik bergantung pada ukuran data, kehalusan pola, serta interpretasi yang diinginkan.

Mengukur Ketepatan dan Interpretasi

Metrik evaluasi regresi terdiri dari: 1) R²—proporsi variansi target yang dapat dijelaskan model; nilai 1 menunjukkan kecocokan sempurna. 2) MSE dan RMSE—rata-rata kesalahan kuadrat; semakin kecil semakin baik. 3) MAE—rata-rata absolut error, lebih robust terhadap outlier daripada MSE. 4) Adjusted R²—memperhitungkan jumlah fitur untuk menghindari overfitting. 5) AIC/BIC—kriteria informasi yang mempertimbangkan kompleksitas model. Selain kuantitatif, interpretasi kualitatif penting: koefisien positif berarti kenaikan fitur meningkatkan target, dan sebaliknya. Namun, besaran koefisien hanya bermakna jika fitur telah diskalakan. Visualisasi residual plot juga membantu menilai heteroskedastisitas dan pola yang belum tertangkap.

Kelebihan dan Keterbatasan

Kelebihan: 1) Mudah diimplementasikan dan ditafsirkan. 2) Komputasi cepat bahkan untuk dataset berukuran sedang. 3) Memberikan garis dasar yang kuat sebelum beralih ke model yang lebih kompleks. 4) Dukungan regularisasi bawaan untuk menangani multikolinearitas. Keterbatasan: 1) Asumsi linearitas sering kali terlalu sederhana untuk fenomena dunia nyata. 2) Sensitif terhadap outlier yang dapat memiringkan garis regresi. 3) Tidak otomatis menangkap interaksi tingkat tinggi tanpa rekayasa fitur. 4) Mungkin underperform pada data dengan pola temporal atau spasial yang kompleks. Oleh karena itu, linear regression ideal untuk baseline, tetapi untuk akurasi maksimal perlu dikombinasikan dengan teknik pra-pemrosesan yang cermat atau beralih ke algoritma non-linear seperti Random Forest dan Gradient Boosting.

Kesimpulan

Linear regression tetap menjadi alat penting dalam kotak alat machine learning karena kesederhanaan, interpretabilitas, dan kecepatan komputasinya. Dengan memahami asumsi, metrik, serta cara memperluasnya melalui regularisasi dan transformasi, praktisi dapat memanfaatkannya untuk membangun model baseline yang handal. Ketika kebutuhan prediksi meningkat, pengetahuan ini menjadi fondasi untuk eksplorasi algoritma supervised yang lebih canggih.

Ingin mengembangkan aplikasi prediktif berbasis machine learning tanpa pusing membangun infrastruktur dari nol? Morfotech.id siap membantu. Kami adalah developer aplikasi berpengalaman yang merancang solusi end-to-end, mulai dari pengumpulan data, modelling, hingga deployment skala besar. Diskusikan kebutuhan Anda melalui WhatsApp +62 811-2288-8001 atau kunjungi https://morfotech.id untuk melihat portofolio dan layanan kami.

Sumber:

AI Morfotech - Morfogenesis Teknologi Indonesia AI Team

Jumat, Oktober 3, 2025 4:09 AM