2.2.2.2. Bài toán hồi qui tuyến tính¶
Giả định dữ liệu đầu vào bao gồm (N) quan sát là những cặp các biến đầu vào và biến mục tiêu ((mathbf{x}_1, y_1), (mathbf{x}_2, y_2), dots, (mathbf{x}_N, y_N)). Quá trình hồi qui mô hình sẽ tìm kiếm một véc tơ hệ số ước lượng (mathbf{w} = [w_0, w_1, dots, w_p]) sao cho tối thiểu hoá hàm mất mát dạng MSE:
Nhắc lại một chút về khái niệm hàm mất mát. Trong các mô hình học có giám sát của machine learning, từ dữ liệu đầu vào, thông qua phương pháp học tập (learning algorithm), chúng ta sẽ đặt ra một hàm giả thuyết (h) (hypothesis function) mô tả mối quan hệ dữ liệu giữa biến đầu vào và biến mục tiêu.
Hình 1: Source: Andrew Ng – Linear Regression With One Variable. Từ một quan sát đầu vào (mathbf{x}_i), sau khi đưa vào hàm gỉa thuyết (h) chúng ta thu được giá trị dự báo (hat{y}) ở đầu ra. Chữ (h) của tên hàm thể hiện cho từ hypothesis có nghĩa là giả thuyết, đây là một khái niệm đã tồn tại lâu năm trong thống kê. Để mô hình càng chuẩn xác thì sai số giữa giá trị dự báo (hat{y}) và ground truth (y) càng phải nhỏ. Vậy làm thế nào để đo lường được mức độ nhỏ của sai số giữa (hat{y}) và (y)? Các thuật toán học có giám sát trong machine learning sẽ sử dụng hàm mất mát để lượng hoá sai số này.
Hàm mất mát cũng chính là mục tiêu tối ưu khi huấn luyện mô hình. Dữ liệu đầu vào (mathbf{X}) và (y) được xem như là cố định và biến số của bài toán tối ưu chính là các giá trị trong véc tơ (mathbf{w}).
Giá trị hàm mất mát MSE chính là trung bình của tổng bình phương phần dư. Phần dư chính là chênh lệch giữa giá trị thực tế và giá trị dự báo. Tối thiểu hoá hàm mất mát nhằm mục đích làm cho giá trị dự báo ít chênh lệch so với giá trị thực tế, giá trị thực tế còn được gọi là ground truth. Trước khi huấn luyện mô hình chúng ta chưa thực sự biết véc tơ hệ số (mathbf{w}) là gì. Chúng ta chỉ có thể đặt ra một giả thuyết về dạng hàm dự báo (trong trường hợp này là phương trình dạng tuyến tính) và các hệ số hồi qui tương ứng. Chính vì vậy mục đích của tối thiểu hoá hàm mất mát là để tìm ra tham số (mathbf{w}) phù hợp nhất mô tả một cách khái quát quan hệ dữ liệu giữa biến đầu vào (mathbf{X}) với biến mục tiêu (mathbf{y}) trên tập huấn luyện.
Tuy nhiên mối quan hệ này nhiều khi không mô tả được qui luật khái quát của dữ liệu nên dẫn tới hiện tượng quá khớp. Một trong những nguyên nhân dẫn tới sự không khái quát của mô hình đó là do mô hình quá phức tạp. Mức độ phức tạp càng cao khi độ lớn của các hệ số trong mô hình hồi qui ở những bậc cao có xu hướng lớn như phân tích trong hình bên dưới:
Hình 2: Hình thể hiện mức độ phức tạp của mô hình theo sự thay đổi của bậc. Phương trình có độ phức tạp lớn nhất là phương trình bậc 3: (y = w_0 + w_1 x + w_2 x^2 + w_3 x^3). Trong chương trình THPT chúng ta biết rằng phương trình bậc 3 thông thường sẽ có 2 điểm uốn và độ phức tạp lớn hơn bậc hai chỉ có 1 điểm uốn. Khi (w_3 rightarrow 0) thì phương trình bậc 3 hội tụ về phương trình bậc 2: (y = w_0 + w_1 x + w_2 x^2), lúc này phương trình là một đường cong dạng parbol và có độ phức tạp giảm. Tiếp tục kiểm soát độ lớn để (w_2 rightarrow 0) trong phương trình bậc 2 ta sẽ thu được một đường thẳng tuyến tính dạng (y = w_0 + w_1 x) có độ phức tạp thấp nhất.
Như vậy kiểm soát độ lớn của hệ số ước lượng, đặc biệt là với bậc cao, sẽ giúp giảm bớt mức độ phức tạp của mô hình và thông qua đó khắc phục hiện tượng quá khớp. Vậy làm cách nào để kiểm soát chúng, cùng tìm hiểu chương bên dưới.