1. Khi nào sử dụng?
Hồi quy tuyến tính bội là một phần mở rộng của hồi quy tuyến tính đơn. Nó được sử dụng khi chúng ta muốn dự đoán giá trị của một biến phản hồi dựa trên giá trị của hai hoặc nhiều biến giải thích khác. Biến chúng ta muốn dự đoán được gọi là biến phản hồi (hoặc đôi khi là biến phụ thuộc). Các biến mà chúng ta đang sử dụng để dự đoán giá trị của biến phản hồi được gọi là các biến giải thích (hoặc đôi khi là biến dự báo, biến phụ thuộc). Ví dụ, chúng ta có thể sử dụng hồi quy bội số để hiểu liệu có thể dự đoán kết quả kỳ thi Toán giải thích dựa trên thời gian ôn tập, và giới tính của sinh viên hay không.Bạn đang xem: Multiple regression analysis là gì
Hồi quy bội cũng cho phép chúng ta xác định sự phù hợp tổng thể của mô hình và đóng góp tương đối của từng yếu tố dự báo vào tổng phương sai được giải thích. Ví dụ, chúng ta có thể muốn biết mức độ thay đổi trong kết quả kỳ thi cuối kì Toán giải thích có thể được giải thích bằng thời gian ôn tập và giới tính “nói chung”, nhưng cũng là “đóng góp tương đối” của mỗi biến độc lập trong việc giải phương sai.
2. Giả thuyết vô hiệu và suy luận thống kê
Khi có nhiều hơn một biến độc lập, mô hình phù hợp tổng thể được đánh giá bằng thống kê F (F statistic). Giả thuyết vô hiệu được thử nghiệm liên quan đến tất cả các tham số hồi quy ngoại trừ điểm chặn. Ví dụ, nếu có ba biến giải thích trong mô hình thì giả thuyết vô hiệu sẽ là: H0: β1 = β2 = β3 = 0. Thống kê F được đánh giá là tỷ lệ giữa bình phương trung bình của mô hình so với bình phương trung bình của sai số.
3. Các giả định thống kê
Khi phân tích dữ liệu bằng cách sử dụng hồi quy tuyến tính, một phần của quy trình bao gồm việc kiểm tra để đảm bảo rằng dữ liệu muốn phân tích thực sự có thể được phân tích bằng hồi quy tuyến tính. Tập dữ liệu cần “vượt qua” các giả định cần thiết cho hồi quy tuyến tính để cung cấp kết quả hợp lệ.
Việc đo lường biến phản hồi Y ít nhất phải liên tục về mặt lý thuyết. (Ví dụ: có thể sử dụng điểm trên thang đánh giá; 0, 1, 2, 3… n) và trong hồi quy bội, một hoặc nhiều biến giải thích có thể là nhị phân (ví dụ: trong hồi quy, chúng được gọi là biến giả – dummy variables, giới tính biến nhị phân có thể được mã hóa là 0 = nam, 1 = nữ).Mối quan hệ giữa các biến phản hồi và giải thích phải gần đúng tuyến tính. Xác minh bằng cách vẽ biểu đồ của biến phản hồi so với từng biến độc lập trong mô hình. Mối tương quan mạnh mẽ được biểu thị bằng xu hướng đường thẳng rõ ràng trong sự phân tán của các điểm.Sai số (error) trong mô hình hồi quy, ε, nên có phân phối xác suất chuẩn. Các phần dư (residuals) trong phân tích hồi quy đại diện cho các ước lượng mẫu của các sai số. Chúng phải có giá trị trung bình bằng 0 và phương sai không đổi (điều này được gọi là đồng nhất – homoscedasticity). Lưu ý rằng cả biến phản hồi hoặc biến giải thích đều không bắt buộc phải có phân phối chuẩn, chính các phần dư phù hợp mới là chuẩn.
– Xác minh giả định về tính chuẩn bằng cách thực hiện vẽ biểu đồ xác suất chuẩn của các phần dư. Phân phối của phần dư chỉ cung cấp dấu hiệu về sự phân bố sai số cơ bản (underlying error distribution) trong dân số và có thể không đáng tin cậy với các cỡ mẫu nhỏ. Cách diễn giải đồ thị xác suất chuẩn theo cách tương tự như đã mô tả trong bài ‘Kiểm tra phân phối chuẩn’.
– Xác minh giả định về phương sai không đổi (hoặc xác minh sự đồng nhất) bằng cách vẽ biểu đồ phần dư so với các giá trị dự đoán. Sự phân tán ngẫu nhiên của các điểm về giá trị trung bình bằng 0 chỉ ra phương sai không đổi và thỏa mãn giả định này. Tức là các phương sai dọc theo đường phù hợp nhất vẫn tương tự khi bạn di chuyển dọc theo đường. Một mô hình hình phễu cho biết phương sai không hằng số. Những quan sát bên ngoài kì dị có thể dễ dàng phát hiện ra trên biểu đồ này.Xem thêm: Các Quán Cafe Ở Gò Vấp Cho Buổi Hẹn Hò Lãng Mạng, Những Quán Cafe Gò Vấp Đến Là Mê Ngay
Dữ liệu không được xuất hiện đa cộng tuyến (multicollinearity), xảy ra khi có hai hoặc nhiều biến độc lập có tương quan cao với nhau. Điều này dẫn đến các vấn đề trong việc hiểu biến độc lập nào góp phần vào phương sai được giải thích trong biến phụ thuộc, cũng như các vấn đề kỹ thuật trong việc tính toán mô hình hồi quy bội số.
Tất cả các giả định đều quan trọng nhưng một số giả định còn hơn cả những giả định khác. Kinh nghiệm cho phép nhà nghiên cứu đánh giá xem các giả định có thể được nới lỏng đến mức nào trước khi các suy luận bị vô hiệu – đây cũng là một nghệ thuật giống như một môn khoa học. Ví dụ, việc thiếu tính chuẩn của các phần dư không phải là điều quan trọng, nhưng sai số chuẩn (standard errors) có thể bị thổi phồng. Tương tự, việc thiếu phương sai không đổi không có khả năng làm sai lệch nghiêm trọng các hệ số hồi quy nhưng các giá trị p liên quan sẽ cần được diễn giải một cách thận trọng. Vi phạm nghiêm trọng nhất là một sự ra đi đáng kể so với tuyến tính. Trong tình huống này, việc chuyển đổi dữ liệu hoặc một phương pháp phân tích thay thế nên được xem xét.
4. Phân tích hồi quy tuyến tính bội trong SPSS
Ví dụ, chúng ta có thể sử dụng hồi quy tuyến tính để hiểu liệu kết quả kỳ thi viết cuối kì của sinh viên có thể được dự đoán dựa trên thời gian ôn tập cuối kì dành học môn Toán giải tích và yếu tố giới tính hay không. Có 20 sinh viên được mời tham gia một cuộc thử nghiệm, kể từ khi buổi học cuối cùng của môn Toán giải tích đến ngày thi cuối kì, họ được đề nghị ghi lại tổng số giờ ôn bài (cộng dồn của mỗi ngày) dành cho môn Toán. Kết thúc kì thi, nhà nghiên cứu thu thập điểm số của 20 sinh viên này theo thang điểm 100, gán giá trị 1 = nữ, 2 = nam, và tổng hợp theo bảng dưới đây.
Các bước dưới đây hướng dẫn chúng ta cách phân tích hồi quy tuyến tính bội trong Thống kê SPSS.
– Bước 1: Click Analyze > Regression > Linear…
– Bước 2: Trong hộp thoại Linear Regression, chúng ta chuyển biến giải thích ‘giờ ôn tập‘ và ‘giới tính’ vào hộp Independent(s):, chuyến biến phản hồi ‘Diemthi‘ vào hộp Dependent(s):,
– Bước 3: Bây giờ chúng ta cần kiểm tra các giả định gồm: không có ngoại lệ đáng kể (điểm dị biệt), tính độc lập của các quan sát, tính đồng nhất, hiện tượng đa cộng tuyến và và phân phối chuẩn của sai số / phần dư. Chúng ta có thể thực hiện việc này bằng cách sử dụng các tính năng thống kê (Statistics) và biểu đồ (Plots), sau đó chọn các tùy chọn thích hợp trong hai hộp thoại này.
+ Trong nút Statistics, chúng ta nhấp chọn hộp Model fit cho độ phù hợp của mô hình, kiểm tra hiện tượng đa cộng tuyến Collinrearity diagnostics. Tại vùng Regression Coefficients, chúng ta nhấp mục ước lượng Estimates, khoảng tin cậy Confidence intervals (thường đặt ở 95%). Tại vùng Residuals, chúng ta nhấp chọn hộp Durbin-Watson về sự tương quan.
+ Để sử dụng kiểm định Durbin-Watson, thì phương trình hồi quy phải bao gồm hệ số chặn, do vậy, cần kiểm tra mục Inculde constant in equation ở nút Options.Xem thêm: Du Lịch Đà Lạt Tháng 8 Có Gì Đẹp? Chuyến Đi Mùa Hè Lãng Mạn Du Lịch Đà Lạt Tháng 8/2021 Ăn Gì
+ Trong nút Plots, chúng ta tiến hành vẽ đồ thị phần dư của ước lượng theo giá trị biến phải hồi để kiểm tra hiện tượng phương sai thay đổi và phân phối chuẩn của phần dư. Chúng ta chuyển mục *ZRESID vào hộp Y:, mục *ZPRED vào hộp X:. Sau đó nhấp chọn hộp Histogram, Normal Probability plot.