Hồi quy logistic là gì? Phân biệt Hồi quy tuyến tính và Hồi quy logistic

Hồi quy logistic là gì? Phân biệt Hồi quy tuyến tính và Hồi quy logistic

Hồi quy logistic là gì

Hồi quy logistic là gì?

Hồi quy logistic (Logistic regression) là kỹ thuật phân tích dữ liệu bằng toán học, nhằm tìm ra mối quan hệ giữa hai dữ liệu. Sau đó, thông qua mối quan hệ đã tìm được, hồi quy logistic sẽ dự đoán giá trị của các dữ liệu đó dựa trên dữ liệu còn lại. Dự đoán cho ra kết quả nhị phân, chẳng hạn như có hoặc không.

Ví dụ bạn muốn đoán liệu khách truy cập website có nhấp vào nút thanh toán giỏ hàng hay không. Khi ấy, phân tích hồi quy logistic sẽ xem xét hành vi của khách truy cập trước đó, như thời gian lướt web và số lượng mặt hàng trong giỏ. Giả sử quá trình phân tích xác định được rằng, mỗi khi họ lướt web hơn năm phút và có hơn ba mặt hàng trong giỏ, thì họ sẽ nhấp vào nút thanh toán. Dựa vào thông tin này, hàm hồi quy logistic sẽ dự đoán hành vi của khách truy cập mới.

Phương trình hồi quy logistic

Vì kết quả là một xác suất nên biến phụ thuộc sẽ có giới hạn từ 0 đến 1. Trong hồi quy logistic, logit được tính bằng xác suất thành công chia cho xác suất thất bại. Hàm hồi quy logistic có các công thức sau:

Logit(pi) = 1/(1+ exp(-pi))

ln(pi/(1-pi)) = Beta_0 + Beta_1*X_1 + … + B_k*K_k

Trong đó:

  • logit(pi) là biến phụ thuộc
  • x là biến độc lập
  • Beta là hệ số rủi ro, thường được xác định bằng ước tính khả năng tối đa.

Tham số Beta được kiểm tra thông qua nhiều lần lặp lại. Tất cả các lần lặp này tạo ra tham số tốt nhất. Sau khi tìm thấy hệ số tối ưu, xác suất tính toán trên từng điều kiện, ghi lại và cộng lại để tạo ra xác suất dự đoán. Xác suất nhỏ hơn ngưỡng xác định (ví dụ: 0,5) sẽ được phân loại = 0, trong khi xác suất lớn hơn 0,5 sẽ phân loại = 1.

Hồi quy logistic hoạt động như thế nào?

Xác định câu hỏi: Mọi quá trình phân tích dữ liệu đều bắt đầu bằng một câu hỏi kinh doanh. Đối với hồi quy logistic, các câu hỏi nên được giới hạn trong phạm vi nhất định để kết quả được cụ thể. Chẳng hạn như những ngày mưa có ảnh hưởng đến doanh thu hàng tháng của công ty hay không? (câu trả lời có hoặc không)

Thu thập dữ liệu lịch sử: Sau khi xác định câu hỏi, bước tiếp theo là xác định các yếu tố dữ liệu liên quan và thu thập dữ liệu trước đây cho tất cả yếu tố. Ví dụ: Để trả lời câu hỏi “Những ngày mưa có ảnh hưởng đến doanh thu hàng tháng của công ty hay không?”, tổ chức có thể cần thu thập dữ liệu về doanh số hàng tháng cùng với số ngày mưa mỗi tháng trong ba năm qua.

Đào tạo mô hình phân tích hồi quy: Dữ liệu lịch sử sẽ được xử lý thông qua phần mềm hồi quy. Phần mềm hồi quy sẽ xử lý các điểm dữ liệu và kết nối chúng bằng phương trình.

Các loại Hồi quy logistic là gì?

Có ba loại mô hình hồi quy logistic là:

Hồi quy logistic nhị phân

Với hồi quy logistic nhị phân (Binary logistic regression), kết quả hoặc biến phụ thuộc bản chất nhị phân – tức là chỉ có hai kết quả có thể xảy ra (ví dụ: 0 hoặc 1). Một số vai trò phổ biến của loại mô hình này gồm dự đoán email là spam hay không phải spam, khối u là ác tính hay không ác tính. Trong hồi quy logistic, hồi quy logistic nhị phân là cách tiếp cận được sử dụng nhiều nhất.

Hồi quy logistic đa thức

Trong hồi quy logistic đa thức (Multinomial logistic regression), biến phụ thuộc có 3 hoặc nhiều kết quả có thể xảy ra; tuy nhiên, các kết quả không có thứ tự cụ thể.

Ví dụ: Các hãng phim muốn dự đoán thể loại phim mà khán giả có thể xem để marketing hiệu quả hơn. Mô hình hồi quy logistic đa thức có thể giúp hãng phim xác định mức ảnh hưởng của tuổi tác, giới tính và tình trạng quan hệ của một người đến loại phim người đó yêu thích. Sau đó, hãng có thể định hướng chiến dịch quảng cáo phim đến nhóm người có khả năng đi xem bộ phim đó hất.

Hồi quy logistic thứ tự

Trong hồi quy logistic thứ tự (Ordinal logistic regression), biến phụ thuộc có ba hoặc nhiều kết quả có thể xảy ra, nhưng trong trường hợp này, các kết quả có thứ tự xác định. Ví dụ: thang điểm từ A đến F hoặc thang đánh giá từ 1 đến 5.

Phân biệt Hồi quy tuyến tính và Hồi quy logistic

Sự khác biệt giữa Linear regression và Logistic regression là gì. Cả hồi quy tuyến tính (linear) và logistic đều là các kỹ thuật trong các mô hình trong khoa học dữ liệu và các công cụ nguồn mở phổ biến nhất, như Python và R. Vai trò của chúng là giúp việc tính toán của các mô hình trở nên nhanh chóng và dễ dàng.

Mô hình hồi quy tuyến tính được sử dụng để dự đoán biến phụ thuộc liên tục bằng cách sử dụng một tập hợp các biến độc lập nhất định. Giá trị của các biến liên tục (như giá, tuổi, v.v.) được xác định bằng phương pháp ước lượng bình phương nhỏ nhất.

Trong khi đó, hồi quy logistic cũng được dùng để dự đoán biến phụ thuộc phân loại bằng cách sử dụng một tập hợp các biến độc lập nhất định. Giá trị của biến phân loại có thể đúng hoặc sai, có hoặc không, 1 hoặc 0…, được xác định bằng phương pháp ước tính khả năng tối đa.

Dù cả hai mô hình đều được sử dụng trong phân tích hồi quy để đưa ra dự đoán kết quả trong tương lai, nhưng hồi quy tuyến tính thường dễ hiểu hơn. Hồi quy tuyến tính cũng không yêu cầu mẫu có kích thước lớn để biểu thị các giá trị trên tất cả các loại phản hồi như hồi quy logistic. Nếu không có mẫu lớn, đặc trưng, thì mô hình hồi quy logistic có thể sẽ không có đủ sức mạnh thống kê để phân tích.

lr03-1675075746.png

Mục đích của hồi quy logistic là gì?

Hồi quy logistic có thể đo lường tác động của nhiều biến số (ví dụ: tuổi, giới tính, vị trí đặt quảng cáo) với một kết quả nhất định (ví dụ: nhấp hoặc bỏ qua). Thông qua đó, giúp phân tích hiệu quả tương đối của các phương án khác nhau đối với nhóm người khác nhau, như thanh niên/già hoặc nam/nữ.

Trong học máy (Machine learning), hồi quy logistic thường được sử dụng cho các bài toán phân loại nhị phân, là các bài toán có hai lớp giá trị, gồm các dự đoán như “cái này hoặc cái kia”, “có hoặc không” và “A hoặc B”.

Hồi quy logistic cũng có thể ước tính xác suất của các sự kiện, như xác định mối quan hệ giữa các thông tin đặc trưng và xác suất của kết quả. Chẳng hạn, hồi quy logistic có thể tạo ra một mô hình tương quan giữa số giờ học với khả năng đạt hoặc trượt của sinh viên. Mặt khác, mô hình tương tự có thể được sử dụng để dự đoán liệu một sinh viên sẽ đạt hay không dựa trên số giờ học và kết quả là: đạt hoặc không đạt.

Ứng dụng hồi quy logistic trong kinh doanh

Các tổ chức sử dụng thông tin chi tiết (insight) từ kết quả hồi quy logistic để nâng cao chiến lược kinh doanh nhằm đạt được các mục tiêu như giảm chi phí và tăng ROI trong các chiến dịch marketing.

Ví dụ: Khi một công ty thương mại điện tử gửi các ưu đãi đến khách hàng, họ muốn biết liệu khách hàng đó có khả năng phản hồi các ưu đãi đó hay không: tức là, “phản hồi” hay “không phản hồi”. Trong marketing, điều này được gọi là mô hình xu hướng phản hồi (propensity to respond modeling).

Tương tự như vậy, công ty tín dụng có thể phát triển mô hình hồi quy logistic để giúp họ dự đoán liệu một khách hàng có khả năng vỡ nợ hay không dựa trên các thông tin đặc trưng như thu nhập hàng năm, các khoản thanh toán bằng thẻ tín dụng hàng tháng và số lần vỡ nợ. Theo cách nói của ngân hàng, đây được gọi là mô hình xu hướng mặc định (default propensity modeling).

Tại sao hồi quy logistic lại quan trọng?

Hồi quy logistic rất quan trọng vì nó biến các phép tính phức tạp xung quanh xác suất thành một bài toán số học đơn giản. Mặc dù bản thân phép tính hơi phức tạp, nhưng các ứng dụng thống kê hiện đại đã giúp chúng ta tự động hóa phần lớn công việc khó nhằn này. Nhờ đó, giúp việc phân tích tác động của nhiều biến số trở nên đơn giản hơn và giúp giảm các yếu tố gây nhiễu ảnh hưởng đến kết quả.

Kết quả là, các nhà thống kê có thể nhanh chóng lập mô hình và xác định ảnh hưởng của các yếu tố khác nhau đến một kết quả nhất định.

Ví dụ, Trong quá trình nghiên cứu y học, để biết loại thuốc mới tác động đến kết quả điều trị của các nhóm tuổi khác nhau như thế nào, cần thực hiện rất nhiều phép nhân chia lồng ghép, để so sánh kết quả của những người trẻ tuổi và lớn tuổi chưa được điều trị, những người trẻ tuổi được điều trị, những người lớn tuổi được điều trị và sau đó là toàn bộ tỷ lệ chữa bệnh của cả nhóm. Hồi quy logistic sẽ chuyển đổi xác suất tương đối của tất cả các nhóm con này thành một số logarit (hệ số hồi quy) để đạt được kết quả mong muốn. Các hệ số hồi quy này cũng có thể đơn giản hóa các thuật toán khoa học dữ liệu và học máy khác.

Các trường hợp sử dụng hồi quy logistic

Hồi quy logistic đặc biệt phổ biến trong lĩnh vực quảng cáo trực tuyến. Nó cho phép bộ phận marketing dự đoán khả năng khách truy cập website cụ thể sẽ nhấp vào quảng cáo cụ thể.

Một số ứng dụng của Hồi quy logistic trong các lĩnh vực khác là:

  • Chăm sóc sức khỏe: xác định các nguy cơ gây bệnh và lên kế hoạch phòng ngừa
  • trong nghiên cứu thuốc để phân tích hiệu quả của thuốc đối với kết quả sức khỏe theo độ tuổi, giới tính;
  • Dự báo thời tiết: dự đoán tuyết rơi và điều kiện thời tiết;
  • Chính trị: xác định xem cử tri có bỏ phiếu cho ứng cử viên cụ thể hay không;
  • Bảo hiểm: dự đoán khả năng người mua bảo hiểm sẽ chết trước khi hợp đồng hết hạn dựa trên các tiêu chí cụ thể, như giới tính, tuổi tác và điều kiện sức khoẻ;
  • Ngân hàng: dự đoán khả năng người vay có trả được khoản vay hay không, dựa trên thu nhập hàng năm, các khoản nợ trước đó.

Mô hình hồi quy logistic là một kỹ thuật phân tích giúp dự đoán xác suất có thể xảy ra của một sự kiện trong tương lai. Bài viết này đã giải thích Hồi quy logistic là gì, cách thức hoạt động và các ứng dụng của hồi quy logistic. Tóm lại, hồi quy logistic là một phương pháp học có giám sát giúp dự đoán các sự kiện có kết quả nhị phân. Mô hình cần dữ liệu từ các kết quả thử nghiệm trước đó để dự đoán khả năng xảy ra trong tương lai.