Multinomial logistic regression là gì

1. Khi nào sử dụng?

Mô hình hồi quy logistic nhị thức được sử dụng để dự đoán một biến phụ thuộc lưỡng phân [ví dụ, có/ không, đạt/ không đạt] bởi một hoặc nhiều biến độc lập liên tục hoặc phân loại.

Phương trình liên hệ có dạng [logarit Odds]:

Mô hình hồi quy đa thức [còn được gọi là hồi quy logistic đa thức] tương tự như mô hình hồi quy logistic nhị phân nhưng biến phụ thuộc là biến phân loại có nhiều hơn hai trạng thái.

Ví dụ, mô hình hồi quy đa thức có thể được sử dụng để để dự đoán xem việc lựa chọn ngành học của các sinh viên có thể bị ảnh hưởng bởi nghề nghiệp của cha mẹ họ và thành tích học vấn phổ thông của họ. Biến phụ thuộc là lựa chọn ngành học như kĩ thuật, kinh tế, ngoại ngữ. Biến độc lập là thành tích học vấn phổ thông của học sinh và nghề nghiệp của cha. Ví dụ khác, học hết chương trình phổ thông trung học, lựa chọn tiếp theo của học sinh có thể là chương trình đại học, chương trình học nghề hoặc đi làm doanh nghiệp. Liệu sự lựa chọn của học sinh có phụ thuộc vào thành tích học vấn phổ thông và tình trạng kinh tế xã hội của họ.

Mô hình hồi quy logistic đa thức có dạng:

Trong đó, i và j là các phương án của phân loại trong biến độc lập. Gọi p1 là xác suất lựa chọn chương trình đại học, p2 là lựa chọn chương trình học nghề, p3 là xác suất lựa chọn đi làm doanh nghiệp.

Ta có 3 phương trình sau:

2. Bản chất hồi quy logistic đa thức

Sự phức tạp của hồi quy logistic đa thức khiến nó khó diễn giải cụ thể mà được giải thích theo ngữ cảnh khác nhau. Để diễn giả chi tiết hơn, mô hình hồi quy logistic đa thức được phân biệt trong 3 trường hợp:

Trường hợp 1: Mô hình hồi quy logistic đa thức với dữ liệu đặc thù của người chọn.

Trường hợp 2: Mô hình hồi quy logistic đa thức với dữ liệu đặc thù của lựa chọn.

Trường hợp 3: Mô hình hồi quy logistic đa thức với dữ liệu kết hợp đặc thù của người chọn và đặc thù của lựa chọn.

Với trường hợp 1, các lựa chọn phụ thuộc vào các đặc điểm của người chọn, chẳng hạn như tuổi, thu nhập, giáo dục, tôn giáo Các biến này là đặc thù đối với người chọn. Các loại mô hình này thường được ước lượng bằng các mô hình logit [hoặc probit] đa thức. Câu hỏi chủ yếu mà các mô hình này trả lời là: Các đặc biểm của người chọn ảnh hưởng như thế nào đến việc lựa chọn của họ về một phương án cụ thể giữa một tập hợp nhiều phương án?

Với trường hợp 2, giả sử một học sinh sau trung học phải lựa chọn giữa ba loại ngành học: Kỹ thuật, Kinh tế, Ngoại ngữ. Như vậy, chúng có các thuộc tính đặc điểm đặc thù của lựa chọn không phụ thuộc vào cá nhân. Trong mô hình này cũng không có các đặc điểm đặc thù của cá nhân. Các mô hình như thế thường được ước lượng bằng các mô hình logit [hoặc probit] có điều kiện. Câu hỏi chính mà các mô hình như thế trả lời là: Các đặc điểm hoặc thuộc tính của các phương án khác nhau có ảnh hưởng đến sự lựa chọn của cá nhân giữa chúng hay không? Ví dụ, người ta có mua xe dựa trên các thuộc tính, như màu sắc, hình dáng, quảng cáo thương mại, và các đặc điểm khuyến mãi? Vì thế, logit [hoặc probit] có điều kiện là phù hợp khi các biến giải thích thay đổi khác nhau giữa các phương án.

Trong mô hình logit đa thức chuẩn, các biến giải thích là không đổi với các phân loại của kết quả [outcome categories], nhưng các tham số thay đổi với kết quả. Trong mô hình logit có điều kiện, các biến giải thích thay đổi theo kết quả cũng như theo cá nhân, trong khi đó các tham số được giả định cố định qua tất cả các phân loại kết quả.

Với trường hợp 3: Ở đây chúng ta có dữ liệu về cả các đặc điểm đặc thù của người chọn và đặc thù của lựa chọn. Các mô hình như thế cũng có thể được ước lượng bằng mô hình logit có điều kiện bằng cách đưa thêm các biến giả vào mô hình. Ví dụ, khi chọn mua xe hơi, các thuộc tính của các chiếc xe cũng như thu nhập và tuổi của cá nhân có thể ảnh hưởng đến lựa chọn của họ về chiếc xe. Hoặc một người tốt nghiệp phổ thông họ đang đứng trước ba lựa chọn: không đi học đại học/ cao đẳng, học cao đẳng/ trung cấp, và học đại học; chúng phụ thuộc vào tính hữu dụng kinh tế của tấm bằng sau tốt nghiệp, tổng thu nhập của gia đình, thành tích học tập phổ thông, giới tính, nghề nghiệp của cha mẹ

3. Ước lượng mô hình phù hợp

Trong các hồi quy bội, chúng ta sử dụng R2 như một thước đo về mức độ phù hợp của mô hình được chọn. Giá trị R2 nằm giữa 0 và 1. Giá trị R2 càng gần 1, thì mô hình càng phù hợp. Nhưng R2 thông thường không thực hiện tốt vai trò này đối với mô hình logistic đa thức. Tuy nhiên, thước đo pseudo R2 được phát triển bởi McFadden được sử dụng thay thế. Nó được tính toán là: pseudo R2 = 1 Ln[Lfit]/Ln[L0]

Trong đó, Lfit = tỷ số hợp lý [likelihood ratio] của mô hình được ước lượng và L0 = tỷ số hợp lý của mô hình không có biến giải thích nào.

Thay vì dùng pseudo R2 chúng ta có thể sử dụng kiểm tra likelihood ratio test. Giả thuyết Ho cho rằng không có hệ số dốc nào có ý nghĩa thống kê. Likelihood ratio test theo phân phối Chi-bình phương [c2] với bậc tự do bằng số hệ số dốc được ước lượng.

4. Diễn giải hiệu ứng trong hồi quy logistic đa thức

Với mô hình logit [chẳn hạn Ln[P2/P1], một hệ số dương của một biến giải thích cho biết tỷ số odds tăng cho lựa chọn 2 hơn lựa chọn 1, khi giữ nguyên các biến giải thích khác. Ngược lại, một hệ số âm của một biến giải thích cho biết tỷ số odds giảm cho lựa chọn 2 hơn lựa chọn 1. Giả sử, một giá trị logit được tính bằng -0.2061, khi đó chúng ta tính toán được tỉ số P2/P1=e-2.061=0.1273 ; Nghĩa là tỉ số odds ủng hộ P2 so với P1 chỉ khoảng 12.73%.

5. Các giả định kiểm tra

Các giả định cơ bản của hồi quy logistic đa thức bao gồm:

Biến phụ thuộccủa bạnnên được đo lường ởmức danh nghĩa.Ví dụ về biến danh nghĩa bao gồm các lựa chọn ngành học như kĩ thuật, kinh tế, ngoại ngữ; lựa chọn chương trình sau phổ thông như chương trình đại học, chương trình học nghề hoặc đi làm doanh nghiệp

Một hoặc độc lập nhiều biếnđó làliên tục[continuous],thứ tự [ordinal]hoặc định danh [nominal]. Tuy nhiên, các biến độc lập thứ tự phải được coi là liên tục hoặc phân loại. Chúng không thể được coi là biến thứ tự khi chạy hồi quy logistic đa thức. Ví dụ về các biến liên tục bao gồm tuổi [đo bằng năm], thời gian ôn tập [đo bằng giờ], thu nhập [đo bằng đô la Mỹ], trí thông minh [đo bằng điểm IQ], thành tích thi [đo từ 0 đến 100], cân nặng [đo bằng kg] Ví dụ về các biến thứ tự bao gồm các mục Likert [ví dụ: thang điểm 5 hoặc 7 từ rất đồng ý đến rất không đồng ý]. Ví dụ về các biến danh nghĩa, chẳng hạn 0 = nam, 1= nữ.

Các quan sát là độc lập của và biến phụ thuộc phải cócác danh mục loại trừ lẫn nhau.

Khôngcó đa cộng tuyến.Đa cộng tuyến xảy ra khi bạn có hai hoặc nhiều biến độc lập có tương quan cao với nhau.Điều này dẫn đến các vấn đề trong việc hiểu biến nào góp phần giải thích biến phụ thuộc và các vấn đề kỹ thuật trong tính toán hồi quy logistic đa thức. Thật không may, việc kiểm tra giả định này có thể yêu cầu tạo các biến giả cho các biến phân loại của bạn [nghĩa là các biến giả là các biến mới dựa trên các giá trị của dữ liệu hiện có của bạn]. Xác định xem có đa cộng tuyến hay không là một bước quan trọng trong hồi quy logistic đa thức.

Cần cómối quan hệ tuyến tính giữa bất kỳ biến độc lập liên tục nào và phép biến đổi logit của biến phụ thuộc.

Không đượccó các ngoại lệ hoặccác điểm có ảnh hưởng lớn

Bạn có thể kiểm tra các giả định 4, 5 và 6 bằng cách sử dụng thống kê kiểm tra trong SPSS.Các giả định 1, 2 và 3 nên được kiểm tra trước tiếp, trước khi chuyển sang các giả định 4, 5 và 6.Chỉ cần nhớ rằng nếu bạn không chạy kiểm tra thống kê trên các giả định này một cách chính xác, kết quả bạn nhận được khi chạy hồi quy logistic đa thức có thể không hợp lệ.

6. Phân tích hồi quy Logistic đa thức trong SPSS

Ví dụ, một nhà nghiên cứu có thể muốn biết liệu việc lựa chọn ngành học như kĩ thuật, kinh tế, ngoại ngữ của các sinh viên có thể dự đoán bởi thành tích học vấn lớp 12 phổ thông của học sinh và giới tính của họ hay không. Dữ liệu mẫu gồm 20 sinh viên được lựa chọn ngẫu nhiên và thu thập từ kho dữ liệu lý lịch sinh viên tại một trường đại học. Vấn đề nghiên cứu trong ví dụ này có thể được trả lời bằng cách sử dụng mô quy logistic đa thức.

Trong thống kê SPSS, bạn tạo ba biến: [1] biến độc lập liên tục thành tích học vấn, [2] biến độc lập định danh khu vực [0 = nam, 1 = nữ], và [3] biến phụ thuộc phân loại [0 = kỹ thuật; 1 = kinh tế, 2 = ngoại ngữ]. Mức ý nghĩa alpha được xác định là 5%.

Các bước phân tích hồi quy logistic đa thức trong SPSS như sau:

Bước 1: Chọn Analyze >Regression > Multinomial Logistic

Bước 2: Trong hộp thoại Multinomial Logistic Regression, chúng ta chuyển biến phụ thuộc Chonnganh vào ô Dependent, chuyển biến độc lập liên tục ThanhtichHT vào Covariate[s], chuyển biến giới tính Gioitinh vào ô Factor[s]. Mặc định, nhóm tham chiếu của biến phụ thuộc là nhóm cuối cùng, ví dụ Chonnganh[Last] như hình trên.

Bước 3: Nhấp vào nút Statistics để mở hộp thoại Multinomial Logistic Regression: Statistic. Sau đó tiến hành nhấp vào các ô như hình dưới đây. Sau đó nhấp vào Continue.

Bước 4: Nhấp OK để chạy kết quả.

Video liên quan

Chủ Đề