在一般來說我們最常用到的預測模型就是線性回歸(linear regression),但是在這裡我們不適合使用線性回歸,為甚麼呢?因為今天我們是要猜測一個人有沒有交到女朋友(如果有交到女朋友是1,反之是0)。所以今天我們的應變數(dependent variable)就變成了二分變數了(dichotomous variable,如:男或女、存活或死亡、通過考試與否),這時候你就必須使用到羅吉斯回歸(logistic regression)了。
在這邊我們先來講一下甚麼是羅吉斯回歸,在社會科學中常使用到大量的類別資料,例如性別可以分為男女;一個人有分為有感冒或沒感冒;宗教可以分為基督教、佛教、伊斯蘭教等。在平常,若類別變數做為自變數(dependent variable)時,我們可以利用卡方分析來做資料的分析,但如果今天我們自變數若是要使用身高、體重、收入等連續變數做為我們的自變數時,常常受限於應變數為類別資料,而缺乏適當的統計工具。羅吉斯回歸正是用以處理應變數屬於類別資料的情況,可以說是社會科學最重要的統計模型。
羅吉斯回歸以二項式分配(Binomial Distribution)為出發點,假設應變數服從二項式分配,線性模型為:
經過指數轉換之後可改寫為:
在這邊就是一個人「交不交的到女朋友的機率」,而就是一些我們「有興趣的自變數」,例如:身高、體重等。而與就是分別代表該「自變數的權重」。
從右圖可以看到的範圍在0到1之間。我們以0.5作為判斷這個人是否交得到女朋友,則最後如果計算出的範圍介在0.5到1時,我們可以大聲的說「我交得到女朋友了!」反之的話….不灰心不難過!繼續使用羅吉斯回歸,找出最適當的自變數與權重,再接再厲!
了解了羅吉斯回歸的基本概念之後,接下來最重要的就是我們要如何建構出我們的模型也就是把各個自變數的權重計算出來拉!在羅吉斯回歸中我們最常用來計算變數權重的方法就是最大概似估計量(Maximum Likelihood Estimation)。
做法就是利用收集到的樣本,觀察這些資料的分布得到我們的權重,再利用它來反推出我們真實的權重。一個最簡單的想法就是這些觀察是具有代表性的,所以我們樣本計算出的權重是符合真實的機率分布,舉例來說:今天一個池塘裡面有10000條魚,有的魚是黑色、有的魚是白色。我們今天想要知道總共有多少條白魚,所以我們就撈了100條魚。發現100條裡面總共有76條白魚,佔了76%。所以我們推估這池塘裡面總共有7600條白魚。這個想法的背後就包含了最大概似估計法則了。
在本章節中,貓大帶您簡單的走過羅吉斯回歸的介紹與概念以及建立模型的方式。我們可以先定義好自己比較覺得有關聯的自變數,然後在校園中不斷的收集樣本(記住要用隨機抽樣喔!這樣模型才會更加準確)。最後再利用最大概似估計將權重計算出來完成我們的最終模型。希望大家能在戀愛的學分上能得到漂亮的成績!本週就到這裡,我們下週再見!喵~
採礦貓
採礦貓過去在許多金控公司當過顧問,看到很多台灣散戶投資者被國外的投資公司坑殺,因而希望能提供散戶強大的投資工具與武器以提升獲利率、避免走上被坑殺的道路。
沒有留言:
張貼留言