2018選戰溫度計-候選人當選預測模型

壹、候選人當選預測模型說明

  • 一、模型背景:

    本預測模型結合過去國內外學者於選舉預測之相關研究,並輔以觀測網路輿情及媒體傳播等現況,綜合加權發展出2018年縣市長選舉當選率之預測。
  • 二、模型架構:

    以候選人勝選因素模型、網路口碑預測模型、媒體民調、群眾預測分別評估候選人實力、口碑傳播力、選民支持力,綜合預測候選人之當選率
    1. 候選人勝選因素模型:應用歷史選情資料庫,以迴歸分析及機器學習分析方法,掌握各選區之勝選因素,預估候選人之實力。
    2. 網路口碑預測模型:應用網路口碑資料庫,以語意分析方法,掌握選民熟悉度、選民好感度、網路經營績效,評估候選人之口碑擴散力。
    3. 媒體民調:具公信力之媒體以抽樣調查方法,直接調查選民對候選人的支持度。
    4. 群眾預測:近年國內外預測市場熱門,透過即時交易數據整合眾人意見直接獲得選民對候選人的支持度。
  • 三、權重分配:

    本預測模型架構採用之權重,依據中央選舉委員會2016年總統大選之選民結構資料,同時綜合2014年縣市首長選舉預測模型命中率,分別計算各縣市之模型架構內權重分配。

貳、預測方法

  • 一、預測目的:

    利用本預測模型探知各縣市首長候選人之當選率,深入分析影響選情變化的關鍵因素。
  • 二、預測範圍:

    以2018年縣市首長選舉為預測範圍,共計22個縣市。
  • 三、預測時間 :

    2018年6月1日至11月14日 (選舉前10日)
  • 四、預測資料來源:

    1. 歷史選情資料庫: 資料取自中央選舉委員會選舉資料庫、維基百科,共蒐集2002年至2014年四屆縣市長選舉之選舉資料。
    2. 網路口碑資料庫: 透過『KEYPO大數據關鍵引擎』每日累積100萬筆以上的網路數據庫,其內容涵蓋Facebook、YouTube、新聞媒體、討論區、部落格等網站
    3. 媒體民調資料庫: 資料取自媒體委託或直接調查並公開發布之支持度民調報告。
    4. 預測市場資料庫: 資料取自國內之預測市場網站,包含未來事件交易所、智慧交易所(又名台北政治經濟交易所)。
  • 五、預測變數:

  • 1. 歷史選情資料庫:包含候選人出生地、年齡、籍貫、政黨推薦、參選經驗(首次參選年份)、地方政務經驗(中央機關首長、縣市正副首長、立委、議員、區長或里長…等)、尋求連任屆數、執政黨推薦。
    2. 網路口碑資料庫:候選人網路口碑分析構面包含:選民熟悉度ABCDE、選民好感度FG、網路經營績效HIJ,預測變數說明如下:

    選民熟悉度
    A.網路聲量:候選人在網路上的網路聲量越高,則選民熟悉度越高
    B.搜尋熱度 :網友以Google搜尋候選人,進一步產生互動行為,搜尋熱度越高則選民熟悉度越高
    C.臉書粉絲數:臉書粉絲數越高,表示粉絲團的影響力越高,則選民熟悉度越高
    D.臉書互動數:臉書按讚數、留言數、分享數越高,表示粉絲團的影響力越高,則選民熟悉度越高
    E.臉書談論數:臉書談論數越高,表示粉絲團的影響力越高,則選民熟悉度越高
    選民好感度
    F.網路正負評比:網路正負評比越高,表示網友評價越正面,即選民好感度越高
    G.臉書情緒比 :臉書情緒比越高,表示粉絲評價越正面,即選民好感度越高
    網路經營績效
    H.社群活躍指數:社群活躍指數高的候選人,網友自主發文討論熱烈,網路經營績效高
    I.粉絲黏著指數:越積極與特定候選人互動的粉絲,參與投票的機會越高,也更容易把票投給該候選人
    J.貼文互動指數 :貼文互動指數表現越高者,網路經營績效越高
    3. 媒體民調資料庫:媒體政黨色彩、執行單位、樣本數、調查期間、發布時間、候選人支持度。
    4. 預測市場資料庫:資料來源、資料時間、最高買價、最低賣價、最新價格、成交數。
  • 六、資料統計方法與分析技術

    1. 加權平均數分析:依預測變數之影響程度進行加權計算平均數。
    2. 迴歸分析:應用歷史資料公開資料庫之歷屆候選人基本資料進行迴歸模型之推估。
    3. 機器學習:應用歷史資料公開資料庫之歷屆候選人基本資料進行機器學習演算法之推估。
    4. 語意分析:應用網路口碑資料庫,使用語意分析(Semantic Analysis) 、情緒分析(Sentiment Analysis)等技術,汲取網路上相關討論文章,將文章分為正面、負面、中立三種情緒,計算網路聲量。

叁、分析特色

  • 一、公正性:

    本預測模型使用之參數皆為網路、媒體公開資訊,每日蒐集超過百萬筆資料,能有效降低研究者主觀意識之影響。
  • 二、即時性:

    本預測模型運用大數據系統每日更新資料計算當選率,具高度即時性,能即時反應候選人在參選過程之當選率變化。
  • 三、深入性:

    囊括不同數據類型(客觀資料、主觀資料)及不同選民參與類型(主動參與、被動參與),具高度互補性,有利於找出關鍵影響因素,預估選情發展。
FacebookShare MessengerShare LineShare GoTop