金融数据挖掘和商业数据挖掘+教材课程.ppt

金融数据挖掘和商业数据挖掘+教材课程.ppt

  1. 1、本文档共26页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
* * * 金融数据挖掘和商业数据挖掘 建構信用卡評分模型之商業智慧流程 鄭宇庭 謝邦昌 程兆慶 台灣政治大學資料採礦中心 報告大綱 研究目的 分析工具 建模流程 結論與建議 Q&A 研究目的 有效地篩選出償債能力不佳的個人信用卡客戶,依此開發出一套信用風險系統,以幫助銀行做出正確的核卡決策。 這個系統的開發、維護、與更新的成本預期將比銀行現有系統的成本低。 圖表來源:楊自強 企業如何應用商業智慧來提昇執行力與競爭力 建模流程:CRISP-DM DATA MINING 執行階段 商業理解 資料理解 資料準備 建模 評估 發佈 資料源 DATA MINING 處理流程 圖表來源:楊自強 企業如何應用商業智慧來提昇執行力與競爭力 微軟商業智慧解決方案 SSIS 分析服務 報表服務 分析服務 (Data Mining) 資料來源檢視表(Data Source View) 整合性 服務 (SSIS) 商業理解 資料理解 資料準備 建模 評估 發佈 資料源 資料源 資料採礦無處不在 商業問題 Microsoft 演算法 預測類別變數,例如行銷回應、顧客流失、違約預測(巴塞爾資本協定IRB)… 決策樹 貝氏機率分類 群集 類神經網路 羅吉斯迴歸 預測連續變數,例如預測銷售量、預測客戶價值變動、預測金融商品價格波動... 迴歸樹 時間序列 類神經網路 預測序列,例如找出網站使用者的點選路徑模式、客戶繳款行為模式、商品購物順序 時序群集 找出產品交叉銷售關聯性,又稱為購物籃分析 關聯規則 決策樹 找出潛在相似性,例如市場區隔、偵測晶圓瑕疵分配、文件分類、保險浮濫理賠偵測、偽卡偵測 群集 時序群集 商業理解(Business Understanding) 釐清商業問題 目前呆帳率是多少? 信用卡審核流程? 信用卡評分模型=分類模型 資料理解(Data Understanding) 資料來源 某銀行2000.1.1~2002.6.30的信用卡資料 資料內容 申請資料檔 繳款紀錄檔 總共有1220個變數,502,333筆原始資料 違約戶定義 繳款期間曾經有逾期60天以上未繳之卡戶 建模流程圖 選擇2001.4~2001.6 原始資料 清除遺漏值、異常值 資料轉換 誤差抽樣 訓練組 測試組 建模 評估 評估 資料準備(Data Preparation) 選擇合理的建模變數 基本資料 性別、教育程度、職業別…… 聯合徵信中心(JCIC)的資料 被查詢總家數、延遲月數比率…… 與銀行往來的資料 申請卡別類型、有沒有使用扣款服務…… 資料準備(Data Preparation) 選擇合理的建模時間 時間間隔取為12個月至18個月 清除遺漏值、異常值 資料轉換 連續型轉成離散型:被查詢總家數… 合併變項太多之變數:職業別… 衍生新的變數 類型 變數名稱 資料類型 個人資料 教育別 類別型(2類) 性別 旗標型 行業別 類別型(3類) 職稱別 類別型(3類) 工作年資 類別型(5類) 緊急聯絡人與正卡關係 類別型(4類) 與銀行往來紀錄 是否申請結餘代償 旗標型 扣款帳號 旗標型 金融聯合徵信中心 <過去六個月>延遲月數比率 連續型 <過去六個月>循還月數比率 連續型 近一年M2次數 整數型 <最近一個月>近期是否逾期 旗標型 負債所得比 連續型 有效卡張數 類別型(3類) 被查詢總家數 類別型(4類) 建模(Modeling) 誤差抽樣(Over-Sampling) 將稀有事件透過抽樣的方式將其比重提高 多的少抽(Reduce):正常戶抽取率0.1 違約戶抽取率1 將資料分成訓練組與測試組 避免過度學習(Over-fitting) 建模方法選擇 羅吉斯迴歸、決策樹、類神經網路 Data Mining Model Evaluation Data Mining Model Evaluation 分類矩陣 橫軸為預測結果,縱軸為實際結果 增益圖 橫軸為名單百分比,縱軸為累積佔全體之百分比 收益圖 根據成本以及銷售成功利潤,並計算出累積利潤圖 散佈圖 針對連續變數,可以利用此功能了解實際值與預測值間之差異性以及預測之趨勢變動情形 選擇“vTargetMail(dbo)” 勾選需要比較之模型 Data Mining Model Evaluation 說明: 在進行模型效益評估前必須先選入資料表,並在模型中勾選要進行評估比較之模型 Data Mining Model Evaluation 分類矩陣 藉由分類矩陣進一步比較,判別兩模型的預測能力,由決策樹模型發現,預測正確的

文档评论(0)

youngyu0318 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档