- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
投资金融行业文档
資料採礦分類分析系統之建構與應用-信用貸款違約與選股系統應用 指導教授:姜林杰祐 博士 摘要 本研究以資料採礦的分類方法為核心,嘗試建構一開放式的分類分析系統,其內含的分類演算法包括ID3、C4.5、貝氏分類法與記憶基礎推論法等。 為驗證本系統的有效性,本研究以銀行信用貸款資料庫為例,分類正常戶與違約戶;並將此分類工具應用於股市的分析、預測,期能以此系統發展資料趨導式的選股模型 報告大綱 第一章、研究目的與動機。 第二章、文獻探討。 第三章、資料採礦分類分析系統開發。 第四章、實例應用一。 第五章、實例應用二。 第六章、結論與未來研究。 研究動機與目的 近年來資料氾濫,如何在過度氾濫的資料中去蕪存菁,將無用的資料過濾,進而獲得有用的資訊、知識是相當重要的議題,而資料採礦即是對資料進行分析,以求在大量資料中獲取資訊的有效方法。 資料採礦方法在財金領域應用現況 Philip Joos 等(1998) 將Logit Model以及決策樹用於比利時某大型銀行資料庫進行信用分類,獲得80%以上之的準確度。 Nazli Ikizler等(2000)使用決策樹C4.5演算法對銀行放款資料進行分析,試圖找出令人感興趣的分類規則,此研究結果發現數條有用之分類規則,可供決策運用。 Muh-Cherng Wu等(2006)以決策樹結合濾嘴法則,應用於股市交易,獲得13%的報酬率。 資料採礦於金融業之應用 資料採礦方法 分群。分群是針對樣本進行劃分,與分類不同的是,進行分類時使用者必須明確知道要以何種準則來對樣本進行劃分,而分群屬於非監督式學習法,使用者不需知道樣本要依何種準則進行劃分(有時也無法得知),分群演算法會自動對樣本進行劃分,在圖形辨識、市場區隔等領域都有優異的表現,主要演算法有K-平均法、K-物件法等。 關聯。此演算法主要是要探究,當某一事件發生時,是否會帶動另一事件跟著發生,是一種探究因果關係的方法,最著名的應用為購物籃分析,用以發現消費者的購買行為,以Apriori演算法最為經典。 分類。為一監督式學習方法,主要用於對樣本進行類別的劃分,如對銀行客戶進行信用分級、預測違約戶…等都是其主要應用領域,分類包含了眾多演算法可供使用,如決策樹、類神經網路、支援向量機(SVM)、貝氏分類法、記憶基礎推論法(MBR)…等都是知名的分類演算法。 決策樹 貝氏分類法 記憶基礎推論法 步驟1 選取訓練樣本集 步驟2 計算屬性距離 絕對差: 平方差: 標準差: 步驟3 計算資料距離,將上述求得各屬性距離加以組合成一個值,用以代表兩資料間的距離,常用合成方式如下 總和: 標準化總和: 歐基里徳距離: 記憶基礎推論法(續) 步驟4 選取k筆鄰近資料進行表決,為了避免表決時有平手的情況,k應取單數為佳。 步驟5 表決方式選擇,判定方式以選出之k個鄰近資料進行多數決,多者即為該預測樣本歸屬之類別,常用判定方式如下: 民主選舉法:所選之k個鄰近樣本具有相同權重,以多者為勝。 加權選舉法:依據所選之k個鄰近樣本與預測樣本的距離給予權重,距離預測樣本愈近,則權重愈大。 系統架構 決策樹流程 貝氏分類法流程 記憶基礎推論法流程 銀行信用貸款違約分析 實驗流程 資料獲取:將欲進行分析之資料載入資料表 資料前置處理:共有雜訊處理、資料離散化、訓練/測試樣本選取三部份 雜訊處理:將兩標準差以外之資料視為雜訊。 資料離散化:以等寬裝箱法將連續型資料分為五類。 訓練/測試樣本選取:隨機挑選151筆資料進行訓練,75筆資料用於測試。 探勘方法選取:依使用者需求選取合適之探勘方法,系統提供方法有決策樹、貝氏分類法、記憶基礎推論法。 決策樹分析 實驗設定 決策樹分析(續) 實驗結果 ID3 實驗結果 C4.5 實驗結果 決策樹分析(續) 分類規則 決策樹分析(續) 樹狀圖 貝式分類法分析 實驗設定 實驗結果 記憶基礎推論法分析 實驗設定 記憶基礎推論法分析(續) 實驗結果 實例一總結 決策樹因為有一條條的分類規則輸出,較易解釋獲得之分類結果,在實務上較受歡迎,且輸出之規則可做為未來決策判斷之用。 貝氏分類法以貝氏定理為基礎簡單易用,且只需知道各類別所包含的資料個數,即可計算出機率,因此此方法具漸增性–當資料增加時不必從頭計算,只需將新舊資料各類別之資料數加總即可 。 記憶基礎推論法之預測效果最優,對於小樣本也可獲得不錯的準確度,然而卻也是此方法之缺點,此法因為計算量太過龐大,不適於大樣本之預測。 資料導向的選股模型建構 台灣上市公司個股應用 此部份將資料探勘技術應用於股票市場,分析上市公司的財務資料,用以預測下一季的股票平均季報酬,進而使用這些規則來協助投資者建立選股模型。 本實驗採決策樹以及貝
文档评论(0)