资料采矿产业应用实务.ppt

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
Microsoft SQL Server 2005 Data Mining 演算法 – 資料採礦產業應用實務 謝邦昌 輔仁大學統計資訊學系 教授 中華資料採礦協會? 理事長 Agenda 台灣客戶成功案例研究 Data Mining的應用 Data Mining在電信業的應用 探究電信資料異常之研究 電信業潛在客戶發掘 Data Mining在金融業的應用 台灣客戶成功案例研究 企業應用系統平台三大關鍵要素 SQL Server 2005, Visual Studio 2005 and BizTalk Server 2005 SOA Ready! 易學、易部署、易延伸 …more and more over J2EE Team Ready! 推動流程導向的開發團隊 …instead of IBM Rational 資料庫應用程式大革命~打開商業智慧之門 …instead of Oracle or IBM DB2 超輕量的網頁開發工具~把精力留給創意 …instead of Linux,Apach,MySQL,PHP 64-bit Ready! 輕鬆轉換、無痛升級 …Offer x64 and IA64 Mobile Ready! 掌上乾坤,商機無限延伸 …Smart Phone and Pocket PC 台灣的導入客戶成功案例 台灣的導入客戶成功案例 台灣在軟體開發平台與工具使用現況 Comparing Value Comparing Value Comparing Value Comparing Value Comparing Value Data Mining的應用 Data Mining的應用 Data Mining的應用 Data Mining在各產業的應用 金融服務業 客戶貢獻度分析、信用評分、風險評估、客戶區隔、交叉行銷等。 保險業 顧客貢獻度分析、信用評分、風險評估、客戶區隔、交叉行銷、客戶流失分析和詐欺偵測等。 電信業 顧客貢獻度分析、信用評分、客戶區隔、交叉行銷、客戶流失分析、銷售預測和詐欺偵測等。 Data Mining在各產業的應用 製造業 客戶貢獻度分析、品質管制、行銷績效分析、生產分析和存貨分析等。 零售業 客戶忠誠度、客戶區隔、購物籃分析、定價分析、交叉行銷和銷售預測等。 生物科技、醫療保健、航太空業、環境、法律等 Data Mining在電信業的應用 探究電信資料異常之研究 盜撥行為的分析 近年來在電信業中發展出許多有效但昂貴的硬體防盜設備,因此並不是所有的電信業者都能夠即時的採用。 由於盜撥行為氾濫,會造成基地台及設備佔用的問題,因而影響到正常用戶的使用權利。 若盜撥行為無法有效解決,將會造成舊用戶的流失,更會影響到開發新客戶的業績。 電信業者必須加派許多人力來處理這些被盜撥客戶的抱怨。 由於這些硬體設備其功能完全專注於偵測盜撥,而無法針對某些特定的用戶族群去做行為上的分析,以幫助策略上的制定與調整。 電信詐欺 電話盜打的兩種類型 技術性盜打(Cloning) 利用破解技術或電子方式,傳送出一個可被系統認為有效的帳號,然後無限制地進行「暢談」。 文件性盜打(Subscription Fraud) 利用人頭帳號或無效、偽造的身份證件,來申請一個正式有效的帳號,從此坐享「無溝通障礙」的境界。 電話盜撥約占業者總體通話費收入的2%左右。 若以平均每個用戶通話費80美元,每個系統業者共有10萬名用戶來看,這將使系統業者每年短收192萬美金的進帳。 研究系統架構與流程 原始資料之樣式 演算法詳細步驟 計算歷史資料庫資訊含量的平均值及標準差 目的是要分析電信資料的異常情況,因此如何有效找出異常區間便成為最主要工作之一 。 利用歷史資料,計算出其資訊含量的平均值及標準差,並以此當作一個正常區段該有的資訊含量。接著便可把這個資訊含量當作評估指標,用來找出現有資料庫中,那些區間是異常的情況。 當歷史資料庫的資料筆數越多時,所計算出來的資訊含量也會越大。 資訊含量與資料庫筆數之比較圖 標示出異常區間及特徵屬性 當有了歷史資料庫資訊含量的平均值與標準差後,我們便可利用它來標示現有資料庫的異常區間。 由於整個資料庫的資訊含量是由六個屬性的資訊含量加總而來的,因此若現在資料庫的資訊含量大於3.5,則表示這六個屬性必定有某幾個資訊含量值偏高,而影響了整個資料庫;反之,若現在資料庫的資訊含量小於2.5,則表示這六個屬性必定有某幾個資訊含量值偏低。 各屬性的平均值與標準差 設定門檻值,增加或刪除異常區間 經由門檻值(Threshold)的設定,將可以依照每個使用者的需求(容忍範圍),來增加或減少異常區間的個數。而門檻值所代表的意義,也可以說是調整標準差的

文档评论(0)

niupai11 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档