ThefutureofBI-资料采矿技术与商业智慧.pptVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
* * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * Text Mining (本文採礦) 真實世界高達85~90% 皆屬非結構化資料 Text mining 可應用的範圍 網頁內容蒐尋,分類,比對 (專利文件,法條判例,論文,病例文件) 可應用文章真偽的判定 可用於垃圾郵件的規則 問卷調查,電話訪談的應用 請問以下問題如何處理 問若某兩人是否有明星臉,應如何處理? Ans:抓特徵,算相似度 問指紋比對,應如何處理? Ans:抓特徵,算相似度 垃圾郵件的阻擋,應如何處理? Ans:抓特徵,算相似度 文學名著的真偽,應如何處理? Ans:抓特徵,算相似度 How to do text mining? 蒐集文件(文章) 把文章存入database 資料前處理-- 1.先斷行,斷句 2.擷取出關鍵字彙(斷字) 3.作基本的頻率統計 運用集群演算法、決策樹、關聯規則等進一步應用 詞彙擷取包含下列三大步驟 期末考 題目一 請蒐集針對「紅樓夢」這本文學名著,有哪些相關的文字探勘的研究,請作一完整的整理。 請蒐集針對「浮生六記」這本文學名著,有哪些相關的文字探勘的研究,請作一完整的整理。 請蒐集針對「莎士比亞著作」,有哪些相關的文字探勘的研究,請作一完整的整理。 紅樓夢 胡適提出《紅樓夢》後四十回和前八十回的作者並非同一人 1981年,陳炳藻通過對紅樓夢的數理統計,得出全120回皆為曹雪芹原作的結論。但學術界依舊沒有對此達成普遍共識 浮生六記 「中山記歷、養生記逍」兩記的真偽 爭議已久 有篇論文在第三節使用變異數分析、Kruskal-Wallis 無母數方法、Kolmogrov-Smirnov 無母數方法、 迴歸分析診斷工具各種殘差等方法,對每句字數之特徵值及次數分配作比較 第四節以Bootstrap 方法建構虛字「之」出現次數之分配作比較; 第五節利用等候時間( wait time ) 分配觀念對虛字之、矣、者、也在每一篇文章中每隔多少字出現作比較; 第六節將每一篇文章作分割,以「之」出現次數為應變數,「矣、者、也」出現次數為自變數,使用計數迴歸分析,分別採用 Poisson 模式及負二項模式作比較 浮生六記 「浮生六記」自清代光緒四年(西元1878年)刊印前四記至今,130多年間,仍然不見第五、六兩記佚文的蹤跡。沉寂百年後,去年彭令宣稱發現第五記「海國記」手抄本 「浮生六記」的第五記「海國記」面世,證實釣魚台早屬滿清 理想與現實之差距 企業擁有的商業智慧工具比以往任何時候都多, 但企業仍然缺乏解釋資料和根據資料採取行動的能力。--------?凸顯專業資料採礦顧問之價值性 商業智慧基本上仍是戰術性的部署在企業的部門中;而非戰略性地支持與投資-----?商業智慧解決方案雲端化商機 Data Mining 之價值 Times時代雜誌預估: Data Mining將是21世紀最熱門之五大新興行業 如何成為 Data Mining 專家 Data Mining 之 觀念與技術 不斷運用之經驗 Domain Knowledge (領域相關知識) 獲得資料採礦資訊之管道 .tw/ / / * * * * * * * * * * * * * * * 日本7-11 「七五三感冒指數」,如果一天當中的溫差7度、今天和昨天的溫差5度以上、溼度差大於30%,感冒的人數就會增加,此時商家就會考慮把感冒藥、溫度計和口罩等用品上架。除了感冒指數之外,許多溫度變化和暢銷商品相關性的分析,日本7-11的情報系統也累積了相當多資訊。比如氣溫在攝氏24度到27度之間,鰻魚、冰品和防曬乳會賣得好;溫度在22度到25度時,涼飲、冰咖啡和殺蟲劑就不可少;溫度在17度到20度之間,布丁、沙拉和優格則很受歡迎。 其他 美國匯豐銀行在顧客資料中進行探勘,用「生活方式」區隔進行行銷,對行銷資源做「最佳化規劃」,銷售量提高了50% Jubii(丹麥入口網站)運用資料探勘探索「哪一種瀏覽路徑最有可能促成交易?」,改善網站設計,使得瀏覽率提升30%~50%,媒體銷售業績成長10%~15% 美國銀行 (Bank of America)從客戶資料中,找出既有客戶申請貸款的時機,規劃全新行銷方案;該方案推出後,接受率立即成長兩倍以上 資料探勘在CRM的應用 潛在客戶分析 顧客價值評估 顧客忠誠度分析 顧客流失分析 市場購物籃分析 交叉銷售與購買傾向分析 購買

文档评论(0)

yusuyuan + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档