迈向网际资料采矿之路.ppt

  1. 1、本文档共35页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
迈向网际资料采矿之路

第二章 邁向網際資料採礦之路 第一組 D9309304 紀博文 D9409101 葉國暉 M9509218 林董原 大綱 結構資料採礦 使用行為資料採礦 內容資料採礦 相關案例分享 什麼是網際資料採礦 結構資料採礦 從網際網路的topology結構中挖掘資訊 使用行為資料採礦 從使用者應用瀏覽器閱讀頁面的行為中挖掘 內容資料採礦 從網頁的文字、圖片,以及各種組成網頁的內容中挖掘 從資料採礦的角度看網路 網際網路是由網頁及超連結所組成 常以圖形理論來描述理想化的網路結構 在最單純的狀況下,內容資料採礦是不需要暸解任何網頁對外連結的狀況,同時結構資料採礦也不需要暸解網頁中所包含的內容。 使用行為資料採礦的理想呈現則是使用者的行為側寫。 結構資料採礦 總體結構 網際網路就是指向性的圖形 每個網頁 → 圖形的節點 (node) 超連結 → 稜 (edge) 指向性 就是當A連向B時並不代表B會連結至A 稱為連結分析 (link analysis) 計算引用次數 學術論文引用次數決定學術研究成就的影響力 網站的總體結構也很類似,當越多網頁指向時,則代表被連結的網頁是越重要的 要取得完整資訊是相當困難,因為網路世界無時無刻都在變化 data-miners 首頁導入 2001搜尋引擎排行榜 4月導入排行榜 集線器頁面及權威頁面 康乃爾大學的 Jon Kleinberg 提出 放置許多「好站推薦」的網站稱之集線器(hubs) 被許多集線器所推薦連結的網站稱之為權威(authority) 集線器與權威 Kleinberg 演算法 建立根網頁群 (root set) 利用「內容資料採礦」搜尋引擎產生 定義符合條件網頁 區分為「推薦網站」與「被推薦網站」 產生集線器與權威積分 遞迴計算,產生「集線器積分」與「權威積分」 1. 建立根網頁群 拿掉搜尋關鍵中的無效字元 如「的」 、「了」等助冠詞 產生有效查詢字串,轉型(stemming) 根據詞彙來搜尋網頁索引 根據關鍵字本身的出現頻率 該文件中反覆出現次數 (綜合以上指標來產生分數) 挑選前200名為根網頁群 2. 定義符合條件網頁 符合條件是指 被根網頁群中的推薦連結所推薦的網頁,同時這些被推薦的網頁也放置連結回指到根網頁群者 至少根網頁群推薦數 50 可再調整以剔除非有意義的連結 來自於同一個網域的推薦 該網站共同的連結 3. 產生集線器與權威積分 集線器積分較高的網頁通常會連向權威積分較高的網頁,反之亦然。 演算法利用迴圈的方式來根據權威網頁來調整集線器網頁的積分,再根據集線器的積分來調整權威網頁積分 行為模式資料採礦 特性 使用者行為是跨時間的 進行內容資料採礦或結構資料採礦時,常伴隨使用行為資料採礦(例如研究連結) 應用廣泛與資料來源較複雜 瀏覽路徑分析 流量資料(網站伺服器下載網頁的歷史紀錄,如購物籃分析) 流量(hit) ? 瀏覽頁 ? 區段(session) 網路事件檔(log) 網頁下載 ? 數個點選(hit) ? 伺服器間的事件檔整合 分析瀏覽路徑前,需先整合各個伺服器的事件檔,才能合併一個瀏覽頁 網頁事件檔的處理流程: 過濾 ? 去蜘蛛化 ? 使用者識別 ? 區段化 ? 完成路徑 網頁事件檔的處理流程 1/2 過濾:過濾掉不需分析的資料,以獲得比較單純的流量分析 去蜘蛛化:去掉一般所謂的蜘蛛程式瀏覽行為 使用者識別:哪些頁面流量是由同一個使用者所產生出來的?哪些不同時點的瀏覽區段行為是由同一個使用者產生的?(使用「帳號密碼」、IP、Cookie來判斷) 網頁事件檔的處理流程 2/2 區段化:辨識出哪些頁面流量是由同一個使用者在同一次瀏覽產生出來的(如:YAHOO查天氣)與區段定義問題? 完成路徑:瀏覽器的暫存區問題 ? 「低估網站的使用流量」、「瀏覽路徑變的不完整」與「無法辨識多位使用者」 應用服務事件檔 上述行為為單純的網址下載結果 應用伺服器事件檔包含詳細的下載頁面與其中的意義,如使用者的購物行為、業務記錄與顧客行為等 應用:利用使用行為資料採礦來提升網站使用狀況 使用者瀏覽路徑分析 購物籃分析 利用關連規則來分析頁面 利用群集技術來分析出不同的使用行為與目的 內容資料採礦 特性 針對內容 資訊存取 (information retrieval) 從文中萃取出資訊,並建構出完整的中繼資料(Metadata) 技術上目前仍僅達到文字資料採礦 搜尋效率 回查(recall)與精確度(precision) 內容分類案例 研究目的 藉由信用卡正常戶與逾期戶及呆帳戶之特性差異分析,可以發現正常戶轉變為逾 期戶及呆帳戶之徵兆,並根據這些症兆運用決策樹分析方法找出正常戶潛在之高 風險族群,在其發生逾期或造成呆帳損失前採取策略,以減少銀行呆帳損失 資料來源

文档评论(0)

f8r9t5c + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

版权声明书
用户编号:8000054077000003

1亿VIP精品文档

相关文档