- 5
- 0
- 约3.24千字
- 约 36页
- 2018-06-28 发布于福建
- 举报
Web的资料挖掘的方法
第2章 Web資料挖掘的方法 2.1 從資料挖掘的角度看網絡 Web Mining Taxonomy(分類) 2.2 結構挖掘 網頁結構探勘主要是著重在網頁連結架構的分析,藉此發掘出更多有意義的網頁。 2.2.1 總體結構 2.2.2 局部結構 導覽頁面 終點頁面 網路結構應與網站經營目的相配合 2.3 挖掘客戶使用行為模式 藉由分析使用者瀏覽網頁的記錄,可以了解使用者的瀏覽行為,進而提供更好的客製化服務。 2.3.1 點擊流(瀏覽路徑)分析 網頁事件檔的處理流程 過濾 去蜘蛛化 使用者識別 區段化 完成路徑 spilder 網路蜘蛛(Web spider)指的是「自動化瀏覽網路」的程式。這樣的電腦程式是為了自動從網路擷取特定的資料,或為了組織網路上的資料,所設計的「『自動瀏覽網路』的程式」 2.3.3 應用日誌 例如 使用者曾經把哪些商品放入購物車 是否完成結帳? 購買過哪些商品 2.3.4 應用資料挖掘提高網站使用狀況 個人化 貼切的建議 提昇使用者滿意度 2.4 內容挖掘 網頁內容探勘的目的是從本文 (text)、影像 (image)、多媒體 (multimedia) 以及其它組成網頁內容的物件中發掘有意義的資訊。 2.4.1 資訊萃取(information retrieval) 資訊萃取是將文件 (text) 轉換成一個結構化的格式,這對於要擷取具有某一個特定主題的文件有很大的幫助。 對於資訊萃取所得到的結果,可以使用 “反查” (recall) 和 “準度” (precision) 分別來評估它能夠提供的正確資訊的比例,以及所提供的資訊中正確資訊所佔的比例。 Recall, Precision 反查 = 準度 = 2.4.2 基於內容的分類 記憶基礎推論的基本觀念是先找出新資料的鄰近資料,然後再根據鄰近資料的特性對新資料進行分類和預測。 這個方法基本上必須要有一個歷史資料庫,它包含許多已知分類的網頁。 將新網頁和這些已知分類的網頁進行比較之後,可以從中找到k 個和新網頁最近似的網頁。 再利用這些近似網頁所屬的分類類別來決定新網頁的類別。 2.4.3 從本文中萃取資訊 Kleinberg 的方法(1) Kleinberg 的方法(2) Kleinberg 的方法(3) 擴充根網頁群成為基底網頁群 產生基底網頁群的演算法 Kleinberg 的方法(4) Kleinberg 的方法(5) Kleinberg 的方法(6) Kleinberg 的方法(7) Kleinberg 的方法(8) 聚集中心網頁和權威性網頁之間有相互增強的關係。 若p連結到許多具有較大x值的網頁,則它應該有一個較大的y值。 同樣地,若p被許多具有較大y值的網頁所連結,則它應該有一個較大的x值。 Kleinberg的? 運算更新x值的方式如下: 其中E是Gs中所有邊的集合。 Kleinberg的? 運算更新y值的方式如下: Kleinberg的 ? 運算 Kleinberg的? 運算 對於每一個網頁p,它有一個非負值的 “權威” 權值 (authority weight) xp 和一個非負值的 “聚集中心” 權值 (hub weight) yp。 每一種型態的網頁權值經過標準化的動作之後必須滿足平方和等於1的條件: 和 ,其中Cs是Gs所包含的網頁所成的集合。 具有較大x值和y值的網頁將分別被視為是較佳的權威性網頁和聚集中心網頁。 * Web Mining Web Structure Mining Web Content Mining Web Page Content Mining Search Result Mining Web Usage Mining General Access Pattern Tracking Customized Usage Tracking Kleinberg 提出一個以連結為基礎的模式來決定具有權威性的網頁。 一個連結到許多相關權威性頁面的網頁則被稱為 “聚集中心”網頁 (hub homepage)。 網頁和超連結構成一個有向圖 (directed graph) G = (V, E),其中,頂點 (vertex) 代表網頁,邊 (edge) 表示超連結。 有向邊 (a,b) ?E的意思是網頁a連結至網頁b。 頂點a的出分支度 (out-degree) 代表從頂點a連結出去的邊的個數。 頂點a的入分支度 (in-degree) 則代表連結至頂點a的邊的個數。 假設使用者使用字串s來進行查詢。令Qs是所有包含關鍵字s的網頁所成的集合。有兩個問題必須特別留
您可能关注的文档
最近下载
- 电能质量PPT课件.ppt
- 132_中药饮片炮制及生产管理.pptx VIP
- SimBank银行模拟教学平台实习指导书.pdf VIP
- 深度解析(2026)《JBT 12968-2025盾构机用变频调速三相异步电动机技术规范》.pptx VIP
- 统计学原理与实务.pdf VIP
- 冻干SOP(最新整理版).docx VIP
- DB11T 1213-2015 自来水单位产量能源消耗限额 .docx VIP
- (正式版)G-B∕T 43909-2024 叉车属具 安全要求.docx VIP
- 中国慢性乙型肝炎功能性(临床)治愈临床实践专家共识(2025)解读PPT课件.pptx VIP
- 监理概论教案.pdf VIP
原创力文档

文档评论(0)