网页结构探勘.ppt

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
网页结构探勘

第九章 網際網路資料探勘 簡介(1) 網際網路資料探勘的目的是要從網際網路中發掘並且分析出有用的資訊,主要的探勘類型分為三大類: 網頁結構探勘 (Web structure mining) 網頁內容探勘 (Web content mining) 網頁使用行為探勘 (Web usage mining)。 簡介(2) 網頁結構探勘主要是著重在網頁連結架構的分析,藉此發掘出更多有意義的網頁。 網頁內容探勘的目的是從本文 (text)、影像 (image)、多媒體 (multimedia) 以及其它組成網頁內容的物件中發掘有意義的資訊。 網頁使用行為探勘是應用資料探勘的技術來發掘使用者經常存取的網頁樣式。 藉由分析使用者瀏覽網頁的記錄,可以了解使用者的瀏覽行為,進而提供更好的客製化服務。 網頁結構探勘(1) 在超連結的網路環境中,網頁結構隱含著許多豐富的資訊來源。 藉由發掘網頁連結架構中的資訊,能夠更清楚地了解網頁之間的關係,進而發掘出在某些主題上最具 “權威性”的網頁 (authoritative homepage)。 例如,考慮查詢: “尋找有關資料探勘的資訊”。 和這個查詢相關的網頁可能多到讓人難以處理。 為了提供使用者一個正確有用的查詢結果,我們必須要能夠從大量的相關網頁中,過濾出少數最具 “權威性” 的網頁。 網頁結構探勘(2) 一個有趣的例子是 “尋找主要的WWW搜尋引擎的首頁”。 直覺地,我們會使用 “搜尋引擎” 來查詢,但是許多具權威性的搜尋引擎並不包含關鍵字 “搜尋引擎” 。 因此我們很難用一種客觀的方式來評估網頁的權威性。 超連結的建立基本上包含了大量潛在的人為判斷,而這種判斷對於 “權威” (authority) 的授予是非常重要的。 例如,在網頁p建立一個連結到網頁q,在意義上代表q被授予某種權威。當某個網頁被愈多其它的網頁連結時,則代表這個網頁的重要性愈高。 Kleinberg 的方法(1) Kleinberg 提出一個以連結為基礎的模式來決定具有權威性的網頁。 一個連結到許多相關權威性頁面的網頁則被稱為 “聚集中心”網頁 (hub homepage)。 網頁和超連結構成一個有向圖 (directed graph) G = (V, E),其中,頂點 (vertex) 代表網頁,邊 (edge) 表示超連結。 有向邊 (a,b) ?E的意思是網頁a連結至網頁b。 頂點a的出分支度 (out-degree) 代表從頂點a連結出去的邊的個數。 頂點a的入分支度 (in-degree) 則代表連結至頂點a的邊的個數。 使用有向圖來表示網頁之間的連結關係 Kleinberg 的方法(2) 假設使用者使用字串s來進行查詢。令Qs是所有包含關鍵字s的網頁所成的集合。有兩個問題必須特別留意: Qs可能包含上百萬個網頁,因此後續的處理時間勢必非常冗長。 大多數具權威性的網頁可能不包含在Qs中。 理想上我們真正所要尋找的網頁集合Cs應該具備下列條件: 條件 (1):Cs的大小要在合理的範圍之內。 條件 (2):Cs中的網頁要具備高度的相關性。 條件 (3):Cs要包含大多數具高度權威性的網頁。 Kleinberg 的方法(3) 如何找到Cs呢? 首先,利用某一個搜尋引擎找出前p個和查詢字串相關的網頁。這p個網頁被稱之為 “根網頁群” (root set),以Rs來表示。根網頁群Rs滿足上述條件 (1) 和 (2),但是可能不滿足條件 (3)。 具有高度權威性的網頁可能不被包含在Rs,但是有極高的可能性它至少會被Rs中某一個網頁利用超連結指向它。所以,我們可以將指向Rs的網頁和由Rs指向的網頁加入Cs,以增加Cs中高度權威性網頁的個數。 在這裡有一個限制:在Rs中的任何一個網頁h,最多只能將q個指向它的網頁加入Cs。這個限制的目的是為了控制Cs的大小在一個合理的範圍內。擴充後的Cs稱之為關鍵字s的 “基底網頁群” (base set)。 擴充根網頁群成為基底網頁群 產生基底網頁群的演算法 輸入: s: 查詢關鍵字;p, q: 自然數; 步驟1: Rs =使用某一個搜尋引擎所找出來的前p個和查詢關鍵 字相關的網頁; 步驟2:Cs = Rs; 步驟3:for each 網頁 h?Rs do begin 步驟4: Out(h) = h直接連結到的網頁所成的集合; 步驟5: In(h) =直接連結到h的網頁所成的集合; 步驟6: 將Out(h)所有網頁加入Cs中; 步驟7: if | In(h)| ? q then 步驟8: 將In(h)所有網頁加入Cs中; 步驟9: else 從In(h)任選q個網頁加入Cs中; 步驟10:end 步驟

文档评论(0)

wujianz + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档