链结分析的缺点-中兴大学教职员工网页.ppt

链结分析的缺点-中兴大学教职员工网页.ppt

  1. 1、本文档共54页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
链结分析的缺点-中兴大学教职员工网页

鏈結分析 圖形理論簡介 康斯坦丁七座橋 銷售員問題 Hub and Authority Case介紹 連結分析優缺點 圖形可以藉由相互之間關係的連結而獲得到資訊。 沒有任何標示,可以描述各種不同情況。 路徑(Path):是指以某種次序連結各個節點,而節點是由edges所連結的。 例如: 加權圖形(weighted graph): 意指每個edge都具有權值(weight)。 最短路徑是以視edges的權值來衡量的。 例如: 康尼斯堡(Kongsberg)在普格河(Pregel River)上有兩個彼此相連的島,並透過七座橋與城市的其他地方相連。 以四個節點以及七個edges的圖形來表示。 頂點之間edge=橋樑。 要找出能一次走過所有橋樑的路線,就等於找出可以一次走過圖形中所有edges的路徑。此路徑就稱為「Eulerian path」。 通過七座橋樑的一條路徑為: 此一路徑走過的edges包括: 至多保留兩個節點(度是奇數)。 可先從任一有奇數度的節點開始,走到相連結的偶數度的節點後,去除該edge去除,並將其視為Eulerian path第一個edge。 故事: 一位業務員必須拜訪在許多城市裡的客戶,他計畫飛到其中一個城市並租一輛車,拜訪那裡的客戶後再開往其它的城市拜訪其它的客戶。 找出連結多個節點間最短路徑的問題,也就是圖形中一次走過所有節點的路徑,就稱為「Hamiltonian path」。 路徑的計算: 4*3*2*1=4!=24 (n個節點的路徑為(n-1)!) 因此當節點增加時,路徑也會呈階乘增加。 無方向的圖如高速公路 有方向的圖如單行道 Directed graph是一種表達資料的好方法: 航班飛往哪些城市 網頁的超連結 電話通訊模式 跨州交通圖示 如果一個圖的路徑開始和結束於同一個節點,稱為Cycle 例如:單程飛機 包含至少一個Cycle的,稱為Cyclic 例如:同班同學手機群組 當一個圖形有一個以上的Source Node與 Sink Node時,循環是不存在的。 去除Source Node、Sink Node以及其周邊的edge的過程持續下去,直到以下其中一種情況發生: 圖形上已經沒有任何edge和節點。在此情況下,該圖形沒有循環。 圖形上仍剩下一些edge,但沒有任何Source Node與Sink Node。在此情況下,該圖形是循環。 非環循(acyclic)圖形: 例如:決策樹 John Klieinberg博士的貢獻:讓網頁和網頁之間產生連結 每一個對網頁的連結都成為一種有利的推薦 由連結數多的網頁排序來找來源 由「相關主題Hub的連結數」計算 內容基礎(text-based)的搜尋 最具代表性的資料未必使用常見的搜尋字串 Harvard Kleinberg演算法用下列三個階段找出可靠的來源: 創造Root Set 找出候選名單 將Hub和Authority排序 步驟一:將”stop words”由搜尋字串中移除。如a、an、the 步驟二:移除掉複數型態或是詞性變化 步驟三:運用索引檔 一般由前200項資料作為root set 找出候選資格 一般而言最多取50個 避免網頁集中 依照他們的強度來排序 把具有多重意思的資料聚集在一起 Hub和Authority有交互增強的關係 由彼此的強度來調整強度 :第一個用連結分析來找hub和authority的搜尋引擎 超越 和 較好的搜尋品質 電話撥打資料(data)包含豐富資訊(information) 藉由分析當地電話記錄,可以找出潛在客戶。 在家工作者的促銷方案 是商用費率而非一般家用費率 如何找到目標客戶:地理區隔、郵遞區號…等 更好的方式:尋找傳真機使用者 有較好的市場區隔,可以帶來較好的回應 尋找使用傳真機客戶的好處: 增加收入 降低成本 增加顧客滿意 通話紀錄的詳細資料,包含: 十碼電話號碼(三碼區碼、三碼交換碼、四碼線路碼) 接聽的電話號碼 通話的時間地點 通話長度 傳真機傾向撥打給其他傳真機 傳真機使用類型: 傳真專用 和市話共用 和伺服器共用 越瞭解問題,結果越好 尋找傳真機的步驟: 由已知的傳真機開始 通話期間多於十秒的進入候選 候選號碼進行歸類 重複上述步驟,直到所有號碼皆完成分類 樣本數:3011819通電話,由19674個家計單位蒐集而來 用C++編碼處理資料 用圖形著色演算法(graph-coloring algorithm)分析 本例運用連結分析區別現有客戶,對其推銷新服務。 透過分析結果進行推銷,使回應率由2%上升到15% 手機通話紀錄包含下列資料: 發話號碼 受話號碼 發話號碼地點 號碼主人的帳號 通話長度 時間和

文档评论(0)

youbika + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档