语意部落格架构与实作.PDFVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
语意部落格架构与实作

第四章 語意部落格架構與實作 我們將在這一章介紹整個語意部落格入口網站背後的系統架構與實作,如何選定目標與 設計 Crawler 來進行資訊的收集。在 4.1 我們將簡述資料蒐集的對象與方式,在 4.2 將利 用一個系統架構圖來描繪出整各系統的架構與運作流程, 4.3 將描述背後搜尋引擎的設 計與後端資訊儲存的方式,以及為什麼要這樣設計的原因; 4.4 介紹部落格本體論部分 的實作。 4.1 資料蒐集 蒐集對象:首先在資訊來源選擇上,考慮自行設計 Crawler從 BSP蒐集文章,而不透 過現有入口網站去蒐集;這樣的考量是如果透過現有入口網站來蒐集,可能無法取 得較為接近部落格實際使用情況的資料;因此一開始先選定目前國內最大、擁有超 10 過 200萬帳號的無名小站 作為研究資料來源。 蒐集時間:大約一個月 ( 2006/9/9 ~ 2006/10/9 ) 程式設計:以 JAVA 為主、JSP 、Jena 套件 後端儲存: MySQL 與檔案系統 伺服器端: Apache + Tomcat Web Server 10 http://www.wretch.cc/blog/ 33 4.2 系統架構 圖 16 系統架構圖。 整個系統架構中,首先從挑選的 BSP社群中進行資料蒐集。資料蒐集我們除了設計 基本能處理網路資源的Crawler之外,還必須對BSP進行特徵分析,這是因為每家BSP設 計與呈現方式並不一樣,例如好友名單的呈現方式。再撰寫 Parser擷取出特徵資料暫存 於資料庫中。社會網路分析我們將使用分析軟體-Pajek 11 ,替我們進行社會網路指標的 計算與分析,因此必須撰寫轉換程式,將點與邊的關係轉成 Pajek輸入的檔案格式。接著 是將資料透過我們所定義好的本體論,將資源與屬性自動加上標記。最後建置使用者介 面透過 SPARQL查詢與提供不同指標排序將結果呈現。 11 http://vlado.fmf.uni-lj.si/pub/networks/pajek/ 34 4.3 搜尋系統實做 4.3.1 網頁抓取設計 (Crawler Design) Crawler的功能主要為抓取網頁並擷取出有用的資訊,首先設計一隻能處理網頁與超 連結的 JAVA程式,必須能處理超連結並紀錄已經拜訪過的連結以及哪些尚未拜訪,否 則有可能會形成迴圈。接著需設計過濾 (Filter)機制,主要有兩個目的,第一個是檔案類 型的過濾,透過 HTTP Request回傳的 Header部分,我們可以從 Content-Type來得知所抓 取的檔案類型,例如 htm 、jpeg 、doc或 xml 等;如此一來,我們便可以限制抓取檔案類型 來過濾掉不需要的資訊,也能依照不同檔案類型進行處理。第二個目的是規範程式能鎖 定在BSP網址之下而不要跑到其他不相關網站,網頁與網頁間的連結機制是透過超連結 (Hyperlink) ,但透過超連結漫無目的往外抓取很有可能會抓到不相關的網頁。圖 17是一 個簡單蒐集網頁的 Crawler’s pseudo code 。 由於部落格的特徵是以帳號(個人)為主,因此我們決定先從帳號進行蒐集,再蒐 集所發表過的文章。搜尋上,我們以廣度優先(Breadth-first)的方式來抓取。首先從無名 部落格首頁挑選幾個獨立帳號網址設為未拜訪,抓取 HTML 網頁並解析帳號所設的好 友名單,建立帳號與好友間的關係,再將這些資訊存入資料庫;而從好友名單所新增的 帳號網址又排入佇列中等待,讓 Crawler 不停的抓取與分析。 接

文档评论(0)

zhuwo + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档