以网页识别及清理改善跨网站资料撷取之研究 - 国立中央大学.PDFVIP

以网页识别及清理改善跨网站资料撷取之研究 - 国立中央大学.PDF

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
以网页识别及清理改善跨网站资料撷取之研究 - 国立中央大学

以網頁識別及清理改善跨 網站資料擷取之研究 劉仁宇 張嘉惠 國立中央大學資訊工程所 國立中央大學資訊工程所 .tw chia@.tw 摘要 項挑戰。本研究以會議網站為主題,目標在擷取各 在網際網路的使用中,資料的收集與整合往往 會議網站中所接受的的文章主題、作者姓名。 以圖 占據相當大的時間,這其中包括了兩個相當煩瑣的 1 為例,四個子視窗分別呈現四個國際會議網站的 工作,首先是網頁的收集,再來是資料的擷取。本 論文接受網頁 。會議網站的位址係由 DBWorld 取 篇論文即是以此兩個題目為主軸的研究 。我們以國 得,利用此網頁內的連結,下載所有的網頁,再辨 際會議網站為例,希望藉由分類方式,辨識出網頁 識其中公佈的接受論文網頁 。所收集的網頁再以 中屬於論文接受的網頁,再加以擷取其中所公佈的 Softmealy[2][3]訓練資訊擷取的規則,由於網頁內容 作者及論文題目 。首先在接受論文網頁的辨識上, 煩雜,我們嘗試以網頁清理方式,找出其中包含接 我們提出若干特徵做為 SVM 分類器的依據;而在 受論文的區塊。 綜合言之,本研究架構共分為三階 資訊擷取上則先經過網頁清理再由 Softmealy 完成 段: 資訊擷取 ;其背後的 縁由是網頁中 經常 夾雜著許 多 的雜訊,藉由網頁清理可以有效的減少擷取的錯 誤 。實驗數據從DBWorld中各會議網站,辨識 接受 論文所在的網頁,再經由頁面清理擷取主要內容, 其結果顯示有相當程度改善效果,也證明頁面清理 想法的可行性。 關鍵詞 :資料擷取、機器學習 1.緒論 隨著 Internet 技術的快速發展,在網際網路上 以 HTML 格式為主的文件資訊,以直觀與豐富的 圖 1 樣式多變的網頁結構 表達能力帶給使用者獲取新知來源的極大便利,然 而這些文件即便是相同領域若來自不同網站,搜尋 1. 接受論文的分類:任一網站下的全部網頁,數 出的內容,其設計表達方法卻不盡相同,帶來了資 量繁多,若由人力去挑選網頁,不僅費時且煩 料統整上的困擾與挑戰。因而後續開始有了資訊擷 瑣,因此本研究 希望能自動分析網站,將人力 取(information extraction) 方法論的研究,以期自動 的介入減至最低,而能自動分類出包含接受論 擷取網頁所包含的重要內容或使用者感興趣的事 文的網頁以供後續文章標題及作者的擷取。 實。 2. 頁面 清理(Page Cleaning) :分類出的Accepted 過去資訊擷取系統的研究主要著重在具有樣 Papers中,其網頁內容煩雜,因此需要做網頁 版格式網站的資訊擷取,對於多樣性網站的資訊擷 清理的工作,找出其中包含接受論文的區塊。 取及整合問題較少著墨,仍有相當大的改進空間。 利用資料特性的分析技巧,例:DOM Tree區 一般來說,一份文件的內容不僅只有語法結構,還 塊偵測、分行段落偵測及過濾特徵符號等技巧 包含了表現樣式、語意或是內文中的其他結構。對 來達成網頁清理的目標。 於多樣性網頁的資訊擷取而言,雖然各個網頁表現 3. 最後,應用 SoftMealy擷取器:經由 label標註, 格式烱異 ,但是語意及內 文的 其他結構仍有共通特 規則學習及 FST擷取器,達成資料擷取的工 點,以為人所辨識。 半結構化文件或是有同樣樣版 作。 網頁的資訊擷取多採用網頁的格式做為資訊擷取 規則的特性,而自由文體的擷取則多仰賴語言的構 詞、語法、語意來做分析, 其擷取規則主要是建立 2. 接受

文档评论(0)

2105194781 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档