以网页识别及清理改善跨网站资料撷取之研究 - 国立中央大学.PDFVIP

下载本文档

0
0
约2.15万字
约 7页
2017-06-24 发布于天津
举报
版权申诉

以网页识别及清理改善跨网站资料撷取之研究 - 国立中央大学.PDF

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

以网页识别及清理改善跨网站资料撷取之研究 - 国立中央大学

以網頁識別及清理改善跨網站資料擷取之研究劉仁宇張嘉惠國立中央大學資訊工程所國立中央大學資訊工程所 .tw chia@.tw 摘要項挑戰。本研究以會議網站為主題，目標在擷取各在網際網路的使用中，資料的收集與整合往往會議網站中所接受的的文章主題、作者姓名。以圖占據相當大的時間，這其中包括了兩個相當煩瑣的 1 為例，四個子視窗分別呈現四個國際會議網站的工作，首先是網頁的收集，再來是資料的擷取。本論文接受網頁。會議網站的位址係由 DBWorld 取篇論文即是以此兩個題目為主軸的研究。我們以國得，利用此網頁內的連結，下載所有的網頁，再辨際會議網站為例，希望藉由分類方式，辨識出網頁識其中公佈的接受論文網頁。所收集的網頁再以中屬於論文接受的網頁，再加以擷取其中所公佈的 Softmealy[2][3]訓練資訊擷取的規則，由於網頁內容作者及論文題目。首先在接受論文網頁的辨識上，煩雜，我們嘗試以網頁清理方式，找出其中包含接我們提出若干特徵做為 SVM 分類器的依據；而在受論文的區塊。綜合言之，本研究架構共分為三階資訊擷取上則先經過網頁清理再由 Softmealy 完成段：資訊擷取；其背後的縁由是網頁中經常夾雜著許多的雜訊，藉由網頁清理可以有效的減少擷取的錯誤。實驗數據從DBWorld中各會議網站，辨識接受論文所在的網頁，再經由頁面清理擷取主要內容，其結果顯示有相當程度改善效果，也證明頁面清理想法的可行性。關鍵詞：資料擷取、機器學習 1.緒論隨著 Internet 技術的快速發展，在網際網路上以 HTML 格式為主的文件資訊，以直觀與豐富的圖 1 樣式多變的網頁結構表達能力帶給使用者獲取新知來源的極大便利，然而這些文件即便是相同領域若來自不同網站，搜尋 1. 接受論文的分類：任一網站下的全部網頁，數出的內容，其設計表達方法卻不盡相同，帶來了資量繁多，若由人力去挑選網頁，不僅費時且煩料統整上的困擾與挑戰。因而後續開始有了資訊擷瑣，因此本研究希望能自動分析網站，將人力取(information extraction) 方法論的研究，以期自動的介入減至最低，而能自動分類出包含接受論擷取網頁所包含的重要內容或使用者感興趣的事文的網頁以供後續文章標題及作者的擷取。實。 2. 頁面清理(Page Cleaning) ：分類出的Accepted 過去資訊擷取系統的研究主要著重在具有樣 Papers中，其網頁內容煩雜，因此需要做網頁版格式網站的資訊擷取，對於多樣性網站的資訊擷清理的工作，找出其中包含接受論文的區塊。取及整合問題較少著墨，仍有相當大的改進空間。利用資料特性的分析技巧，例：DOM Tree區一般來說，一份文件的內容不僅只有語法結構，還塊偵測、分行段落偵測及過濾特徵符號等技巧包含了表現樣式、語意或是內文中的其他結構。對來達成網頁清理的目標。於多樣性網頁的資訊擷取而言，雖然各個網頁表現 3. 最後，應用 SoftMealy擷取器：經由 label標註，格式烱異，但是語意及內文的其他結構仍有共通特規則學習及 FST擷取器，達成資料擷取的工點，以為人所辨識。半結構化文件或是有同樣樣版作。網頁的資訊擷取多採用網頁的格式做為資訊擷取規則的特性，而自由文體的擷取則多仰賴語言的構詞、語法、語意來做分析，其擷取規則主要是建立 2. 接受