资讯硕、博士论文摘要-优等_附件.docVIP

下载本文档

8
0
约4.79万字
约 27页
2017-09-09 发布于北京
举报
版权申诉

资讯硕、博士论文摘要-优等_附件.doc

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

資訊碩、博士論文摘要－優等第 1 篇學號：論文名稱：助理型軟體資訊擷取技術：樹狀結構HTML文件樣板之自動產生法 Automatic Generation of Tree-Structured Templates for Information Extraction from HTML Documents 研究生：莊水龍 Shui-lung Chuang 指導教授：許永真 Jane Yung-jen Hsu 校院：國立臺灣大學系所：資訊工程學研究所學位：碩士學年度：八十八語文：英文頁數：108 關鍵字：樣板式資訊擷取 template-based information extraction 樣板自動產生法 template generation 文法推論 grammatical inference 序列對齊 sequence alignment [提要] 網際網路的快速成長已經改變了人們處理日常生活資訊的方法及習慣。有愈來愈豐富的資料是以HTML文件的格式呈現在Web上，為了使這些大量的線上資料能夠被有效地利用，各式各樣的資訊擷取系統被發展出來。然而面對著日益龐大的資料量以及應用程式需求，過去以人工分析來手動建構所需之資訊擷取系統已無法滿足現階段大量的需求，因而許多的研究人員正極力發展各種可行的方法來自動建構所需之資訊擷取系統。我們採取的資訊擷取方法是樣板式資訊擷取法(Template-based Information Extraction)。一份HTML文件可以根據它的標籤而被表達成一棵文件樹，以期能表達出該文件的結構資訊。而相似的文件通常具有相同的文件結構，因此我們利用一個樹狀結構樣板來表達這個相同的文件結構特性。透過一個樹狀配對法，我們可以決定樣板和文件之間的對應關係，進而從文件中擷取出所要的資訊。撰寫所需的樹狀結構樣板需要相當的訓練和經驗，而且樣板設計者還需要深入去分析所要處理的資訊源之文件結構為何。這樣的工作不僅很無趣，而且費時，更糟糕的是所得到的樣板很可能容易出錯，為了減少整個資訊擷取系統發展上的困難，本論文提出了一個自動化樣板產生法，使用者只需要提供少數幾篇相關文件及相對應之擷取目標，透過我們所提出來的方法，便可以自動地產生一個適當的樣板。我們將所發展出來的方法實際地應用在幾個知名的網路搜尋引擎及線上新聞網站上。實驗結果顯示了我們所提出的方法確實可以很有效且快速地產生所需要的樣板，也更加確認了這套方法的可行性及實用性。結合了樣板式資訊擷取法和自動樣板產生法，我們使得發展一個資訊擷取程序變成了只要提供幾篇同類的文件和相關的擷取資訊。很明顯地，這大大地減少了整個資訊擷取系統開發過程所需要的時間和精神。 The rapid growth of the World Wide Web has changed the way in which people exchange and share information. As the Internet serves as an important source of information, answers to questions are often scattered over a multitude of Web pages. To make huge amounts of on-line documents available and manageable, the various information extraction systems are unexpendable. However, manually constructing such information extraction systems is a laborious task. Automatic methods have the potential to help this development process. This thesis follows a structure-based approach to extracting target information from HTML documents. Each document can be transform