半格式化网页信提取与应用.pdfVIP

下载本文档

6
0
约7.58万字
约 65页
2016-01-16 发布于四川
举报
版权申诉

半格式化网页信提取与应用.pdf

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

半格式化网页信提取与应用

摘要摘要随着互联网的迅速发展，快速准确获取信息成为制约各行业发展的瓶颈。互联网作为全球最大的信息资源宝库，受到了越来越来多地重视，通用搜索引擎应运而生。然而，通用搜索由于“信息过载’’问题，会给用户带来大量无用信息，垂直搜索成为新的研究热点。与通用搜索不同，垂直搜索引擎仅仅专注于某一领域。其对于网页信息的初步提取，一方面使搜索精度提高；另一方面使浏览者不用逐页阅读网页，提高了效率。本论文的主要内容是关于垂直搜索构建的相关技术，并重点探讨了英文网页关键词提取与产品网页的信息提取问题。本论文开展的主要工作及创新如下： 1．提出一种基于词性颗粒度的英文网页关键词提取算法。该算法首先将文本进行3．gram分词处理，同时去掉停用词：然后把中心词与修饰词等不同词性颗粒给与不同权值打分，最后通过软闽值输出技术输出关键词，实现了一个比较通用的关键词抽取系统。 2．提出一种新的商品网页信息分块算法。该算法基于本文提出的一套商品网页规则化度量标准。论文依据商品网页的可统计性，给出了网页规则化度量标准的数学表达式。本文算法首先将网页表示成DOM树，然后将每一个叶节点表示成X删路径结构，同时根据得到的XPATH计算网页规则度的统计量，通过对路径XPATH的聚类与得到的网页信息块统计量，结合启发式规则，实现分割产品信息块。 3．实现了一种网页块分割与包装器(Wr印per)结合抽取产品信息的算法。该方法首先利用网页信息块分割算法，分割出产品信息块；然后采用基于DOM的实例路径覆盖算法，学习抽取模版，抽取产品信息。关键词：网页信息提取网络蜘蛛网页关键词提取分词信息抽取查询系统 Abs仃act ABSTRACT Withthe oftheIntemetfasta11daccurateaccesstoinfomlation rapiddevelopment becomesthebonleneckofthe of growingindustry．Inte：met嬲the、^，orld’slargeSt 仃easureofinfomationresourceanracts more mo佗跚d a牡ention．Thus，general search ofmeinfo咖ationoverJoaded engineappears．However，because problem，it will uselessinfo眦ationt0 bring userS，verticalSearchhasbecomeanewhotspot． di丘．erent search focusoncertain Being fo椭generalsearch，verticaIenginesonly extractionofweb theone can a他as．Throu曲initial inf．0rmatioIl’onhand，itimprove the of theomerhandbrowserSdonothaVetoread accuracysearch；on pagebypage， maincontentOfthisthesisis of improVingreamnge仃iciency．The technologies constructionthe on verticaIsearch．Inmis