基于web的实体信息提取和搜索分析-entity information extraction and search analysis based on web.docxVIP

下载本文档

4
0
约6.42万字
约 84页
2018-05-18 发布于上海
举报

基于web的实体信息提取和搜索分析-entity information extraction and search analysis based on web.docx

基于web的实体信息提取和搜索分析-entity information extraction and search analysis based on web

独创性声明本人声明所呈交的学位论文是本人在导师指导下进行的研究工作及取得的研究成果。据我所知，除了文中特别加以标注和致谢的地方外，论文中不包含其他人已经发表或撰写过的研究成果，也不包含为获得电子科技大学或其它教育机构的学位或证书而使用过的材料。与我一同工作的同志对本研究所做的任何贡献均已在论文中作了明确的说明并表示谢意。作者签名：日期：年月日论文使用授权本学位论文作者完全了解电子科技大学有关保留、使用学位论文的规定，有权保留并向国家有关部门或机构送交论文的复印件和磁盘，允许论文被查阅和借阅。本人授权电子科技大学可以将学位论文的全部或部分内容编入有关数据库进行检索，可以采用影印、缩印或扫描等复制手段保存、汇编学位论文。（保密的学位论文在解密后应遵守此规定）作者签名：导师签名：日期：年月日摘要随着互联网的迅速发展，互联网中的数据呈爆炸式的增长，因此高效的信息检索技术对于帮助用户获取有用的信息具有重要的意义。目前搜索引擎技术已经取得了很大的进步，能够基本满足用户对信息检索的需求。但是目前搜索引擎技术大部分是基于页面层的搜索，该技术存在固有的缺陷，查询结果是以网页链接的形式返回给用户，用户需要自己寻找信息所在的网页。但是在很多情况下，用户搜索的目标是实体信息，如论文、地名、商品信息等。本文针对实体层的搜索技术进行了研究，在已有的研究成果的基础上，提出了一些新的解决方法。本文的主要工作包括：1、提出了一种基于链接模版树的垂直爬虫技术，通过对目标网站链接进行分析，使用链接模版来归纳需要下载的链接，构建正则链接树来导航爬虫的下载路径，解决了网页中存在的隧道问题。实验中，在开源爬虫 Nutch 的基础上，以插件的形式实现本文提出的爬虫算法，经过比较，本文提出的方法能够取得较好的召回率和效率。2、提出了一种基于 DOM 树和 XSL 的实体信息抽取方法。首先对下载的 Web 页面进行预处理，通过训练数据提取出网页中实体信息所在的路径规则，然后通过 XSL 将 Web 页面中的实体信息转换为 XML 文件。也对页面中出现多实体提取的情况，提出了相应的解决方案。在单实体提取方法的基础上，先提取页面中的最大数据子树，然后在最大数据子树中提取多实体规则，来实现多实体信息的提取。实验结果表明，本文提出的实体信息提取方法能够有效地提取实体信息。3、提出了适用于实体的索引结构，并对 Lucene 的评分算法进行了改进。通过对开源全文索引开发包 Lucene 架构和代码的分析，在文档索引结构的基础上，提出了适用于实体信息的索引结构。对于搜索结果的排序方面，本文对 Lucene 评分机制进行了改进：计算出实体数据中词语的 IDF 值，建立实体数据的 IDF 值数据库；查询过程中，通过词语的 IDF 值来设定查询语句中不同词语的重要程度，再计算每个实体获得的评分，最后排序输出。通过实验表明，该方法能够获得更好的返回结果。关键词：搜索引擎，垂直爬虫，实体信息抽取，实体搜索ABSTRACTWith the rapid development of Internet, the data on the Internet increase explosively. So the efficient information retrieval technology which helps users to get useful information is of great importance. Progress has been made on search engine technology currently that can basically meet user’s demands for information retrieval. But most of current search engine technologies are based on the page searching that has inherent defects. The query results which return to the users are in the form of web links, and the users need to find the information in these pages. But in many cases, users’ search target is entity information, such as paper, place names, commodity information, etc. The technology of entity search i

您可能关注的文档

文档评论（0）

1亿VIP精品文档

更多 >

基于web的实体信息提取和搜索分析-entity information extraction and search analysis based on web.docxVIP