结构化搜索关键技术的研究.pdfVIP

  • 1
  • 0
  • 约1.22万字
  • 约 10页
  • 2017-09-01 发布于安徽
  • 举报
结构化搜索关键技术研究 摘要:结构化搜索以垂直搜索为基础,它从Web页面中抽取结构化信息并存储,为用 户提供更优质的搜索结果和更良好的搜索体验。要搭建一个结构化搜索引擎有几个关键步 骤:设计主题爬虫,抓取与主题相关的网页;去除网页中的无用信息,即噪声,确定正文的 位置;识别并提取网页中的实体并提取其属性值。本文分别就主题爬虫的设计、网页去噪和 Web信息提取展开研究讨论,总结了前人提出的一些经典算法。 关键字:主题爬虫,网页信息抽取,结构化搜索 1. 1. 11.. 引言 如今互联网信息的急速增涨并没有相应地提高人们获取信息的效率,搜索引擎虽然帮人 们过滤了大量无关无用的信息,但用户从它的返回结果去查找自己想要的内容仍然是件费时 费力的事情。于是更加具有专业针对性的垂直搜索应运而生,垂直搜索专门针对特定的领域, 比如新闻搜索、博客搜索、图片搜索、购物搜索、学术搜索等等,它通过缩小搜索的范围来 提高搜索的精度和用户的满意度。 结构化搜索是垂直搜索的进一步发展,它是把网页上无结构或半结构化的信息抽取成结 构化的数据存储起来,识别实体的属性,并通过实体的属性把实体和实体之间的关系构建起 来,使搜索引擎能够更好地与用户进行交互,并为用户提供决策支持。可见结构化搜索也是 针对特定领域的,同时

您可能关注的文档

文档评论(0)

1亿VIP精品文档

相关文档