网站大量收购闲置独家精品文档,联系QQ:2885784924

基于主题提取的网络信息检索系统技术和实现.PDF

基于主题提取的网络信息检索系统技术和实现.PDF

  1. 1、本文档共21页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
基于主题提取的网络信息检索系统技术和实现

基于主题抽取的网络信息检索系统 --技术和实现 • 罗强 • 华南理工大学 • qluo163@163.com 检索技术存在的问题 • 网络资源庞大而易变 • 信息系统难以获取主题信息需求 • 难以将信息需求转化为查询表示 报告内容 • 1、系统架构 • 2、系统组成 – 数据预处理 – 建立索引 – 信息检索 • 3 、关键技术介绍 • 4、总结 1、信息检索系统架构 用户服务用户服务:: •• 查询查询 计算机用户 系统服务:: •• 索引维护 应用服务器 数据索引 网页解析器 信息检索 SQL SQL 天网数据 索引数据 2 、系统组成 --信息搜索模块 网页资源 用户界面 主题抽取 网页预处理 建立索引 文本匹配和评分 网页内容 (一)网页预处理 (三)信息检索 索引文件 (二)建立索引 2.1、网页预处理 • 网页内容划分 –划分为两个域,标题(Title)域和内容(Content)域 • 网页解析 –遍历网页的各标记结点 –重点考虑的标记有 –urltitletable –不考虑的标记:与图形、脚本、链接及链接文本有关的标记 –如 scripta等 •文本合并 –合并遍历网页所获取的文本,分类存放到标题(Title)和 内容(Content)域中 •生成存储网页内容的XML文件 天网数据预处理情况 预处理前100% 预处理后49% 天网数据规模(G) 过滤掉的数据51% jsp/asp脚本,图片,链接和链接文本,网页 标记,特殊格式的文件 (.exe,.com,.jar,.zip,.pdf,.doc等后缀结尾的

文档评论(0)

sunshaoying + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档