- 1、本文档共21页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
基于主题提取的网络信息检索系统技术和实现
基于主题抽取的网络信息检索系统
--技术和实现
• 罗强
• 华南理工大学
• qluo163@163.com
检索技术存在的问题
• 网络资源庞大而易变
• 信息系统难以获取主题信息需求
• 难以将信息需求转化为查询表示
报告内容
• 1、系统架构
• 2、系统组成
– 数据预处理
– 建立索引
– 信息检索
• 3 、关键技术介绍
• 4、总结
1、信息检索系统架构
用户服务用户服务::
•• 查询查询
计算机用户
系统服务::
•• 索引维护
应用服务器
数据索引
网页解析器 信息检索
SQL
SQL
天网数据 索引数据
2 、系统组成
--信息搜索模块
网页资源
用户界面
主题抽取
网页预处理
建立索引 文本匹配和评分
网页内容
(一)网页预处理
(三)信息检索
索引文件
(二)建立索引
2.1、网页预处理
• 网页内容划分
–划分为两个域,标题(Title)域和内容(Content)域
• 网页解析
–遍历网页的各标记结点
–重点考虑的标记有
–urltitletable
–不考虑的标记:与图形、脚本、链接及链接文本有关的标记
–如 scripta等
•文本合并
–合并遍历网页所获取的文本,分类存放到标题(Title)和
内容(Content)域中
•生成存储网页内容的XML文件
天网数据预处理情况
预处理前100%
预处理后49%
天网数据规模(G)
过滤掉的数据51%
jsp/asp脚本,图片,链接和链接文本,网页
标记,特殊格式的文件
(.exe,.com,.jar,.zip,.pdf,.doc等后缀结尾的
文档评论(0)