- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
基于语义的网页分类检索系统
基于语义的网页分类检索系统InfoHUNT System 系统组成 网络机器人 数据库全文索引 中文分词 语义分析和主题抽取 构建训练集 内容相关度匹配 系统流程图 InfoHunt 网络机器人 网页预处理 网页内容划分–划分为 标题(Title)域和 内容(Content)域 网页解析– 遍历网页的各标记结点– 重点标记有– url title table – 不考虑的标记:与图形、脚本、链接及链接文本有关的标记–如scripta等 文本合并– 合并遍历网页所获取的文本,分类存放到标题(Title)和内容(Content)域中- 生成存储网页内容的XML文件和数据库记录 建立索引 索引结构选择 – 采用B-TREE索引树 比较成熟、创建和查找速度快, 支持索引的增量添加、易于实现。 索引的域 - 标题域(subject) - 内容域(content) 全文索引 - 字索引 - 词索引 语义检索的基本原理 –基于网页的内容描述,产生网页的文本表示 –针对主题的信息需求,产生信息需求表示 –比较上述两种表示,选择与主题信息需求最接近的文本 网页自动分类 信息检索的组成部分 文本预处理 生成词频分布 相关度排序 文本处理 词典 -通用词典 -专用词典 文本词法分析 - 分词 - 专用词、名词标记 - 谓词 变元 逻辑 - 数字、特殊符号处理 生成文本的词频分布 切分取词 无意词、助词过滤 全文词数统计 排序统计 生成词频向量 更新索引 查询操作 获取主题的信息需求–主题类型–主题的中心成份 转换主题信息需求为查询表示 – 生成查询主题的词频向量- 比对数据库中分类词频向量 - 定位目标文本大致范围 主题抽取系统 ?定义 主题抽取系统,它运用事先构造的规则集在每一个处理步中抛弃一些无关的信息,从而获取主题的关键内容。 ?任务–分析主题信息描述–主题分类–主题成份关系获取 主题信息抽取模块 规则库和训练集? 获取主题规则: 手工收集和分类题材样本? 训练集:以大量相近题材文本作为训练集的样本? 产生特定主题的语义模型 信息分析模块 ?输入: 主题或词条序列?信息添加: 主题成份间的依存关系?信息丢失: 无关信息(如停用词)?输出: 主题的语义指纹 相似度比较 实现 预处理?去掉小词?分词、词性标注、名称实体判别?句法分析 主题分析?主题分类 ?约束关系获取 (谓词变元) 主题模式匹配?主题中心成份获取 ? 语义指纹 中文分词效率 支持的编码:GB18030 BIG5 UNICODE UTF-8 处理速度:2.8G/小时 准确率:98% 文本主题抽取示例 范例新闻的主题词分布 1. 科学技术 0.255733 2. 奖励 0.188071 3. 授予 0.174668 4. 高等植物 0.174468 5. 基因工程 0.174468 6. 新品种 0.174468 7. 发明奖 0.157766 8. 院士 0.150697 9. 国务院 0.145993 10. 二等奖 0.142313 11. 进步奖 0.136409 12. 面条 0.126708 13. 项成果 0.122237 14. 无机化学 0.120604 15. 创新 0.115016 16. 发展观 0.106890 17. 年度 0.106815 18. 一等奖 0.106029 19. 纲要 0.106024 20. 评审 0.104996 21. 技术奖 0.101526 22. 愈益 0.100742 23. 复用 0.099200 24. 创新型 0.098828 * * 多线程 分布式AGENT架构 网络数据库 数据库连接池 远程调用 壅塞控制算法 集群负载平衡 特点 网络机器人工作示意图 网页数据 查询 内容表达式 查询表达式 比较 生成语义模型 语义模型某特定主题 生成语义模型 语义模型目标网页 训 练 集 人工收集题材相近网页文本 目标网页 查询 示例 EXAMPLES 22万中文词库 词性切分 词频排序 语义指纹 检索优化 HMM分词优化 特点 /z/kexuejishudahui/index.shtml
您可能关注的文档
最近下载
- 最新2025年秋开学第一课主题班会PPT课件(含抗战胜利80周年内容).ppt
- [北京]冷轧带钢工程薄板酸轧设备基础施工方案.doc VIP
- 脑卒中睡眠障碍.pptx VIP
- 全国教学能力比赛《声临其境·影视配音要旨》教案(一等奖).pdf
- (高清版)DB36∕T 713-2013 高速公路红砂岩路基施工技术规范 .pdf VIP
- 全国教学能力比赛《声临其境·影视配音要旨》教学实施报告(一等奖).pdf
- 2025年人教版小升初英语试题及参考答案.docx VIP
- 2024-2025学年小学数学三年级上册(2024)人教版(2024)教学设计合集.docx
- 马复:新版教材特色与创新 (1).pdf VIP
- 2025秋开学典礼纪念抗日战争胜利80周年校长讲话稿:以史为鉴守初心,以行致远启新程.docx
文档评论(0)