- 2
- 0
- 约4.09千字
- 约 38页
- 2018-10-04 发布于浙江
- 举报
基于半结构化和语义Web信息挖掘的智能搜索技术研究 Agenda 海量Web数据对信息发现的挑战 半结构化数据 搜索引擎现状和智能化信息检索 Web挖掘技术目前的研究情况 Semantic Web的信息搜索 数据的挑战 每天增加100万个页面,总数超过10亿。 有限的搜索引擎覆盖范围,低于20%。 知识表达方式的限制-无结构、半结构化和多媒体形式。 采用关键字的搜索方法在海量数据检索中能力有限。 数据的挑战 半结构化数据 介于完全结构化数据(如关系型数据库)和完全无结构的数据(纯文本)之间 自描述-数据和结构互相混合 无固定数据模式(Schema) 半结构化数据:HTML,XML… 半结构化数据模型 先有数据,后有模式。 数据模式用于描述数据的结构信息,而不是对数据结构进行强制性的约束无固定数据模式。 模式是非精确的,它可能只描述数据的一部分结构,也可能根据数据处理不同阶段的视角不同而不同 数据模式规模很大而且动态变化。 半结构化数据模式描述形式 基于逻辑的描述形式,如一阶逻辑(First-order Logic)、描述逻辑(Description Logic)及 Datalog。 基于图的描述形式,如Stanford大学提出的对象交换模型(Object Exchange Model,OEM)。 Web查询语言现状 任务-基于内容的查询(根据页面内容查询符合条件的页面)和基
您可能关注的文档
- 汇源公司来业务发展战略、市场运营及组织改进计.ppt
- 会报高手MART簡報法.ppt
- 汇源市场研究业务发战略和组织规划.ppt
- 会计报表讲之矿处级领导工商管理培训之第三篇.ppt
- 会计、审法律制度.ppt
- 工作分析内容与组织.ppt
- 会计电算化工作程指导课件.ppt
- 工作分析内容和流程.ppt
- 工作分析培训材—给员工.ppt
- 工作分析与职责述之启动培训.pptx
- 2022年重庆一中高考历史考前适应性试卷.pdf
- 深圳的生物多样性保护(2026)-深圳市生态环境局.pptx
- 2026年ASCO生物医学追踪数据监测医疗保健规划师 2026 Biomedtracker Datamonitor Healthcare ASCO Planner.pptx
- 模板安全设施设计专篇正文(初稿).pdf
- 北京市朝阳区2022-2023学年高三上学期期末生物试卷.pdf
- 北京市东城区2022-2023学年高三上学期期末语文试题.pdf
- 北京市平谷区2022-2023学年高二上学期期末语文试卷.pdf
- 北京市顺义区2022-2023学年高二上学期期末质量检测化学试题.pdf
- 北京市西城区2022-2023学年高三上学期期末语文试题.pdf
- 福建省福州第四中学2022-2023学年高二上学期期末考试化学试卷.pdf
原创力文档

文档评论(0)