基于半结构化和语义Web信挖掘的智能搜索技术研究.pptVIP

  • 2
  • 0
  • 约4.09千字
  • 约 38页
  • 2018-10-04 发布于浙江
  • 举报

基于半结构化和语义Web信挖掘的智能搜索技术研究.ppt

基于半结构化和语义Web信息挖掘的智能搜索技术研究 Agenda 海量Web数据对信息发现的挑战 半结构化数据 搜索引擎现状和智能化信息检索 Web挖掘技术目前的研究情况 Semantic Web的信息搜索 数据的挑战 每天增加100万个页面,总数超过10亿。 有限的搜索引擎覆盖范围,低于20%。 知识表达方式的限制-无结构、半结构化和多媒体形式。 采用关键字的搜索方法在海量数据检索中能力有限。 数据的挑战 半结构化数据 介于完全结构化数据(如关系型数据库)和完全无结构的数据(纯文本)之间 自描述-数据和结构互相混合 无固定数据模式(Schema) 半结构化数据:HTML,XML… 半结构化数据模型 先有数据,后有模式。 数据模式用于描述数据的结构信息,而不是对数据结构进行强制性的约束无固定数据模式。 模式是非精确的,它可能只描述数据的一部分结构,也可能根据数据处理不同阶段的视角不同而不同 数据模式规模很大而且动态变化。 半结构化数据模式描述形式 基于逻辑的描述形式,如一阶逻辑(First-order Logic)、描述逻辑(Description Logic)及 Datalog。 基于图的描述形式,如Stanford大学提出的对象交换模型(Object Exchange Model,OEM)。 Web查询语言现状 任务-基于内容的查询(根据页面内容查询符合条件的页面)和基

文档评论(0)

1亿VIP精品文档

相关文档