[]智能搜索技术.pptVIP

  1. 1、本文档共38页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
[]智能搜索技术

第三节 智能搜索技术 2012-2-21 Agenda 海量Web数据对信息发现的挑战 半结构化数据 搜索引擎现状和智能化信息检索 Web挖掘技术目前的研究情况 Semantic Web的信息搜索 数据的挑战 每天增加100万个页面,总数超过10亿。 有限的搜索引擎覆盖范围,低于20%。 知识表达方式的限制-无结构、半结构化和多媒体形式。 采用关键字的搜索方法在海量数据检索中能力有限。 数据的挑战 半结构化数据 介于完全结构化数据(如关系型数据库)和完全无结构的数据(纯文本)之间 自描述-数据和结构互相混合 无固定数据模式(Schema) 半结构化数据:HTML,XML… 半结构化数据模型 先有数据,后有模式。 数据模式用于描述数据的结构信息,而不是对数据结构进行强制性的约束无固定数据模式。 模式是非精确的,它可能只描述数据的一部分结构,也可能根据数据处理不同阶段的视角不同而不同 数据模式规模很大而且动态变化。 半结构化数据模式描述形式 基于逻辑的描述形式,如一阶逻辑(First-order Logic)、描述逻辑(Description Logic)及 Datalog。 基于图的描述形式,如Stanford大学提出的对象交换模型(Object Exchange Model,OEM)。 Web查询语言现状 任务-基于内容的查询(根据页面内容查询符合条件的页面)和基于页面之间链接结构的查询 第一代查询语言-WebSQL、WebLog、W3QL等 第二代查询语言-WebOQL、StruQL、Lorel等 搜索引擎现状和智能信息检索 仍以关键字匹配查询为主。 利用了Web文档超文本信息。 部分特定知识领域的智能搜索引擎使用了机器学习和人工智能算法实现数据抽取。 基于自然语言理解的搜索引擎还处于低级的萌芽状态。 智能搜索引擎样例 Stanford Google-使用PageRank评估页面质量;世界上第一个PDF文档搜索引擎。 NEC-ResearchIndex(Inquirus)-采用Web内容挖掘算法对Web上科技论文提取特征参数,如作者、文章名和摘要等。 Cora-计算机科学论文检索系统,使用了基于随机过程方法的实体抽取技术。 Vivisimo-CMU项目,高精度的结果分类。 智能搜索引擎样例 Web挖掘技术目前的研究情况 Web Content Mining Web Structure Mining Web Usage Mining Web Content Mining(WCM) 定义:Web Content Mining=Web Information Retrieval+Web Information Extraction。 研究对象-隐藏在半结构化数据中的模式和数据实体(Pattern, Entity)。 研究方法-词频统计、分类算法、机器学习、模式识别、元数据等。 广泛应用在Web信息的发现和信息管理。 WCM应用领域 主题抽取和文本分类 半结构查询语言与模式抽取(Lorel,DIPRE迭代算法等) Web异构数据集成 学习模式或规则 基于特定知识领域的信息发现 …... WCM目前研究情况 使用基于词频统计的算法,如使用VSM的TDIDF方法。 利用Wrapper进行Web信息抽取。缺点:需要事先知道数据表达方式。 Nicholas Kushmerick提出的自动Wrapper生成。 WCM目前研究情况(续) Sergey Brin-DIPRE首次利用迭代方法发现数据实体间的模式和关系,并成功的发现了作者/作品数据对。 Snowball-改进DIPRE算法,引入了模式置信度评估元组质量。 WCM目前研究情况(续) WCM目前研究情况(续) IBM Neel Sundaresan等在基于Web的单词/缩写的挖掘中,把2级的二元性问题扩展为n级,并实现用户英文单词简称的抽取。 IEPAD通过分析Web页面中的HTML标签的重复规律,进行模式挖掘并生成数据抽取规则。IEPAD使用了PAT数据结构实现最大模式对的发现和校验。 WCM目前研究情况(续) J. Hammer等利用了Stanford大学提出的对象交换模型(Object Exchange Model, OEM)模型,定义了抽取器规范并对对HTML文档中的天气预报信息进行了提取。 Dayne Freitag研究了使用机器学习算法进行HTML查询的方法。它提出了一个基于关系学习(Relational Learning)机器学习算法SRV将输入的自由文本转换成一定的规则。 WCM目前研究情况(续) Kristie Seymore使用HMM从训练样本中检查有标记和无标记的数据,并从数据中获得模型结构。通过运用Viterbi算法,HMM可以找到产生最大观测序列的状态

文档评论(0)

jiupshaieuk12 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

版权声明书
用户编号:6212135231000003

1亿VIP精品文档

相关文档