《中文文本信息处理》课件 第十三章 信息检索.pptVIP

  • 15
  • 0
  • 约1.08万字
  • 约 92页
  • 2018-01-28 发布于江西
  • 举报

《中文文本信息处理》课件 第十三章 信息检索.ppt

中文文本信息处理的原理与应用 基于NLP的方法实例 问天IR系统地址:/product_yanshi.html 检索词扩展 中文文本信息处理的原理与应用 主要内容 信息检索(Information Retrieval)的基本概念 信息检索的一般模型 基于语义的信息检索方法 基于Web的信息检索 相关会议及工具介绍 中文文本信息处理的原理与应用 基于WEB的IR WEB页面的特点 Web数据本身的特点 Web数据来源广泛,结构性差 而且数量庞大(很多地方以海量来形容Web数据) 内容亦是良莠不齐 用户检索行为的特点 Web信息查询可以分为如下三类: 普通信息查询 精确信息查询 相似信息的查询 中文文本信息处理的原理与应用 WEB页面的特点(续1) Web页面特点 页面中链接多 超链接作用大 网页以网站为单位组织 Web页面的多样化 中文文本信息处理的原理与应用 搜索引擎的工作原理 三步: 从互联网上抓取网页 建立索引数据库 在索引数据库中搜索排序 中文文本信息处理的原理与应用 搜索引擎的搜索机制 Google为例 功能上同样可以分为三大部分: 网页抓取 索引入库 用户检索 中文文本信息处理的原理与应用 Google总体系统结构 URL服务器 索引库 抓取器 存储服务器 URL解析器 锚库 资源库 Web页搜索 链接库

您可能关注的文档

文档评论(0)

1亿VIP精品文档

相关文档