网站大量收购独家精品文档,联系QQ:2885784924

信息检索与搜索引擎课概述.pdf

  1. 1、本文档共62页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
信息检索与搜索引擎课概述

信息检索与搜索引擎 陈若愚 计算机学院 概述 北京信息科技⼤学 TOC ❖ 课程简介 ❖ 考核⽅式 ❖ 信息检索与搜索引擎概述 ❖ ⽹络爬⾍的原理及应⽤ 课程简介-关于我 ❖ 陈若愚 ❖ 办公室:教3楼221 ,软件教研室 ❖ 邮箱:ruoyu-chen@163.com ❖ 答疑时间:1-12周每周四 13:30-15:00 课程简介-信息检索与搜索引擎 ❖ 课时:授课24学时+上机8学时 ❖ 考核:开卷考试50% +40 %试验报告+10%考勤 ❖ 参考: 这就是搜索引擎:核⼼技术详解. 张俊林. 电⼦⼯业出版社.2012 信息检索导论. Christopher D .Manning等. ⼈民邮电出版社. 2010 课后阅读材料 / / … … 课程简介-课程内容 ❖ 信息检索的基本原理 ❖ 搜索引擎的架构 ❖ ⽹络爬⾍ ❖ 索引构建和压缩 ❖ 检索模型和搜索排序 ❖ 如何设计和实现⼀个搜索引擎 课程简介-课程特点 ❖ 内容杂:理论+实践 ❖ 倒排索引,索引压缩算法,⽂档主题模型,PageRank... ❖ HTML ,XML ,XPath ,DOM ,Java ,HTTP … ❖ 学时少:24+8 我对这门课的定位 ❖ 理论+实践,偏重于实践 ❖ 理论:倒排索引、检索模型 ❖ 实践:垂直搜索引擎的设计与实现 信息检索与搜索引擎初步 ❖ 什么是信息检索 ❖ 信息检索系统的组成 ❖ 搜索引擎的发展史 ❖ 搜索引擎的总体结构 ❖ ⽹络爬⾍的原理与应⽤ 什么是信息检索(Information Retrieval) ❖ 定义1: Information retrieval (IR) is finding material (usually documents) of an unstructured nature (usually text) that satisfies an information need from within large collections (usually stored on computers). [信息检索是 从⼤规模⽆结构化⽂档集合中找出满⾜特定信息需求的 ⽂档资料的过程] ❖ 定义2: 在⽂档集合D上,对于由关键词w[1] … w[k]组成的 查询串q ,返回⼀个按查询q和⽂档d匹配度relevance(q, d) 排序的相关⽂档列表D’ 。 信息检索与数据库的关系 ❖ 数据库中保存的是结构化数据 ❖ 信息检索所研究的对象是⾮结构化数据:text, html … ❖ 数据库使⽤SQL语⾔来对数据进⾏增、删、改、查 ❖ 信息检索依赖于索引和检索算法 信息检索实例 ❖ 没有计算机,没有⽹络的年代,⼈们如何检索信息? ❖ 图书、字典、词典 ❖ 图书馆卡⽚⽬录 ❖ 电话黄页 图书- ⽬录 ❖ 章-节-页码 ❖ 按页码排序 图书-索引 ❖ 词/短语-页码列表 ❖ 按照词⾸字母字典序排列 字典/词典 ❖ 部⾸检字法 ❖ ⾳序检字法 ❖ 笔画检字法

文档评论(0)

dajuhyy + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档