网站大量收购独家精品文档,联系QQ:2885784924

[东北大学软件工程硕士信息检索复习题及答案.docVIP

[东北大学软件工程硕士信息检索复习题及答案.doc

  1. 1、本文档共12页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
[东北大学软件工程硕士信息检索复习题及答案

信息检索复习要点2010 第一讲 网页采集 网页采集器的基本原理[简答题] 网页采集器一般称为“网路蜘蛛”,也叫网页机器人。网络蜘蛛把互联网比喻成一个蜘蛛网,那么网络蜘蛛就是在网上爬来爬去的蜘蛛。 网络蜘蛛是通过网页的链接地址来寻找网页,从一个网页开始,读取网页的内容,保存下来,找到在网页中的链接地址,然后通过这些链接地址寻找下一个网页,这样一直循环下去。 网页采集器的设计[综合题] 网络运营者对网页采集器的态度是什么?[简答题] 网站数据被网页采集器采集后,进入搜索引擎数据库,可扩大网站访问量、提高网站知名度。因此,网站运营者欢迎网页采集器,并为其提供便利。 网页采集器需要大量抓取网页,不同于一般的访问,如果控制不好,则会引起网站服务器负担过重。因此,网站运营者希望网页采集器不要影响网站的正常运转,并通过各种方法于网页采集器进行交流,规范网页采集器的行为。 第二讲 分析处理 网页分析处理的必要性[简答题] 答:分析处理帮助得到更加准确的查询结果,重复的利用时间和资源。 分词歧义的处理方法[简答题] 目前,对汉语分词方法的研究主要有三个方面: 基于规则的分词方法:这种方法又叫做机械分词方法,它是按照一定的策略将待分析的汉字串与一个“充分大”的机器词典中的词条进行匹配,若在词典中找到某个字符串,则匹配成功(识别出一个词)。常用的方法:最小匹配算法,正向(逆向)最大匹配法,逐字匹配算法,神经网络法、联想一回塑法,基于 N-最短路径分词算法,以及可以相互组合。例如,可以将正向最大匹配方法和逆向最大匹配方法结合起来构成双向匹配法等。目前机械式分词占主流地位的是正向最大匹配法和逆向最大匹配法。 基于统计的分词方法:基于统计的方法是基于(两个或多个)汉字同时出现的概率,通过对语料库(经过处理的大量领域文本的集合)中的文本进行有监督或无监督的学习。可以获取该类文本的某些整体特征或规律。如果能够充分地利用这些统计现象、规律。就可以构造基于语料库的统计学信息抽取算法统计的分析方法多种多样。近来研究的热点主要集中于由随机过程发展而来的理论和方法,其中最重要的是应用隐马尔科夫模型(HMM)进行自然语言处理的方法。隐马尔科夫模型在语音识别领域已经取得很好的成效,在信息抽取领域的应用也正在不断的尝试和推广中。 基于理解的分词方法:又称之为知识分词。知识分词是一种理想的分词方法,但这类分词方案的算法复杂度高,其有效性与可行性尚需在实际工作中得到进一步的验证。知识分词利用有关词、句子等的句法和语义信息或者从大量语料中找出汉字组词的结合特点来进行评价,以期找到最贴近于原句语义的分词结果。 分词软件的设计[综合题] 分词是将连续的字序列按照一定的规范重新组合成词序列的过程,中文分词与 其他分词不同,比如:英文中单词之间是以空格作为自然分界符;中文只是字、句、段有明显的分界符;词没有一个形式上分界符;从字串到词串,是一个降低不确定性的过程。 利用找到歧义字段、建立歧义字段库解决分词歧义问题。 利用正向最大匹配法(流程图)、逆向最大匹配法(流程图)及最大概率分词法进行分词。 正向最大匹配法(流程图 见 PPT) 逆向最大匹配法: 将文章分成句子(通过标点符号来实现); 循环的读入每一个句子S,设句子中的字数为n; 设置一个最大词长度,就是我们要截取的词的最大长度 max 从句子中取n-max 到 n 的字符串 subword,去字典中查找是否有这个词。如果有就走(5),没有就走(6); 记住 subword,从 n-max 付值给 n,继续执行(4),直到 n=0. 将 max-1,再执行(4)。 最大概率分词法:列出可能的拆分结果,查表,结果大的,为最终结果。 基本细想: 一个待切分的汉字串可能包含多种分词结果 将其中概率最大的那个作为该字串的分词结果 分词算法: 对一个待分词的字串 S,按照从左到右的顺序取出全部候选词w1, w2 , … ,wi, … , wn ; 到词典中查出每个候选词 的概率值P(wi) ,并记录每个候选词的全部左邻词; 按照公式1计算每个候选词的累计概率,同时比较得到每个候选词的最佳左邻词; 如果当前词wn是字串S的尾词,且累计概率P (wn)最大,则wn 就是S的终点词; 从wn开始,按照从右到左顺序,依次将每个词的最佳左邻词输出,即为S的分词结果。 计算准确率、召回率和F值[计算题] 答:准确率 P(Precision):结果中的正确样例数与结果中全部样例总数的比值。 召回率 R(Recall):结果中的正确样例数与实际存在的正确样例数的比值。 F 值:准确率和召回率的加权平均,一般用 F1。 (注意:让求的是 F1 还是 F 其它,然后带入相应的值β值。) 举例: 用户利用某信

文档评论(0)

shit0605 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档