- 20
- 0
- 约1.56千字
- 约 8页
- 2017-08-16 发布于江苏
- 举报
1、
简述自然语言处理领域的歧义现象
在分词,词形式上一样的一段字符串,在不同的场景或不同的语境下,可以理解成不同的词串、词组串等,并有不同的意义。
在分词,词性,句法,语义,语用方面有歧义
2、
简述布尔检索的优缺点
布尔模型的优点
?? 简单
?? 对查询严格掌控
布尔模型的缺点
1、一般用户难以构造布尔查询,耗时耗力
? 例如:早期文献检索要依赖检索专家
2、检索结果文档无法排序
? 匹配或不匹配
3、根据布尔运算进行严格匹配,导致过少或过多的检索结果
3、
简述PageRank算法的基本思想
?出度是指页面的超链接数
pagerank是标识网页的等级/重要性的方法。
一个网页的pagerank值由所有链向它的网页决定。链向该网页的网页越多则该网页等级越高;反之越低。
比如A网页链向B网页,则A的所有者认为B比较重要,就把A的一部分重要性得分赋予B,该重要性得分是pagerank(A)/outlinks(A),也就是A的pagerank值除以A的出度。A的pagerank值是所有链向它的网页的重要性得分的总和。
4、
简述倒排索引的构建过程与好处
倒排索引(inverted index)
? 以关键词为核心对文档迚行索引
? 帮劣快速地找到文档中所包含的关键词
? 可看作链表数组,每个链表的表头包含关键词,其后续单元则包括所有包括这个关键词的文档标号,以及一些其他信息,如该词
您可能关注的文档
最近下载
- 湖州市产业投资发展集团有限公司招聘笔试参考题库附带答案详解.docx VIP
- 基于 AVL-FIRE 软件的生物柴油发动机排放特性研究与分析.doc VIP
- 红色爱国诗词100首.pdf VIP
- 随州市2026年3月高三二模物理试卷(含答案详解).pdf
- 沪教牛津版英语六年级下册【教学课件】Unit 8 Reading signs 第二课时.pptx VIP
- 无极500ds使用说明书中文版.pdf VIP
- 2022年河北雄安新区容东片区综合执法辅助人员考试真题.docx VIP
- 带电粒子在磁场中运动基础巩固练习.pdf VIP
- 大学物理期中考试及答案.docx VIP
- 2024年河北雄安新区容东片区综合执法辅助人员考试真题(附答案).docx VIP
原创力文档

文档评论(0)