互联网数据挖掘期末考试简答题.docVIP

  • 20
  • 0
  • 约1.56千字
  • 约 8页
  • 2017-08-16 发布于江苏
  • 举报
1、 简述自然语言处理领域的歧义现象 在分词,词形式上一样的一段字符串,在不同的场景或不同的语境下,可以理解成不同的词串、词组串等,并有不同的意义。 在分词,词性,句法,语义,语用方面有歧义 2、 简述布尔检索的优缺点 布尔模型的优点 ?? 简单 ?? 对查询严格掌控 布尔模型的缺点 1、一般用户难以构造布尔查询,耗时耗力 ? 例如:早期文献检索要依赖检索专家 2、检索结果文档无法排序 ? 匹配或不匹配 3、根据布尔运算进行严格匹配,导致过少或过多的检索结果 3、 简述PageRank算法的基本思想 ?出度是指页面的超链接数 pagerank是标识网页的等级/重要性的方法。 一个网页的pagerank值由所有链向它的网页决定。链向该网页的网页越多则该网页等级越高;反之越低。 比如A网页链向B网页,则A的所有者认为B比较重要,就把A的一部分重要性得分赋予B,该重要性得分是pagerank(A)/outlinks(A),也就是A的pagerank值除以A的出度。A的pagerank值是所有链向它的网页的重要性得分的总和。 4、 简述倒排索引的构建过程与好处 倒排索引(inverted index) ? 以关键词为核心对文档迚行索引 ? 帮劣快速地找到文档中所包含的关键词 ? 可看作链表数组,每个链表的表头包含关键词,其后续单元则包括所有包括这个关键词的文档标号,以及一些其他信息,如该词

文档评论(0)

1亿VIP精品文档

相关文档