互联网数据挖掘期末考试简答题.docVIP

下载本文档

20
0
约1.56千字
约 8页
2017-08-16 发布于江苏
举报

互联网数据挖掘期末考试简答题.doc

1、简述自然语言处理领域的歧义现象在分词，词形式上一样的一段字符串，在不同的场景或不同的语境下，可以理解成不同的词串、词组串等，并有不同的意义。在分词，词性，句法，语义，语用方面有歧义 2、简述布尔检索的优缺点布尔模型的优点 ?? 简单 ?? 对查询严格掌控布尔模型的缺点 1、一般用户难以构造布尔查询，耗时耗力 ? 例如：早期文献检索要依赖检索专家 2、检索结果文档无法排序 ? 匹配或不匹配 3、根据布尔运算进行严格匹配，导致过少或过多的检索结果 3、简述PageRank算法的基本思想？出度是指页面的超链接数 pagerank是标识网页的等级/重要性的方法。一个网页的pagerank值由所有链向它的网页决定。链向该网页的网页越多则该网页等级越高；反之越低。比如A网页链向B网页，则A的所有者认为B比较重要，就把A的一部分重要性得分赋予B，该重要性得分是pagerank(A)/outlinks(A)，也就是A的pagerank值除以A的出度。A的pagerank值是所有链向它的网页的重要性得分的总和。 4、简述倒排索引的构建过程与好处倒排索引(inverted index) ? 以关键词为核心对文档迚行索引 ? 帮劣快速地找到文档中所包含的关键词 ? 可看作链表数组，每个链表的表头包含关键词，其后续单元则包括所有包括这个关键词的文档标号，以及一些其他信息，如该词

您可能关注的文档

文档评论（0）

1亿VIP精品文档

更多 >

互联网数据挖掘期末考试简答题.docVIP