- 4
- 0
- 约1.33万字
- 约 68页
- 2018-02-28 发布于湖北
- 举报
《网络信息内容安全》讲义向量空间模型与概率检索模型(68P)
《网络信息内容安全》讲义/张华平/2010-10 概率模型的关键问题 通常,概率模型必须设法解决两个基本问题: 参数估计和独立性假设。 参数估计 系统中可以使用余弦值来进行初始的排序,然后使用概率权重进行相关 反馈。 我们假设(没有任何相关信息)每个词引起相关的概率是相等的。 式中 N ——文档集中文档的数量; ni ——词i索引的文档的数量; dij ——若词i在文档j中出现,则该值为1; dij ——若词i在文档j中未出现,则该值为0; qi ——若词i在查询中出现;则该值为1; qi ——若词i在查询中未出现,则该值为0。 * 《网络信息内容安全》讲义/张华平/2010-10 C是常量,可以根据检索的不同而调节。在大的文档集上,词项权重 非常接近逆文档频率 (N取较大值)。因此,整个表达式 非常接近在向量空间模型中使用的tf-idf。 结果:作者比较了这种方法计算的相似度,还有余弦系数和只通过每个词项的IDF求和得到的权重系数。新的相似度的效果要更好,但是值得注意的是,作者仅仅是在较小的克兰菲尔德文档集上做的测试。 问题:在某些情况下,Croft和Harper的权重计算
您可能关注的文档
最近下载
- 焦炉烘炉过程中常见问题分析及对策.doc VIP
- 2026年怒江供电局项目制用工招聘(20人)笔试备考题库及答案解析.docx VIP
- 邮储个人网上银行客户操作手册.pdf VIP
- 数字林业-技术对林业增长的影响.pptx VIP
- 07B【沪教牛津版英语字帖】七年级下册单词表国标手写斜体字帖(含音标上海教育出版社).pdf VIP
- 浙江省绍兴市上虞区2024-2025学年六年级上学期期末考试科学试题(含答案).docx VIP
- 学堂在线审美的历程章节测试答案.docx VIP
- 湖南省湘潭市湘乡望春中学2018-2019学年高一数学理下学期期末试题.docx VIP
- 小学春季学期英语学科教学质量检测与评估测试聚焦2.pdf VIP
- 小学英语教学法 教程教案.pdf VIP
原创力文档

文档评论(0)