- 4
- 0
- 约1.16万字
- 约 57页
- 2016-12-07 发布于湖南
- 举报
网络信息获取与情报分o析技术(八)
排序式检索的思想是(念ppt) 这样文档不会或者判断成相关,或者不相关,而是以一定程度与查询相关。 那么查询与文档的相关度是如何计算的呢?(念ppt) A和B是两个单词的集合。 (念ppt) 为了考虑词项频率,我们就要了解下词项频率 回忆下布尔查询中我们采用的关联矩阵。我们是如何在这个数据结构上定义文档频率的。文档频率是一个词在多少个文档中出现。 而词项频率是指一个词在各个文档中出现的次数。 词频是用来量化文档的一种方法,这种方法叫做词袋模型,这个模型将文档变成一个直方图。(解释) 如果用原始词频的线性表达式来表示相关度肯定不合适。因为一个词项出现10次不能说明就与文档10倍相关。 一般来想应该是文档出现一次某词项就认为和这个词项相关,但是相关性不会与词项出现次数成正比上升。 所以一种替代方案就是对数词频(念ppt) 采用这种词频的计算方式计算的相关度的公式为,查询中与文档中同时出现的词的对数词频和 仅仅通过词频来衡量相关度是不完整的。因为文档长度越长出现所有词项的概率就越高。相关度还得考虑词项出现在这个文档中是否罕见。如果一次词项是常用词,只要文章写长了一般都会用到,那么也不能说明这个词项与文档的相关度非常高。还需要考虑词项出现在文档集合中的罕见程度。 根据刚才的考虑,我们在计算词项和文档的相关程度的时候还需要考虑到词项是否在文档集中足够罕见。罕见的程度通过文档集中词频来计算。
您可能关注的文档
- 编矿z井通风系统优化.ppt
- 网1络信息安全.ppt
- 缓解体力疲m劳功能食品.ppt
- 罐头食n品加工工艺.ppt
- 网3页设计与制作课件第10章.ppt
- 网m页设计课件5.ppt
- 网上4支付与结算课件.ppt
- 网z络时代.ppt
- 网点的经w营与管理.ppt
- 网站建设与推广课j件5.ppt
- 小学数学六年级下册数学广角抽屉原理教学应用.docx
- 某APP童谣含隐晦成人隐喻致家长投诉的内容审核盲区分析_2026年5月.docx
- 小学语文提问策略在四年级阅读教学中的实施.docx
- 电流树状Lichtenberg图形制作.docx
- 急诊护理健康教育创新.pptx
- 高校学生宿舍太阳能热水系统节能效益与改造研究_2026年3月.docx
- “失眠日记”在学生中的记录行为与干预效果研究_2026年3月.docx
- 性别平等“角色互换”体验对男性大学生共情能力提升实测_2026年1月.docx
- 海洋保护区对生物多样性的保护作用研究_2026年5月.docx
- 人工智能辅助招聘中的算法公平性评测与偏见缓解策略_2026年3月.docx
原创力文档

文档评论(0)