- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
百度相关性评估培训:主题匹配度打分
目录
TOC \o 1-6 \h \z \u 1什么是主题匹配度打分 2
2主题匹配度打分的步骤 2
3主题匹配度评分标准 2
3.1主题匹配度4档——完全匹配 2
3.2主题匹配度3档——比较匹配 3
3.3主题匹配度2档——部分匹配 4
3.4主题匹配度1档——很少匹配 4
3.5主题匹配度0档——完全不匹配 5
4打分注意事项 5
4.1 Query多义判分 5
4.2页面转义判分 6
4.3标题匹配,页面内容差判分 6
4.4命中边框判分 6
4.5作弊页判分 7
4.6权限问题判分 7
4.7死链判分 7
4.8搜索结果页判分 7
5平台注意事项 8
5.1页面异常,直接打开URL查看 8
5.2需要抛弃的情况 8
5.3需要备注的情况 8
6主题匹配度打分与五个维度 8
6.1时效性 8
6.2有效性 8
6.3丰富度 9
6.4便捷性 9
6.5权威度 9
7不同类别的Query判断 9
7.1 URL查询 9
7.2人名 10
7.3资源满足类 10
7.4网络小说 10
7.5问答类 11
7.6 Key-Value 类 11
7.7原文类Query 11
8本篇小结 11
8.1主题匹配度打分标准纲要 11
8.2主题匹配度打分流程图 12
1什么是主题匹配度打分
主题匹配度打分,指评估Query表述的意思(主题)和页面表述的意思(主题)的匹配程度,即判断Query主题和页面主题是否一致及多大程度上一致。
用不同的分值表示二者匹配的程度,这里使用的五个分值依次是4、3、2、1、0。
Query,也可称查询词、关键词、搜索词,指用户为进行查找而在搜索框中输入的字词。本文中出现的Query,用“【”、“】”括起来,如【搜狐】、【周杰伦 MP3】。
Term,指Query中的一个词。如【搜狐】,搜狐为一个Term;【北京二手房】,北京为一个Term,二手房为另一个Term。
URL,也称为网页地址,本文所说的页面即URL对应的网页结果。
2主题匹配度打分的步骤
评估过程的四个步骤:
(1)根据Query表述的意思确定Query主题;
(2)根据页面表述的意思确定页面主题;
(3)判断Query主题和页面主题是否匹配以及多大程度上匹配;
(4)选择合适的分值。
3主题匹配度评分标准
标准概要:
4档——完全匹配
3档——比较匹配
2档——部分匹配
1档——很少匹配
0档——完全不匹配
3.1主题匹配度4档——完全匹配
(1)页面主题和Query主题完全匹配,页面标题不需要完全匹配。
【孕妇最适合的水果】/view/c5a6a81cfad6195f312ba654.html
标题是“最适合孕妇吃的水果”,虽然标题与Query不完全一致,但二者在主题上完全匹配。
【迅雷 点任务就崩溃】 /question/270053204.html
标题是“迅雷一点任务就崩溃”,页面内容也是围绕这个主题展开,对于主题匹配标注,不必考虑页面内回答是否真实有效地解决了问题。
(2)页面主题比Query主题略小,但页面主题占Query查询需求的较大比重。
【周杰伦】/singerlist/%D6%DC%BD%DC%C2%D7.html
页面主题是周杰伦的歌曲列表,是Query主题的主要需求方面。
【南京新城市广场美食】/htm
页面主题是南京新城市广场中餐馆,中餐馆是美食的主要方面。
【招聘 赶集网】/zhaopin/ 页面为赶集网上海招聘。这种Query本身包含地域需求,类似的有【天气预报】,页面出北京天气预报,可认为是Query主题的主要方面。
(3)Query主题比页面主题略小,且Query主题是页面中的主要属性。属性指用来描述某个实体的一种特征,如地名、邮编、手机号码等。
页面中的属性
页面中的属性
【电影宿醉的英文名称】/movie/xiju/suzui2/
页面主题介绍了该电影的各个属性,英文片名是主要属性之一。
【武汉大学出版社电话】/huangye/info145160/
页面主题是武汉大学出版社的联系方式,电话是其主要属性之一。
(4)原文Query:页面精确匹配Query,且能唯一的确定某一篇文章。
原文Query:用户通过一句话来精确查找所需的整篇原文。不限于文章,可包括:诗词歌赋、文言文、各类文件、歌词、帖子、试卷中的某道题,关键是完整包含这句话的文章只有固定的一篇。
【这是1996年,霍懋征在政协第八届全国委员会常委会第16次会议上】
/rollnews/2010-02/17/content_628689.htm
Query与新闻中的图片标题精确匹配,确定了固定的一篇新闻。
原创力文档


文档评论(0)