基于URL类型优先级入口页面查询算法胡俊刚,董守斌,.pptVIP

下载本文档

4
0
约3.47千字
约 20页
2017-06-07 发布于湖北
举报

基于URL类型优先级入口页面查询算法胡俊刚,董守斌,.ppt

基于URL类型优先级的入口页面查询算法胡俊刚，董守斌，陈晓志，张元丰 (华南理工大学广东省计算机网络重点实验室 ) 论文背景 SEWM中文Web检索评测包含两个具体目标：－1) 研究有效的主题提取方法：针对用户给定的广泛查询，找到一组最佳的主页。－2) 研究有效的导航搜索方法(包括主页和指定页面查询)：找到用户需要的特定页面。检索系统中入口页面查询特点入口页面(主页)查询要求结果只有一个用户的查询词常常是简短的页面名称它要求更高的精准度因此一味的扩大搜索范围实际作用不是很大，相反的，提高结果的精准度才是最重要的。本论文研究内容简介通过CWT100g ,本文将对url优先级在中文实际应用进行研究。建立语言模型分析挖掘出相关内容域作为基准检索。研究非内容域网页优先级(URL-type等) 建立综合内容域和非内容网页特征的检索模型。通过主页URL类型的概率统计，发现入口页面和其相关的子页面之间存在比较大的联系。据此提出基于相关子页面的入口页面提取算法PERS(page extracted from relevant sub)。目录入口页面的检索模型（如何去寻找相关子页面？）－一元语言模型(unigram language model) －考虑不同内容域的基准检索算法基于URL类型(URL-Type)优先级的入口页面检索方法（如何从子页面中提取入口页面？）－入口页面特性分析－入口页面提取算法PERS 实验（算法真的有效嘛？）－评估体系－基准检索算法评估－ PERS算法评估总结（是否还可以进一步研究？） 1.1 一元语言模型(unigram language model) 本文使用一种已知的一元统计语言模型来支持入口页面查询系统：（此公式来源于贝叶斯公式(Bayes’rule)，当给定一个查询关键词(query)Q时，一个相关文献(document)D的概率是： .如果将查询关键词Q分割成n个查询分量(query term)，再采用Jelinek-Mercer平滑迭代[5],得到一个一元文献模型和采集模型线性合并的表达式。） 1.2 考虑不同内容域的基准检索算法寻找相关页面的要求：－需要找到和查询词内容相匹配的相关子页面，那么匹配性越高，说明相关度越高。本文取Content域、Title域、anchor text域，根据语言模型进行合并，合并后的模型作为检索基准返回的结果被认为是具有最大相关性。目录入口页面的检索模型－一元语言模型(unigram language model) －考虑不同内容域的基准检索算法基于URL类型(URL-Type)优先级的入口页面检索方法（如何从相关子页面中提取入口页面？）－入口页面特性分析－入口页面提取算法PERS 实验－评估体系－基准检索算法评估－ PERS算法评估总结 2.1 入口页面特性分析网页的URL在万维网(WWW)中是唯一的，根据它的服务器名称、目录、文件名成可以分为以下4种类型的URL：－ Root(根形式)：表示一个域名,例如：；－ Subroot(次级根形式)：一个域名只跟随一个文件目录, 例如：/grid/；－ Path(路径形式)：域名后跟随两个或多个文件目录,例如：/sigirlist/issues/ － File(文件形式)：以文件名结尾的URL，多级目录,例如： /about.htm； 2.2入口页面提取算法PERS(page extracted from relevant sub）定义主页的相关子页面(relevant sub)：－入口页面的子页面或者二级、三级目录等的子页面，以普通文件名结尾，和查询词有相关性，URL形式为file形式，和入口页面有相同域名。相关子页面和主页的url关系：－主页相关页面的URL需要包括主页URL的域名和目录。相关子页面和主页的其它关系：入口页面的相关页面数量多于入口页面，或者远大于入口页面。在相同查询词下，在基于内容匹配条件下，子页面要比入口页面返回的多－根据相关性原理，排列在前面的子页面具有最大的相关性，因此提出根据排列在前面的主页相关子页面来找到相应的主页。 PERS排序算法的核心思想： PERS排序算法的核心思想：分析所有的返回结果，对搜索结果进行二次排序，将相关主页提前。算法：－1、分析排名第一位的结果，如果是入口页面相关页面，则提取它的入口页面，到返回的相关页面中进行搜索，如果找得到，

您可能关注的文档

文档评论（0）

1亿VIP精品文档

更多 >

基于URL类型优先级入口页面查询算法胡俊刚,董守斌,.pptVIP