基于URL类型优先级入口页面查询算法胡俊刚,董守斌,.pptVIP

  • 4
  • 0
  • 约3.47千字
  • 约 20页
  • 2017-06-07 发布于湖北
  • 举报

基于URL类型优先级入口页面查询算法胡俊刚,董守斌,.ppt

基于URL类型优先级的入口页面查询算法 胡俊刚,董守斌,陈晓志,张元丰 (华南理工大学 广东省计算机网络重点实验室 ) 论文背景 SEWM中文Web检索评测包含两个具体目标: -1) 研究有效的主题提取方法:针对用户给定的广泛查询,找到一组最佳的主页。 -2) 研究有效的导航搜索方法(包括主页和指定页面查询):找到用户需要的特定页面。 检索系统中入口页面查询特点 入口页面(主页)查询要求结果只有一个 用户的查询词常常是简短的页面名称 它要求更高的精准度 因此一味的扩大搜索范围实际作用不是很大,相反的,提高结果的精准度才是最重要的。 本论文研究内容简介 通过CWT100g ,本文将对url优先级在中文实际应用进行研究。 建立语言模型分析 挖掘出相关内容域作为基准检索。 研究非内容域网页优先级(URL-type等) 建立综合内容域和非内容网页特征的检索模型。 通过主页URL类型的概率统计,发现入口页面和其相关的子页面之间存在比较大的联系。据此提出基于相关子页面的入口页面提取算法PERS(page extracted from relevant sub)。 目录 入口页面的检索模型(如何去寻找相关子页面?) - 一元语言模型(unigram language model) - 考虑不同内容域的基准检索算法 基于URL类型(URL-Type)优先级的入口页面检索方法(如何从子页面中提取入口页面?) -入口页面特性分析 -入口页面提取算法PERS 实验(算法真的有效嘛?) - 评估体系 - 基准检索算法评估 - PERS算法评估 总结(是否还可以进一步研究?) 1.1 一元语言模型(unigram language model) 本文使用一种已知的一元统计语言模型来支持入口页面查询系统: (此公式来源于贝叶斯公式(Bayes’rule),当给定一个查询关键词(query)Q时,一个相关文献(document)D的概率是: .如果将查询关键词Q分割成n个查询分量(query term),再采用Jelinek-Mercer平滑迭代[5],得到一个一元文献模型和采集模型线性合并的表达式 。) 1.2 考虑不同内容域的基准检索算法 寻找相关页面的要求: -需要找到和查询词内容相匹配的相关子页面,那么匹配性越高,说明相关度越高。 本文取Content域、Title域、anchor text域,根据语言模型进行合并,合并后的模型作为检索基准 返回的结果被认为是具有最大相关性。 目录 入口页面的检索模型 - 一元语言模型(unigram language model) - 考虑不同内容域的基准检索算法 基于URL类型(URL-Type)优先级的入口页面检索方法(如何从相关子页面中提取入口页面?) -入口页面特性分析 -入口页面提取算法PERS 实验 - 评估体系 - 基准检索算法评估 - PERS算法评估 总结 2.1 入口页面特性分析 网页的URL在万维网(WWW)中是唯一的,根据它的服务器名称、目录、文件名成可以分为以下4种类型的URL: - Root(根形式):表示一个域名,例如: ; - Subroot(次级根形式):一个域名只跟随一个文件目录, 例如:/grid/; - Path(路径形式):域名后跟随两个或多个文件目录,例 如:/sigirlist/issues/ - File(文件形式):以文件名结尾的URL,多级目录,例如: /about.htm; 2.2入口页面提取算法PERS(page extracted from relevant sub) 定义主页的相关子页面(relevant sub): -入口页面的子页面或者二级、三级目录等的子页面,以普通文件名结尾,和查询词有相关性,URL形式为file形式,和入口页面有相同域名。 相关子页面和主页的url关系: -主页相关页面的URL需要包括主页URL的域名和目录。 相关子页面和主页的其它关系: 入口页面的相关页面数量多于入口页面,或者远大于入口页面。 在相同查询词下,在基于内容匹配条件下,子页面要比入口页面返回的多 -根据相关性原理,排列在前面的子页面具有最大的相关性,因此提出根据排列在前面的主页相关子页面来找到相应的主页。 PERS排序算法的核心思想: PERS排序算法的核心思想: 分析所有的返回结果,对搜索结果进行二次排序,将相关主页提前。 算法: -1、分析排名第一位的结果,如果是入口页面相关页面,则提取它的入口页面,到返回的相关页面中进行搜索,如果找得到,

文档评论(0)

1亿VIP精品文档

相关文档