基于语言模型的网页排序问题研究-计算机软件与理论专业论文.docxVIP

基于语言模型的网页排序问题研究-计算机软件与理论专业论文.docx

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
。《擎褂皇茸礤珥素士£汤非基t审鬲箪投毒¥妊掣》俐彰茸歌哥毒妊妤非‘髫 。《擎褂皇茸礤珥素士£汤非基t审鬲箪投毒¥妊掣》俐彰茸歌哥毒妊妤非‘髫 纬固辫蕈兽专恶({;:}鲤单一)皇藓晕勤甲。茸融珥毒驹千班、千蕈I肇鲥明壬群群雏茸娶斗砰斟宰:嚣 C、 Z 茸砚妊妤非紧戳珊显瞽 :瑕母 :(晰Ⅱ甲)弭可I手掣甄 珊9桫坳心钾!毗‘胪“固和Ⅲ助咿 nmuⅡ 县卑当独 而 牟 r列哆似游 鲻/鎏/黝 口千逾华杂岛刨 口嘶磷珥掣 口珥杀环牟千、亟周千逾鲻杀 口千斟。 暗椠茸砚 眩℃咖匆o/睨 瞵目挺最 oO乏O‘似,飞 鲁秦 溯卿 零 辅 罾桫可色I钐僻些翻今师獬#钎争髟 目嚣茸砚 冒署晕勘萃拱珥毒鬲草地毒¥拦阜 目孔皆』匆o/oz :右焉Y砰群磊岩勘 。晕禺髫锋囤咄捌甭延擅甲‘辑丝¥一兽焉锋砰群章。犁群娶丁皋聚晕刨Y卓 。酉目Y章甲酱g翟业帮采回生囡晦‘磋一母掣明茸现章雪殇与狲壬印茸拱砑嘉朝聋蕾 。挺嚣茸拱罂娶目冀‘罾勘朝稻毕勤阿刨睁筐杀杀¥拦掣翠瞽茸砚珥杀朝Y章:祟凄Y卓 。unq‘xopu!11008:19I’0Z’£II。乙0U/:如q:辚幽勘皓圈群互莓鬻硝士胃覃拱 。覃识拦抒刨暂砷哇革暂g罨磷‘暂那讯群哇覃鬻将掣业掣刮瞪毋哿‘茸观珥杀妊哥非 。胜砰朝茸砚擎髯辫颧砚并翠禺哿Y卓轴刨。暂殂肾’署身檠惭胚彝豳¥胖并取觐 ‘犁辫骤茸拱珥杀翠醉Y劲#硎士审茸理覃砚砑杀明圈燮犁群革瞢礴到帚士审(平柴)性酶半 杀国串唑蚶琶拉冒署馨性国七b叫珥杂碎群某勤茸拱碍杀(哥)3茸砚珥赤朝拦影萃鬻再责举群 僻晕磷叫杀¥妊掣‘举群¥晕峰革辚馨诽(£)o暂砷冒署颦丐翕碡生、甄腱茸弓茸观谣询辫 茸、率弭咨目茸砚艳篱丁豳圉弭翠‘罄豳雨蛳EId辫静静鳕瞬岛勘沣囤翠僻矮紧勤茸砚码杀朝 拦哥琳伯且弭秦‘明目掘性哇杀辚鬃(Z)o《窜辫嫌茸号茸砚砑杀千瓷科杀¥妊掣》Y蝣冀 ‘茸砚珥素雨琶扭型哿硝圭滞暂融首疆由黪、由缮甘当询乜珥杀‘(硎士审涩卓踏由驾掳辨 回)茸砚珥杀革酐犁群斟磁哂岩含;}罪砑杀(I):曲‘碑茸珊茸拱码索脚甲国鹫犁群《翟碑勤是》 翠阜啡杀¥妊单。犁群蟊昌朝茸唑哇逖劲茸拱珂杀雨延掘¥阜杀¥妊单辫上弓毕Y章 。狲士审珂醉谣章彗狮茸识珥素明Y章萆瞥杀¥妊掣掣蝥瞬岩勘 罪码杀千进、千捌朝辫棰‘《餮峰蕊暑目唑哇撵劲茸旗珥杀雨始擅士¥杀¥妊单》群群 沣砰狲茸觋茸观码秦杀¥妊单 夏人一 /‘ l 南开大学学位论文原创性声明本人郑重声明:所呈交的学位论文,是本人在导师指导下进行研究工作所 南开大学学位论文原创性声明 本人郑重声明:所呈交的学位论文,是本人在导师指导下进行研究工作所 取得的研究成果。除文中已经注明引用的内容外,本学位论文的研究成果不包 含任何他人创作的、已公开发表或者没有公开发表的作品的内容。对本论文所 涉及的研究工作做出贡献的其他个人和集体,均已在文中以明确方式标明。本 学位论文原创性声明的法律责任由本人承担。 学位论文作者签名: 扬波 2010年5月24日 非公开学位论文标注说明 根据南开大学有关规定,非公开学位论文须经指导教师同意、作者本人申 请和相关部门批准方能标注。未经批准的均为公开学位论文,公开学位论文本 说明为空白。 论文题目 申请密级 口限制(≤2年) 口秘密(≤10年) 口机密(≤20年) 保密期限 20 年 月 日至20 年 月 日 审批表编号 批准日期 20 年 月 日 限制★2年(最长2年,可少于2年) 秘密★10年(最长5年,可少于5年) 机密★20年(最长10年,可少于10年) 摘要摘要 摘要 摘要 排序问题是信息检索领域的核心问题,多年来一直是信息检索领域研究的 热点。Web是当今最大的非结构化数据集合,如何排序web文档必然成为了信 息检索领域研究的焦点所在。而语言模型建立在完善的统计理论基础之上,可 以采用统计学方法便捷的进行模型参数估计,同时能够很好的适用于各种复杂 的检索问题。作为处理网页检索问题的性能最好的非监督方法之一,在引入到 信息检索领域之后,就得到了大量学者的重视和研究。近些年来,基于语言模 型的方法逐渐形成了一套完整的检索模型体系。经典语言模型在处理网页排序 问题时,存在着对查询单词之间的关联考虑不足、进行未见词平滑时对数据的 层次没有加以更好的利用以及对于文档先验概率的忽视三个方面的问题。本文 由语言模型中文档查询似然概率、未见词平滑算法和文档先验概率这三个方面 入手,探讨了其中的一些改进。 本文由基于贝叶斯风险最小化理论得出的相似性公式为出发点,以查询产生 每个单词及元组的概率不同为假设,提出了考虑查询单词之间多个元组共同出 现的概率分布的方法建立查询模型。并且,在此模型基础之上,提出了基于多 元组的文档.查询相似度算法。同时,考虑了算法实现的可能性和可用性,给出 了一个

您可能关注的文档

文档评论(0)

131****9843 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档