- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
一个借助查询历史改善结果排序的文件检索系统的设计与实现硕士毕业论文述.doc
北京大学硕士研究生学位论文
题目:一个借助查询历史改善结果排序的文件检索系统的设计与实现
姓 名:
学 号:
院 系:信息科学技术学院
专 业:计算机系统结构
研究方向:计算机网络与分布式系统
导 师:
版权声明
任何收存和保管本论文各种版本的单位和个人,未经本论文作者同意,不得将本论文转借他人,亦不得随意复制、抄录、拍照或以任何方式传播。否则,引起有碍作者著作权之问题,将可能承担法律责任。
摘 要
随着网络的发展,网络上提供文件共享服务的服务器越来越多,共享的文件数量也随之增加。如何更好的检索、利用这些共享文件成为一个重要的问题。
针对用户对文件检索的需求,本文在文件检索技术领域有如下贡献。
1. 本文首先提出了一个文件检索的模型,明确了在文件检索模型中检索对象、查询串、查询与检索对象的匹配方式三部分的含义。检索对象,即文件条目表示为六元组[name, ext, size, date, site, path]的形式,查询串表示为以空格分隔的字符串的集合,查询与检索对象的匹配则表示为查询串与文件条目的匹配串之间的匹配。
2. 提出了对文件检索系统进行评测的指标。将查询结果视作集合时以查全率、查准率为评测指标。将查询结果视作有序序列时,分析了查询结果的相关性、连接下载速度以及结果的可用性等因素对排序的影响,并提出了对排序进行评测的指标——排序指数。作者还提出对于两个排序策略进行比较时,应当在结果的每个页面内部应用排序策略,而不是在全体结果集合上应用排序策略,并比较平均用户选取条目的页内排名。
3. 通过统计、分析用户对文件搜索引擎的检索和对检索结果中下载地址条目的选取,作者发现了用户行为习惯中的两个重要规律:一、少数查询串占据了全部查询请求的大多数,具体而言,前20%的热门查询串占据了全部查询请求的80%;二、对全体用户而言,假设有n次不同的查询请求使用了同一个查询串,并且它们代表k类不同的查询意图。那么通常k≤3,因而在n较大的情况下,则n/k的值较大,即大量的来自不同用户的请求代表了相同的查询意图。
4. 基于上文所述,作者设计并实现了一个真实的系统。该系统借助查询历史改善结果的排序。与一般基于用户历史信息的检索系统不同的是,本系统借助的历史信息不局限于当前用户的历史信息,还包含提交了相同查询串的其他用户的查询信息。或者说,即使当前用户是第一次使用本系统,本系统也能利用其他用户的历史记录来改进结果的排序和筛选。作者最后还验证了其实际的效果。应用本方法后,平均用户选取条目的页内排名从原来的13.70名前进到了8.93名。试验结果表明文中所做的分析是正确的。
关键词:文件检索系统,查询历史,检索模型
The Design and Implementation of a File Index System which Improve the Order by Query History
Abstract
With the rapid expansion of the Internet, there are more sharing file servers. And the number of sharing files is increasing rapidly too. So it’s more important to retrieve these files easily.
For the requirement of file retrieving of the users, we did the following jobs:
1. We proposed a file index model. The model is composed of the expression of an index object, the expression of a query, and how the query word matches the index object. The index object can be expressed as [name, ext, size, date, site, path], the query string is expressed as strings separated by space, and the matching between query and index object is realized by matching the query string and the matching strings of the file item.
2. We also proposed the evaluation indic
您可能关注的文档
- UI股份有限公司经济岗位责任制度5窗.doc
- UI股份有限公司计量管理制度5寿.doc
- unit3atamusiclesson导学案跋.doc
- ut公司考勤管理制度精品企业管理参考资料仙.pdf
- vc++课程设计学生成绩管理系统的设计与实现渊.doc
- vv房地产公司考勤管理制度精品企业管理参考资料妄.pdf
- v带传动课程设计惜.doc
- wssoa英文版培训课件ppt第2课xmlfoundationl搪.ppt
- wt集团公司员工考勤管理制度精品企业管理参考资料谎.pdf
- x2110n15型农用柴油机配气机构设计教.pdf
- 一些特殊类型的一阶微分方程的解法探讨毕业论文雹.doc
- 一套自带停车场的高级别墅的室内设计毕业设计论文辽.doc
- 一点多址扩频通信系统的应用毕业论文外文翻译芒.doc
- 一种基于单片机控制的新型光伏电池毕业论文外文翻译申.doc
- 一种基于小波的眼伪影校正的脑电图去噪技术毕业论文外文翻译抓.doc
- 一种基于带有特别的过滤和偏移调制的光栅投影的位移传感器毕业论文外文翻译汰.doc
- 一种应用于高压断路器的超温无线电报警器电路设计方案毕业论文辉.doc
- 一种机械式停水自闭水龙头的构思论文鹃.doc
- 一级圆柱齿轮减速器的设计计算 毕业论文危.doc
- 一级建造师 市政实务 通关经验 和老公一起通关悬.doc
文档评论(0)