基于用户模型的文献检索研究.docVIP

下载本文档

4
0
约4.26千字
约 5页
2016-09-17 发布于安徽
举报
版权申诉

基于用户模型的文献检索研究.doc

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

　　随着Internet的发展，WWW已经成为包含多种信息资源，站点遍布全球的巨大的信息服务网络，为用户提供了一个极具价值的信息源.WWW是以超文本的形式包含了多种类别和形式的信息，构成了一个庞大的具有异构性、开放性的分布式数据库.一方面，WWW所固有的异构性和动态性导致了从Web中获得所需信息变得越来越困难，而另一方面许多用户在网上以关键词进行检索，找到自己期望的信息还是很费事的.因此，如何有效地针对用户来进行信息检索及如何方便快捷地检索到用户所期望的信息，已经成为一个重大课题. 　　现在对本文的思路作以下简要介绍：　　1) 构建用户信息模型.构建用户信息模型的目的是收集有关用户检索的兴趣和爱好，以此来反映用户的检索意向.通过对用户信息模型的修改和调整来动态跟踪用户检索意向. 　　2) 分类.分类就是根据已知的用户模型和用户所提交的关键词，来推测用户期望的检索领域，以此来提高检索效率和降低检索工作量. 　　3) 检索文献.我们可以通过相关机制，按照与用户信息模型的相关程度，对分类后所指定的文章进行打分.通过分数来表示文章与用户的相关程度，具体地说，通过一定机制，以分数的形式来表示用户对此文章所偏好的程度. 　　4) 反馈.在提交之后，用户可以反馈意见，系统以此来调整用户信息模型，使其更精确地反映用户的检索意向. 　　1用户信息模型　　数学建模就是为了反映事物真实变化的情况而抽象出的数学模型.同样，通过对用户检索时的相关信息进行建模，来反映用户复杂的检索意向. 　　1. 1反映用户检索的相关属性　　(1) 偏好(背景)领域　　对于大多数人而言，检索时往往对个人所偏好或从事的领域更为感兴趣.例如，用户检索了一个“计算机”，假定用户所偏好的领域是计算机，那么，我们在对此用户提交文章时，应当优先提交计算机领域的文章. 　　(2) 关键词　　在现有的检索系统中，大多数都是以关键词为检索手段的.而用户检索的关键词，往往是他要寻找的文章的主题或关键词，也就是说用户检索意向可以从关键词中得到一定的反映. 　　(1) 关键词频率　　一个用户检索某个关键词的次数越多，那么这个关键词最能反映用户最近的检索意向. 　　(2) 最近检索某个关键词的时间　　根据磁盘调度算法LRC(最近最久未使用算法)的思想，在LRC算法中，人们用最近的过去来推测最近的将来，认为最近最久未使用的页面在最近的将来也不会被使用.所以，我们可以认为，假如某用户对某个关键词长时间未检索，那么可能这个用户对此关键词并不太感兴趣.即此关键词对反映用户今后的检索意义不大，相反，用户最近检索的关键词，最能反映用户今后的检索意向. 　　(3) 检索同一关键词相邻两次的时间间隔　　假如用户检索同一关键词的时间间隔很长，那么此关键词对于反映用户最近一段时间内的检索意向，影响是有限的.例如，用户检索“计算机”的时间间隔为，而检索“航天”的时间间隔为T2，假如其他条件一样， T? T2，就这反映出用户在最近一段时间对于航天领域检索意向要比在计算机邻域里更为强烈. 　　1.2 用户信息模型的结构　　用户信息模型由以下三部分组成：　　(1) 用户的基本信息　　用户的基本信息包括:姓名，研究领域(方向)，身份，帐号，密码等一些初始信息. 　　(2) 关键词积累表　　我们可以从用户检索关键词的历史纪录分析出用户的兴趣和爱好，并以此推理出用户今后的检索方向. 所以，关键词积累表是用户信息模型中最为重要的部分.每当用户检索一次，关键词积累表都会作相应的调整. 　　关键词积累表有关键词、检索领域(可为空)关键词频率、最后访问时间、相邻两次访问的时间间隔、权值W等几个部分组成. 　　权值W是由其他四个部分计算出来的.其计算公式为：A* W+ W2+ C* W3+ D* W4，其中 A，B，C，D是权值因子，表示Wi，W2，W3，W4在总权值W中所占的权重. 　　W.为检索领域的权重，领域可以为NULL，即不指认领域.其值为该检索领域的次数S除以总的检索次数SUM.例如，用户检索了计算机领域的关键词10次，总的检索次数为20次，那么Wi= 0.5. 　　W2为关键词的权重，其值为某一关键词的频数除以总的检索字数. 　　W3为最近一次检索某一关键词的时间的权重.当然时间越久，权值越小.假设最近一次检索某一关键词的时间为T，Tnow为现在时间，那W3= 1/(Tnow- T)，时间以天为单位，当Tnow= T时，W3= 1 　　W4为最近相邻两次检索某一关键词的时间间隔的权重.假设间隔为Interval天，那W4= 1/Interval，时间以天为单位，当Inteival= 0时，W4= 1 　　下面是某个用户的关键词积累表：　　我们通过上面的例子，不难看出，关