浅谈基于内容过滤数字图书馆推荐系统研究.docVIP

下载本文档

2
0
约4.01千字
约 9页
2018-06-23 发布于福建
举报
版权申诉

浅谈基于内容过滤数字图书馆推荐系统研究.doc

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

浅谈基于内容过滤数字图书馆推荐系统研究

浅谈基于内容过滤数字图书馆推荐系统研究　　【摘要】随着管理系统的广泛应用，信息数据在飞速增长，一方面人们拥有了海量的信息资源，另一方面人们寻找合适信息的时间成本和难度也增加了。目前广泛采用的信息检索技术只能够向用户提供数量巨大的、缺乏个性化的检索结果。推荐系统是一个由人、计算机软硬件和数据资源共同组成的系统，它把用户对目标对象的使用、评价等相关数据按照特定算法模型进行处理，根据处理的结果形成推荐列表，进而为用户选择决策时提供推荐参考。本文就基于内容过滤的数字图书馆推荐系统展开研究和探讨。　　【关键词】内容过滤；数字图书馆；推荐系统　　1.基于内容过滤的推荐方法的特点　　1.1 基于内容过滤的图书推荐系统的原理　　基于内容的推荐系统（Content-based 　　Recommendation）也被一些学者称为“Fea- 　　turebased Recommendation”，其技术方法主要源于“信息检索（Information Retrieval，IR）”。最初的基于内容的推荐系统根据用户对内容的偏好，自动检索过滤众多内容，选择一些与用户偏好匹配度高的信息推荐给用户。　　基于内容过滤的图书推荐系统根据读者的兴趣向量在图书特征向量中自动寻找与之匹配的产品，并依据相似度的高低顺序，产生推荐图书序列表，进而主动向读者推荐产品。读者兴趣向量主要包括读者的专业、学历、导师等身份信息和历史借阅、查询数据等信息，据此建立读者模型。图书特征向量主要是指经过人工著录的图书书目数据库，包含了书名、责任者、主题词、出版社、ISBN、出版日期等信息。当某本图书的特征向量与读者的兴趣特征向量产生较大交集（即较大效用值）时，系统就把该图书作为读者的备选推荐产品。系统再依据效用值的大小对备选产品进行排序，最后向用户推荐。　　基于内容过滤的图书推荐系统的主要分为以下四个步骤：（1）读者兴趣向量的建模与表达，图书特征向量的建模与表达；（2）在同一向量空间下，计算读者兴趣特征向量与图书特征向量的相似度；（3）根据相似度的大小对结果进行排序，取前几位图书产生推荐列表；（4）若读者兴趣特征模型产生更新，或增加新的图书特征向量模型则返回步骤1。　　1.2 基于内容过滤的推荐系统的优点和存在问题　　基于内容过滤的推荐系统利用资源和用户兴趣的相似性来过滤信息，它的关键问题是相似性计算，优点是简单、有效，缺点是难以区分资源内容的品质和风格，而且不能为用户发现新的感兴趣的资源，只能发现和用户已有兴趣相似的资源。基于内容过滤的推荐系统根据用户查询内容而进行推荐，其推荐结果具有短期效应，适合电子购物系统。而对于拥有长期用户的系统来说，则没有充分利用用户的历史数据尤其是相似用户的相关数据，缺乏推荐潜在兴趣产品的功能。　　1.3 内容过滤推荐系统有利于充分开发数字图书馆资源　　数字图书馆的建设不应该仅考虑组织众多的数字化资源，被动地等待用户前来选择，而应以用户为中心，整合数字资源，提供主动的信息服务。构建一个融多种技术为一体的信息推荐系统。在数字图书馆的环境下，图书文献信息的种类和数量都非常多，用户不可能像在实际的图书馆那样直接选取所需的文献资料。因此，数字图书馆应该充分揭示有关信息，自动推荐用户可能感兴趣的图书文献，实现数字资源的深层次挖掘分析，提高其使用价值。　　1.4 基于内容过滤推荐是数字图书馆环境下的基本需要　　数字图书馆具有信息量庞大、内容繁杂、形式多样、数据对象异构、分布式存储等特征，用户选择和利用所需信息比较困难。数字化图书馆虽然提供服务的方式与传统图书馆有些不同，但为用户提供高质量的服务的职能却没有改变。通过对信息资源的推荐有助于用户作出正确的评价和选择，使价值高的信息资源能够充分被利用。　　2.基于读者文件的内容推荐算法　　为了计算读者与推荐图书的相似度，首先需要将读者的兴趣表达出来以供系统识别和计算。读者的兴趣在系统中表示成读者兴趣文件，文件应该包括读者兴趣的内容并用系统可以理解的形式表达出来。读者兴趣文件是图书推荐系统的重要组成部分，是推荐算法的重要依据。　　读者的兴趣主要受到读者的专业、身份、借阅行为等信息影响。根据系统建模工程方法，本文将读者的信息抽象为属性和操作。读者的属性主要指读者的专业、身份、职称、研究方向等较为固定的静态信息。这些可以从图书馆管理系统的读者数据库中获取，也可以通过读者自行修改完善个人信息而获得。读者的操作主要是指借阅、查询等行为信息。该信息可以从图书馆管理系统中的流通数据库中获得。本文假定读者在图书管理系统中的操作行为都因兴趣动机而起，因此操作行为可以反映读者的兴趣特征。于是本文通过对操作行为的研究揭示读者兴趣。　　根据兴趣的时效性，将用户的兴趣模型概括为近