- 1、本文档共70页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
数字图书馆个性化中文文本信息服务系统分析
数宇图书馆个性化中文文本信息服务系统研究
学科专业:计算机应用技术 研究方向:信息管理技术
指导老师:邓小昭教授 研究生:王艳(2000277)
内容摘要
/Intemet极大地扩展了用户的信息获取范围,www更以其超强的链按能力
将各种信息组织成为一个巨量的信息空间,世界各地的各类信息服务机构纷纷利
用它开展信息交流与传递工作,人们可以通过网络快捷方便地获取各种信息。长
期以来作为信息集散地的图书馆,面临着极大的挑战,因此,传统图书馆凭借自
身的资源、组织、技术等优势,利用网络这一强势平台开展服务,向数字图书馆
嬗交。然而近年来的数字图书馆建设,单纯重视数字资源的建设和组织,忽略作
为信息使用主体的人的感受,使得用户查找信息困难,陷入“被信息淹没,却饥
渴于知识”的困境。
事实上,与个人兴趣相关的信息领域,相对于广袤的全局信息空间而言,
永远只能算是一个狭小的范围,在全局信息空间中信息实体对每个用户都是等距
的,用户难于获取与己相关的信息。因此,发展个性化信息服务,按照特定用户
的特定信息需求,为其提供特定的信息内容和服务成为目前的研究趋势之一。个
性化服务以用户为中心,其关键在于分析用户的信息行为及需求特征,记录和推
导用户的潜在兴趣偏好,并根据用户兴趣主动推送相关信息。基于这种背景,论
文在分析已有个性化信息服务系统的基础上,引入用户建模技术、Web数据挖掘
技术和协同过滤技术,针对中文文本自身的特点及由这些特点带来的信息处理的
特殊性,构建了一个数字图书馆个性化中文文本信息服务系统,力图在用户的最
小努力下,为其提供更多、更贴近其需求的信息。
论文首先论述了数字图书馆信息服务的研究背景及现有个性化信息服务系
统的研究现状和存在的不足,提出了本系统的解决思路;在此基础上,对与系统
研究相关的理论和方法进行研究和分析;接着,论文分析了本系统研究对象的特
点,并基于这些特点提出了系统所应实现的目标和系统的概要设计。第三章是论
文的重点,论文在前述分析的基础上构建了系统核心部分(个性化服务)的工作
模型,并阐释了其中各模块的功能,之后分节详细说明了各模块的工作过程。
(在文档特征表示中,为了深入内容层次揭示文档特征,本系统利用中文信
息处理技术对文档进行分词处理,并借助主词典、同义词典和蕴涵词典解决汉语
的语义问题,将每篇文档用主词典中的统一的、规范的词条表示成特征向量,将
语义转换为可以进行数学运算的形式。
在用户建模中,系统从三方面获取用户信息需求特征,第一,用户主动地
向系统提供需求信息;第二,系统检测用户检索行为,从用户检索词分析其需求:
第三,系统通过分析Web访问日志,得到用户的兴趣所在及兴趣的变化状况,并
进一步利用对用户访问文档内容的分析来追踪其兴趣变化,将用户兴趣同样表示
为兴趣特征向量,聚类相似用户。与以往系统不同,系统无需用户直接反馈,而
是通过其对文档的访问频度、驻留时间及操作行为等来隐式获取用户的评价信
息;同时,系统也利用用户候选兴趣特征向量来记录和累计用户潜在的、非主要
的兴趣的变化过程,精度更高。
在推荐引擎中,系统采用混合推荐方式,一方面利用用户的兴趣特征向量
和文档的特征向量进行相似度比较,另一方面利用相似用户的信息浏览情况为当
前用户推荐潜在有用的信息,并针对用户和页面分别进行推荐。
在检索引擎中,系统利用用户模型扩展用户查询,将与用户兴趣相关信息
提供给用户而屏蔽不相关信息,减轻了用户构造复杂检索表达式和选择信息的负
担,也提高了检全率和检准率。/D
最后,论文做了一些相关实验,并对当前工作作出总结,提出了进一步的改
进意见.。
关键词:
数字图书馆个性化信息服务中文信息处理用户模型Web数据挖掘
Ⅱ
i OR
zedChi neseI nformat
ResearchofPersona|I
The
文档评论(0)