- 1、本文档共10页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
我搜索听我
我搜索听我
[摘 要]提出一种基于用户兴趣的个性化检索方法,结合分类法的思想,用“分类”代替“关键词”表示用户兴趣,改进信息过滤的方法,优化检索结果,使其更加符合用户的需要,实现基于用户兴趣的个性化信息检索。此外,开发基于用户兴趣的个性化检索系统,并进行相关实验,验证该方法确可明显改善检索效果。
[关键词]个性化检索 用户兴趣 检索系统
[分类号]TP391
1 引 言
传统信息检索技术满足了人们一定的检索需要,但受通用性限制,无法满足用户一些复杂的查询需求。随着信息爆炸出现,人们对检索系统的功能、智能化程度以及检索效果有了更高的要求,希望能提供更准确、更精炼和更符合个人需要的检索结果。
个性化检索是一种新的检索思想,它不同于传统的检索方法,而是真正以用户为中心,以用户的实时需求为出发点,以用户的个性化特征为参照,以个性化的手段和方式来服务,并提供个性化的检索结果。其特点是将“个性化”这一理念贯穿整个检索过程,并以用户的反馈来调整检索服务的手段和方式。个性化检索系统需要收集并分析用户信息,学习用户的兴趣,进而更准确地理解用户的检索需求,实现主动推荐,为用户提供更加优质的服务。
基于用户兴趣的个性化检索系统的研究和实现,已经成为检索系统发展的迫切要求和必然趋势。
2 研究现状
目前,个性化检索是信息检索领域的热点和难点。这一领域的研究范围很广,涉及到的问题也很多。许多学者从不同的角度,提出多种技术方法,主要有:①网络数据库技术(Web Database),构建用户等相关数据库;②过程跟踪技术(Process Tracking),如Cookies技术等;③代理技术(Agent),代理指在分布式系统中持续自主地发挥作用的计算实体,它具有独立性、自主性和交互性等特性,借助代理,可以很好的完成用户与系统的交互;④数据挖掘技术(DataMining),从海量数据中采掘出隐含的、先前未知的、对决策有潜在价值的知识和规则,并根据这些规则,预测用户即将发生的行为;⑤推送技术(Push),根据用户定义的准则,自动搜索用户感兴趣的信息,并主动传递???用户指定“地点”;⑥信息过滤技术(Information Filtering),信息过滤是一种用来过滤大量信息流,为用户提供相关信息子集的技术。信息过滤可以分为:基于规则的过滤、基于协作的过滤、基于内容的过滤,它们的目标都是根据用户模型将最有价值的信息自动推荐给用户,并最大限度地节省用户的阅读时间。
3 用户兴趣模型
本文在向量空间模型的框架下探索基于用户兴趣的个性化信息检索方法。
假设文档集合D中的文档总数为N,任一文档∈D,都可以表示为t-维向量的形式:
dj=(w1j,2j,wtj)
其中,t是索引词的个数,向量分量wij代表第i个索引词Ki在文档dj中所具有的权重。
3.1用户兴趣获取
用户兴趣信息的获取,是指采用特定的方法获取能够反映用户兴趣的信息,以生成能表示用户兴趣的特征文件,即用户兴趣剖像。如果用户经常访问某一页面或文档,或者用户在某一页面或文档上停留较长的时间,则说明用户对该页面或该文档感兴趣。这表明,用户对检索结果的访问情况等用户行为能够反映用户的兴趣。为了学习用户的兴趣,可以使用计算机对这些访问信息进行跟踪和记录并进行挖掘,从中抽取出能反映用户兴趣的信息,进而生成用户兴趣剖像。
3.2用户兴趣表示
将获取到的用户兴趣信息用向量或图形的方法进行形式化的表示,即形成用户兴趣剖像。它存储在计算机上,是高度结构化的,并且能够自动生成和动态更新。本文提到的用户兴趣剖像或兴趣剖像均指用户个人兴趣剖像。建立用户兴趣剖像是实现个性化检索的基础和关键。
3.2.1用户兴趣树在多数检索中,用户其实是对某一主题感兴趣。如果用户对检出的某篇文档感兴趣,则他对同一主题的其它文档应当有相同的兴趣。而分类法中同一类目下的文档拥有相同的主题,因此借助分类目录来表示用户兴趣,并将其映射为树状结构,即用户兴趣树(见图1)。用户兴趣树中的节点表示类目。在实际检索中,用户对每个分类的兴趣并不相同,因此在兴趣树中,代表用户兴趣度的节点权值也不同。
对语料库中的文档进行分类,则每篇文档均包含在兴趣树的某一节点中;相应地,兴趣树中每篇文档都有其“兴趣路径”。如图1的兴趣树中,文档《姚明伤愈复出重返火箭》的兴趣路径是:体育-篮球-NBA。
文档的兴趣相关因子表示用户对这篇文档的偏好程度,
h1是生命周期参数,这里选取的是6,d表示计算衰减的日期,dpre表示最后一次访问结点的日期。当该结点再次被访问时,周期重新开始计算,即
您可能关注的文档
- 我国报业集团核心竞争力缺失分析.doc
- 我国报纸版面历史沿革.doc
- 我国报纸新闻网站生存现状与困境.doc
- 我国报纸频繁改版所导致问题分析.doc
- 我国担保行业发展趋势.doc
- 我国收入差距扩大成因分析.doc
- 我国改革八条经验.doc
- 我国政党研究正迈向“黄金时代”.doc
- 我国政务微博现状、问题和对策.doc
- 我国政府“经济人”基本特征分析.doc
- 2025年一级建造师考试《水利水电工程管理与实务》冲刺必刷卷.docx
- 2025年一级建造师考试《水利水电工程管理与实务》逆袭破题卷1.docx
- 2025年一级建造师考试《市政工程管理与实务》冲刺必刷卷 .docx
- 2025年一级造价工程师考试《建设工程计价》预习卷.docx
- 2025年一级造价工程师考试《建设工程造价管理》预习卷.docx
- 2025年一级造价工程师考试《建设工程造价案例分析(安装专业)》预习卷.docx
- 2025年一级造价工程师考试《建设工程造价案例分析(土建专业)》预习卷.docx
- 2025年中级会计考试《会计实务》冲刺提分卷.docx
- 2025年中级会计考试《财务管理》冲刺提分卷.docx
- 2025年中级会计考试《财务管理》全真模拟卷.docx
文档评论(0)