- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
用户兴趣模型中隐私保护技术的探讨与研究.doc
用户兴趣模型中隐私保护技术的探讨与研究
摘 要;用户在搜索过程中会产生大量的查询痕迹,该类信息常被用于构建用户兴趣模型,帮助系统提高检索效率;但其也包含着用户的某些隐私。倘若不法攻击者获取了重要的隐私信息,并将得到的资料进行一定的分析处理,则有可能得到一个人甚至一个企业或国家的重要机密,因此,在用户兴趣模型中引入隐私保护技术是有意义的、社会发展需要的。
【关键词】 用户模型 隐私保护 搜索引擎 信息检索
1 引言
互联网的发展,在一定程度上影响着人们的生活方式,用户已越来越依赖网络。Web2.0技术的出现、检索系统设计的人性化界面,促使大量的用户参与到系统的“互动”中来,以此产生的用户检索历史也愈加丰富,利用该信息构建的用户模型也更精准。
上下文信息检索是一种利用用户检索上下文信息进行的检索系统[1],但对检索信息资源的捕获,将会在一定程度上暴露用户隐私信息。目前,在该领域,研究者们主要专注于构建高效地用户兴趣模型,疏忽了用户在获得高效查询结果的同时,强烈地担心个人隐私或敏感信息的泄露。在未来的发展中,隐私保护的用户兴趣模型技术的发展势在所趋。
2 用户兴趣模型
2.1 用户检索历史信息
用户检索历史是指用户在搜索过程中,留下的与查询活动相关的所有信息的组合。它由用户本地信息、用户查询日志、浏览器信息组成[2];其中,关键词、收藏的网页及站点、用户浏览的网页以及查询时间和地点是用户检索历史中最主要的信息资源,也是构建用户兴趣模型最重要的信息,该类信息即用户查询日志;用户本地信息主要指用户输入的信息,存储在客户端,因此该类信息安全性高;浏览器信息主要包括用户本地IP、查询扩展信息、点击或是浏览的网页信息等。
2.1 用户检索历史信息的获取
从用户参与系统获取信息的程度出发,用户检索历史信息的获取由显式收集、隐式收集和推理获取三种方式。显式收集又称显式反馈,是指用户主动完成并提交系统设计的表单信息,该方式最简单,但需用户的参与,要求系统设计的表单具有代表性。隐式收集又称隐式反馈,指系统为用户提供检索服务的同时,完成信息的收集,两项工作同时进行;该方法也是目前获取用户检索历史的最佳选择。推理获取方式也无需用户的参与,该方法主要是借助数学领域的相关知识,通过用户查询的一些上下文信息推理归纳出用户的兴趣爱好,该方法虽增加了计算的难度,但准确率较高,故使用较多。
2.2 用户信息的表示
对于获取到的用户检索历史信息,还需进一步的表示成用户profile,才能被系统加以利用,常用的用户信息表示方法有关键词表示方法(代表性的有VSM)、主题表示法、Bookmark表示法、用户-项目矩阵、基于语义表示方法(常见有本体)等。
3 隐私数据保护算法
隐私信息的定义是指个人不想对外透露,被外界所知道的重要或敏感信息,包括个人和公共的隐私。隐私保护的算法很多,主要集中在数据失真、数据加密和限制发布等方面。
数据失真指对原始隐私数据进行一定的扰动。基于数据失真的保护技术有随机化、阻塞、交换、凝聚等;
数据加密指在挖掘过程中采用加密技术实现。基于加密技术有网络访问控制方法、关联规则挖掘技术、分类挖掘技术等;
限制发布主要是指对隐私数据的发布采用某些限制条件。基于限制数据的发布常用算法有:k-匿名,l-多样性,t-Closeness等。
4 隐私保护的用户兴趣模型
用户兴趣模型的目的是为满足用户个性化的检索需求,对用户检索历史中隐私信息的处理方法主要研究有Shen等人的研究,提出了隐私保护模型的四个等级,并分析了四个等级所采用的相关技术,Shen等人的研究为后续用户兴趣模型中对隐私信息的处理提供了理论基础和数据支持[3]。Dou等人则利用保存在客户端的信息构建用户模型,这样构建的用户模型虽安全性较高,但该算法未有效利用服务器端的丰富资源[4]。Xu等人假设某一关键词在用户查询文档中出现的次数超过了系统规定的阈值,则将该关键词看成是用户隐私信息,然后将其删除;该算法太笼统,有些词出现过多有可能是一般的词汇,不一定是敏感词[5]。Chen等人采用用户自行指定隐私节点信息,并指定一个阈值,然后采用一定的算法量化构建的层次用户模型中每个节点的敏感值,当用户模型中节点的敏感值大于指定的阈值,则将该节点及其孩子节点删除;否则,则保留该节点;该算法存在的问题是增加了系统的设计工作,并且很多用户不愿参与到系统的互动当中[6]。
在用户兴趣模型中的隐私保护技术的研究今后还需考虑的问题有:第一、在系统中采取怎样地措施定义隐私信息;第二、怎样度量用户兴趣模型中节点的敏感信息;第三、系统隐私信息阈值怎样确定。
5 结束与展望
用户兴趣模型是信息检索领域一
您可能关注的文档
最近下载
- Parker Lord公司《电池系统组件的绝缘防护技术评估白皮书》.pptx VIP
- 小型白菜类蔬菜栽培技术.ppt VIP
- 白菜类蔬菜栽培技术 (3).ppt VIP
- 建设工程档案归档清单.xlsx VIP
- 2024年河北省职业院校技能大赛中职组“艺术设计”赛项样题-第四套 .docx VIP
- 2025年浙江省初中学业水平信息科技考试试卷(含答案详解).docx
- 退工原因变更申请表 .pdf VIP
- DB15T+3686.3-2024物业管理服务规程 第3部分:秩序维护.pdf VIP
- 职业院校技能大赛艺术设计中职样题.docx VIP
- 大学生简历毕业生简历求职简历 (27).docx VIP
原创力文档


文档评论(0)