CN17NN6238I-基于用户行为的日志过滤方法-递交稿-乞晓曦-刘艺玮-2017-1-24.docxVIP

CN17NN6238I-基于用户行为的日志过滤方法-递交稿-乞晓曦-刘艺玮-2017-1-24.docx

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
说 明 书 摘 要CN17NN6238I本发明公开了一种基于用户行为的日志过滤方法,包括以下步骤:步骤一、将用户行为划分成多种子行为并分配相应的权重,通过分布式日志采集工具获取并存储用户行为的日志信息,提取并滤除低于权重阈值的相应子行为的日志信息;步骤二、对保留的子行为的日志信息通过效用函数进行并行处理,所述效用函数建立用户兴趣度与子行为指标的映射关系,提取并滤除低于兴趣度阈值的子行为相应的日志信息,保留用户偏好的子行为的日志信息,形成推荐结果的优化数据源,存储在数据集群中。本发明能够对海量日志信息二次过滤,及时响应用户的当前需求和感兴趣的信息,提高处理效率,本发明容易扩展以及具有一定的容错性。摘 要附 图CN17NN6238I权 利 要 求 书CN17NN6238I1、一种基于用户行为的日志过滤方法,其特征在于,包括以下步骤:步骤一、将用户行为划分成多种子行为并分配相应的权重,通过分布式日志采集工具获取并存储用户行为的日志信息,提取并滤除低于权重阈值的相应子行为的日志信息;步骤二、对保留的子行为的日志信息通过效用函数进行并行处理,所述效用函数建立用户兴趣度与子行为指标的映射关系,提取并滤除低于兴趣度阈值的子行为相应的日志信息,保留用户偏好的子行为的日志信息,形成推荐结果的优化数据源,存储在数据集群中。2、如权利要求1所述的基于用户行为的日志过滤方法,其特征在于,步骤一中,建立用户行为的行为函数,定义多种子行为,根据用户的需求对多种子行为的权重调整赋值,行为函数为其中,wi为用户α各子行为对应的权重,0wi1,x1. x2……xm为用户α对应的m种子行为。3、如权利要求1所述的基于用户行为的日志过滤方法,其特征在于,子行为包括用户信息、用户访问时间、页面地址、子行为指标。4、如权利要求3所述的基于用户行为的日志过滤方法,其特征在于,子行为指标为多个独立的参数时,步骤二中的效用函数为根据用户的需求对各参数的权重调整赋值,计算该子行为的用户兴趣度,其中,wi为子行为β各参数对应的权重,0wi1,y1. y2……yn为子行为β对应的n个参数。5、如权利要求3所述的基于用户行为的日志过滤方法,其特征在于,子行为指标为执行与未执行的两个选项时,步骤二中的效用函数为保留取值为1的选项对应的子行为相应的日志信息。6、如权利要求3所述的基于用户行为的日志过滤方法,其特征在于,子行为为搜索行为时,读取用户搜索的关键词,采用语义模型获取关键词的关联词,子行为指标为关键词与关联词的相似度,步骤二中的效用函数为从数据集群的历史搜索行为的日志信息中提取取值为1的含有关键词的日志信息,提取不低于相似度阈值的关联词的日志信息。说 明 书CN17NN6238I基于用户行为的日志过滤方法技术领域本发明涉及信息技术领域。更具体地说,本发明涉及一种基于用户行为的日志过滤方法。背景技术随着互联网的迅速发展,用户在使用网络的过程中产生海量的日志信息。用户在面对海量的互联网信息时,无法从中获取自己感兴趣的信息,产生信息超载问题。因此,各种推荐方法便成为研究热点,使得用户群体可以实时、有效地获取自己感兴趣的信息(比如感兴趣的微博推荐、商品推荐、电影推荐等等)。在推荐中日志过滤是一个必不可少的环节,然而,目前的日志过滤技术存在许多不足,例如数据缺失(数据不完整、缺少ID、时间、商品ID等)比如仅仅对含有噪声、缺失值(例如图片缺光)的数据进行过滤。并且不同的推荐系统所用的过滤方法不一样,不能达到通用性。如今在大数据环境下,互联网中各类网站产生越来越多种类的用户行为,根据用户行为设计通用的日志过滤方法是一个研究趋势。发明内容本发明的一个目的是解决至少上述问题,并提供至少后面将说明的优点。本发明还有一个目的是提供一种基于用户行为的日志过滤方法,其能够对海量日志信息二次过滤,及时响应用户的当前需求和感兴趣的信息,提高处理效率,本发明容易扩展以及具有一定的容错性。为了实现根据本发明的这些目的和其它优点,提供了一种基于用户行为的日志过滤方法,包括以下步骤:步骤一、将用户行为划分成多种子行为并分配相应的权重,通过分布式日志采集工具获取并存储用户行为的日志信息,提取并滤除低于权重阈值的相应子行为的日志信息;步骤二、对保留的子行为的日志信息通过效用函数进行并行处理,所述效用函数建立用户兴趣度与子行为指标的映射关系,提取并滤除低于兴趣度阈值的子行为相应的日志信息,保留用户偏好的子行为的日志信息,形成推荐结果的优化数据源,存储在数据集群中。优选的是,所述的基于用户行为的日志过滤方法,步骤一中,建立用户行为的行为函数,定义多种子行为,根据用户的需求对多种子行为的权重调整赋值,行为函数为其中,wi为用户α各子行为对应的权重,0wi1,x1. x2……xm为用户

文档评论(0)

celkhn5460 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档