个性化推荐服务中用的户兴趣模型研究.docVIP

下载本文档

0
0
约4.16千字
约 8页
2017-08-19 发布于湖北
举报
版权申诉

个性化推荐服务中用的户兴趣模型研究.doc

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

个性化推荐服务中用的户兴趣模型研究

个性化推荐服务中用户兴趣模型研究摘要本文提出了一种利用用户浏览页面集的内容信息和浏览行为信息，隐式地创建用户兴趣描述文件的方法。通过对用户浏览的web页面进行兴趣度分析，并与对用户浏览网页时的浏览行为分析相合，得到了用特征矩阵表示的用户兴趣模型。并采用层次聚类算法和 k-means 聚类算法相结合的综合聚类算法进行聚类，得到用兴趣分类树表示的用户兴趣模型。由于采用的是隐式创建用户描述文件的方法，减少了因用户参于而带来的系统噪声，保证了所创建的用户兴趣模型的准确性。关键词用户兴趣模型；浏览内容；浏览行为；兴趣分类树人们正在寻求一种将用户感兴趣的信息主动推荐给用户，对不同的用户提供不同的服务策略和服务内容的服务模式，即个性化服务的信息方式。用户兴趣模型是个性化服务系统的关键部分，用户兴趣描述的准确与否直接决定着个性化推荐服务的质量好坏。本文提出了一种利用用户浏览页面集的内容信息和浏览行为信息，隐式地创建用户兴趣描述文件的方法。该方法以用户浏览Web页面的内容信息和行为信息作为数据源，采用Web挖掘方法分析得到较准确的用户兴趣描述，减少了由于用户参与而带来的系统噪声，保证了所创建的用户兴趣模型的准确性。1 基于web浏览内容和行为分析相结合的用户兴趣模型整个用户兴趣模型的创建过程包括Web浏览内容分析和Web浏览行为分析两部分，流程图如图1所示。图1 用户兴趣模型创建流程图 Web浏览内容分析，就是采用Web聚类分析方法对用户已浏览的Web页面集进行内容聚类，得到用户感兴趣的页面集；Web浏览行为分析是对用户浏览页面时的行为信息进行分析，得到用户对单一页面的兴趣浓度。将二者相结合，就得到了用户感兴趣的主题类别及对每类主题的兴趣度，即用兴趣分类树表示的用户兴趣模型2 基于web浏览内容的用户兴趣分析本文中用户兴趣模型描述所基于的web浏览内容是指用户浏览页面的内容信息，它被用于基于内容的聚类分析。这些页面的内容信息主要来源于 web 服务器端，首先根据用户的浏览日志记录，得到单一用户的浏览历史页面 URL，然后从数据库服务器中取出这些 URL 对应的 web 页面，作为对浏览内容兴趣描述的数据源。2.1 对浏览网页信息的数据预处理与数据库中的结构化数据相比，web文档具有有限的结构，即使具有一些结构，也是着重于格式而非文档内容。此外，文档的内容是人类所使用的自然语言，计算机很难处理其语义。Web 文本信息源的这些特殊性使得现有的数据挖掘技术无法直接应用于其上。这就需要对文本进行预处理，抽取代表其特征的元数据，作为文档的中间表示形式。近年来应用较多且效果较好的特征表示法是向量空间模型(Vector Space ModelVSM) 法。在VSM 中，将文本文档看成由一组词条构成，对于每一词条，根据其在文章中的重要程度赋予一定的权重。因此，所有用于挖掘的页面文档都可以用词条特征矢量表示。要将文本表示为向量空间中的一个向量，就先要将文本分词，由这些特征词作为向量的维数来表示文本，最初的向量表示完全是0、l形式，即，如果文本中出现了该词，那么文本向量的该维为l，否则为0。这类方法无法体现这个词在文本中的作用程度，所以0、l逐渐被更精确的词频代替，词频分为绝对词频和相对词频。绝对词频，即使用词在文本中的出现频率表示文本；相对词频为规一化的词频，其计算方法主要运用TF-IDF公式，目前存在多种TF-IDF公式，我们可采用一种比较普遍的TF-lDF 公式：我们把用于挖掘的页面文档作为一个文档集合。这样对于文档集合 D = 中的任一文档，采用向量空间模型表示为： = 其中m 为文档特征向量的个数，为文档的第i个特征向量，为文档中的权值。2.2 页面相似度函数采用向量空间模型表示的数据，必须选择计算两个特征矢量之间相似性的相似度函数。现在常用的方法有欧几里德距离、曼哈坦距离和夹角余弦函数。我们在这里采用夹角余弦函数。但是在计算时可能会遇到用于比较的两个特征矢量长度不一样，我们可以采用添零补齐的方法使两者长度一致。夹角余弦函数如下：其中，C（X，Y）表示页面X与Y的相似度，与表示X与Y对应的特征词的权值。页面X与Y值越相似，C（X，Y）值越大；反之则越小。3 基于浏览行为的用户兴趣分析研究表明，用户很多浏览行为都能很好地反映用户的兴趣。文献[6]指出用户的很多动作都能暗示用户的喜好，如查询、浏览页面和文章、标记书签、反馈信息、点击鼠标、拖动滚动条、前进、后退等。文献[7]的研究指出用户访问时的停留时问、访问次数、保存、编辑、修改等动作能够揭示用户兴趣。这些行为究竟怎样反映用户的兴趣，我们需要对其进行量化估算。3 .1 浏览行为的分类从表面上看能揭示用户对网页P兴趣度d（P）的浏览行为很多，但我们