提取兴趣标签extracting interest tags.pdfVIP

下载本文档

5
0
约10.5万字
约 21页
2023-08-19 发布于四川
举报
版权申诉

提取兴趣标签extracting interest tags.pdf

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

息。我们的方法不需要用户发布文本信息，即可以用来为社交网络中关注少数知名用户的任何用户提取兴趣标签。我们将我们的方法提取的兴趣标签与现有最先进方法提取的兴趣标签进行比较。我们发现，通过我们的方法提取的兴趣标签无论在准确性还是召回率上都远远优于其他方法，并且我们的方法更适用于许多个性化应用。本文的其余部分安排如下。第 2 节讨论了相关工作。第 3 节介绍了推断著名用户的主题专业知识的方法。第 4 节介绍了所提出的用于提取非名人用户兴趣标签的监督 LDA 模型。第 5 节描述了实验设置和结果。最后，第 6 节得出结论。 2.相关工作在本节中，我们简要回顾一些密切相关的工作，并指出与我们自己的工作相比的差异，以及我们比较方法的细节。之前的大多数研究试图从用户发布或转发的推文中挖掘用户的兴趣[6,7,9,12,14,15]，主要使用 LDA 等主题模型。徐等人。提出了一种名为 -user 模型的改进的作者主题模型，通过从聚合的用户推文中过滤掉与兴趣无关的推文来发现用户在上感兴趣的主题[15]。对于每条推文，他们引入了一个潜在变量来指示它是否与其作者的兴趣相关。人。开发了一种名为 -LD A 的新主题模型，通过将每条推文限制为一个主题和一个公共背景主题来提高主题质量[18]。奎西亚等人。使用监督主题模型标记潜在雷分配” （La-beled LDA）推断用户感兴趣的主题，并表明它比其他 LDA 更有效 [8]。具体来说，带标签的 LDA 使用与传统 LDA 相同的底层机制，但每个主题都带有一个标签（即研究人员选择的单词），以帮助锚定主题提取过程。奎西亚等人。使用一些文本分类 API 标记每个用户，而 Ottoni 等人。从所有推文中选择 300 个最常见的哈希标签作为主题标签[7]。此外，巴塔等人。使用 Labeled LDA 作为最具竞争力的基线来展示他们的方法在中推断用户兴趣的有效性 [1]。其他一些方法同时使用推文和网络信息，从推文中挖掘用户感兴趣的主题，然后基于随机游走等技术，根据底层社交网络对用户的兴趣重新排序 [9, 14]。斯等人。提出了一种名为 tag-LDA 的主题模型来同时对标记文档的单词和标签的生成过程进行建模[12]。毕竟，上述所有方法都依赖于推文内容。然而，用户经常发布有关他们日常生活或与朋友交谈的吵闹推文，这些内容通常与他们的兴趣无关[2,13,15]，并且 82.2% 用户每年发布的推文少于 100 条 [ 4]，这两者都使得从推文中推断出有意义的兴趣变得困难。为了解决这个问题，大多数先前的研究都集中在用户的其他特征，例如传记和网络信息，并纳入了额外的信息，例如维基百科和人类努力[1,2,4,5]。巴塔等人。首先根据著名用户的列表特征推断出他们的话题专长，然后间接推断出关注他们的用户的兴趣[1]。尽管他们的方法对于推断著名用户的主题专业知识非常有效，但对于非名人用户来说效果不佳。我们的实验表明，它总是向非名人用户推荐一些著名的常见标签，例如名人”、新闻”、媒体”等。丁等人。从用户传记中提取兴趣标签，并使用基于自动构建的标记数据的顺序标记模型[2]。然而，他们的方法在很大程度上取决于用户传记的可用性，实际上只有 22% 的用户在他们的个人资料上有传记[1]， Ding 等人。据透露，只有 28.8% 的传记包含有意义的兴趣标签。那么即使在最理想的情况下，他们也只能为中的 6.336% 用户推荐兴趣标签。拉帕斯等人。使用两个标准 L DA 模型来推断热门用户的著名方面，分别对非名人用户的关注者和名人用户的推文以及其他相关文本（例如以姓名作为查询的搜索结果）的生成过程进行建模）[4]。他们的方法的问题在于，他们没有考虑著名用户之间的相似性，将每个著名用户视为一个唯一的 ID。我们提出的模型 Bi