- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
摘要
互联网进入web2.0时代以来,社交媒体作为用户之间交流的桥梁,每天产生数
量巨大的短文本信息,这些非结构化的短文本数据中蕴含着大量丰富信息,能用于反
应社会舆论、挖掘用户兴趣、建模用户情感。主题是蕴含在文本背后能够概括文本主
要中心思想的一组术语或关键字,可以准确的传递文本所要表达的含义。然而,在非
结构化的短文本数据中通常难以直接获取所期望的主题信息,而人工阅读文本分析主
题耗时又费力。因此,从这些海量非结构化的短文本数据中自动的挖掘出精简且有价
值的主题信息是非常具有研究意义和价值的。
主题模型能够以无监督的方式从原始文本中提取出文本的主题信息,神经主题模
型主要利用神经网络将单词和文本的潜在概率分布形式化为固定长度的向量空间。然
而,神经主题模型的方法应用于短文本存在局限性。短文本一般具有歧义性、稀疏性
和不规范性等特点。神经主题模型大多针对短文本稀疏性进行文本建模,较少考虑到
短文本的歧义性和不规范性。因此,针对短文本的特点,本文基于神经网络的基础架
构融合弱监督语义信息、自监督语义信息、外部语义信息缓解短文本的歧义性、稀疏
性、不规范性,并为其设计主题模型。具体地,本文的主要工作及创新点如下。
1)在应对短文本的歧义性时,现有神经主题模型无法有效利用文本的先验语义信
息,本文提出标签条件神经主题模型,该模型使用文本的类别标签信息作为文本的先
验信息,在神经主题模型的解码器重构文本向量时,指导模型生成与类别先验、主题
语义相关的文本向量,可以在特定语境中准确理解歧义词的含义,并推断出离散一致
的主题。此外,在模型训练中引入泰勒损失,缓解短文本类别分布不平衡的问题。实
验结果表明这种方法能够有效提升现有神经主题模型的主题连贯性和主题多样性。
2)在应对短文本的稀疏性时,现有神经主题模型中文本的稀疏表达导致生成的主
题质量不高,本文提出对比学习神经主题模型。该模型在标签条件神经主题模型基础
上融入自监督语义信息来缓解短文本稀疏性,主要利用对比学习的思想来学习样本数
据的特征表达。具体体现为在编码器生成的主题特征空间上划分正负样本,即与原始
文本语义相近的文本表示称为正样本,反之为负样本。对比学习通过损失函数着重学
习原始文本与正样本之间的共同特征,区别原始文本与负样本之间的不同之处。实验
结果表明,所提方法对比当前代表方法主题连贯度和主题多样性有进一步提升。
3)在应对短文本的不规范性时,现有神经主题模型无法准确表达细粒度词汇非正
交的语义信息,本文提出语义融合神经主题模型。该模型在对比学习神经主题模型基
础上融入外部语义信息来缓解短文本的不规范性,通过引入基于神经网络的词嵌入作
为外部语义信息,将语义相近的词在解码器重构文本向量时对齐到同一个嵌入空间
中。实验结果表明,所提方法能够有效提升主题模型对不规范表达的鲁棒性。
关键词:短文本;主题模型;神经网络;泰勒损失;对比学习;词嵌入;
ABSTRACT
SincetheInternetenteredtheweb2.0era,socialmedia,asabridgeforcommunication
amongusers,generatesahugeamountofshorttextinformationeveryday.These
unstructuredshorttextdatacontainalotofrichinformation,whichcanbeusedtoreflect
socialopinion,exploreusersinterestsandmodeltheiremotions.Atopicisasetoftermsor
keywordsembeddedbehindatextthatsummarizesthemainideaofthetextandcan
accuratelyconveythemeaningofthetext.However,itcanbechallengingtoextract
relevanttopicinformationfromunorganized,brieftextualdata,anditistime-consuming
andlaborioustoanalyz
您可能关注的文档
- 初中生物学教学中培养学生健康意识的实践研究——以呼和浩特市M中学为例.pdf
- 初中生物学教学中运用“问题教学法”培养学生自主学习能力的实践研究.pdf
- 初中生物学课程思政视域下培养态度责任实践研究——以《生物学》七年级上册为例.pdf
- 初中生物学课堂教学中问题情境创设的实践研究.pdf
- 初中生物学跨学科教学设计与实践研究.pdf
- 初中生物学实验的优化与拓展研究——以鲁科版初中生物学教材实验为例.pdf
- 初中生物学探究性实验ADDIE教学模型的实践研究.pdf
- 初中生物学微课设计与应用研究.pdf
- 初中生物学与地理跨学科教学的设计与实践研究——以人教版生物学七年级上册为例.pdf
- 初中生学业负担问卷的编制及其与学业拖延的关系.pdf
文档评论(0)