基于ICE-LDA模型的中英文跨语言话题发现研究-论文.pdfVIP

  • 9
  • 0
  • 约2.68万字
  • 约 7页
  • 2017-11-29 发布于湖北
  • 举报

基于ICE-LDA模型的中英文跨语言话题发现研究-论文.pdf

第49卷第2期 工程科学与技术 v01.49N。.2 2017年3月 ADVANCEDENGINEERINGsCIENCES Mar.2017 ·CTCIS se.201601032 2016推荐论文· DoI:10.15961/j.jsue 基于ICE-LDA模型的中英文跨语言话题发现研究 陈兴蜀1…,罗 梁2,王海舟1…,王文贤1芦,高悦2 (1.四川大学网络空间安全研究院,四川成都610065;2.四川大学计算机学院,四川成都610065) 摘要:近年来互联网在全球化的大背景下飞速发展,针对跨语言的网络数据挖掘成为国内外舆情分析的热点问 题,有效实时地检测中英文网络环境下的热点话题对舆情的掌握和舆情的发展有着至关重要的作用。网络新闻作 为网络信息舆情中的重要组成部分,由于互联网的大规模普及而成为人们方便快捷获知信息的重要来源。首先, 本文选择中文与英文的网络新闻作为数据源进行采集,提出了在LDA模型上改进的IcE-LDA模型进行跨英汉语 言网络环境下的共现话题发现。采用话题向量化的方式,对建模产生的话题进行Js距离检测和话题文本分布相 似度度量。其次,本文分别对爬虫采集到的中英混合新闻数据分别构建可对比平行语料集和非可对比语料集进行 话题建模,在建模过程中利用TF—IDF算法对文档提取特征词去噪,提高话题特征表示去除无意义噪音词。最后, 分别采用两种不同的话题向量化方式进行跨语言的共现话题发现建模。实验结果表明,在本文设计的爬虫采集构 建的真实数据集上,改进后的话题模型不仅能够在不需要先验话题对的情况下对可对比语料集进行跨语言共现话 题进行发现,而且能够对语料不平衡的情况进行共现话题发现。 关键词:话题发现;跨英汉文本;IcE—LDA模型;TF.IDF特征提取;共现话题 中图分类号:TP391 文献标志码:A 文章编号:2096_3246(2017)02_0100J07 andResearchon inChineseand Analysis Cro路LangImgeTopicDiscoVery EngIish 明删瓜咿^“1一,£∞&o增2,吼ⅣG胁挑∥,黝ⅣG耽般耐’“,cA0‰2 Research 0f (1.cybersecurityInst.,SichuaIluniv,,chengdu6l0065,china;2.CouegeComputerSci.,Sichuanuniv.,chengdu610065,China) the oftheIntemetunderthe of networkdatafor texts Abstract:with cross—language rapiddevelopment backFounddobalization,mining in hasbecomeone0fthemost researchneldsin hot and fortextsbotll

文档评论(0)

1亿VIP精品文档

相关文档