网络舆情文摘生成技术中相似度与聚类研究.pdf

网络舆情文摘生成技术中相似度与聚类研究.pdf

哈尔滨T秤火学硕+学何论文 摘 要 网络舆情文摘生成技术成为近年来研究的热点,这些技术一向是国内外 信息工作者关注的领域。舆情文摘生成系统是网络舆情监控系统的一个子系 统,舆情监控系统的核心技术在于舆情分析引擎,涉及的最主要的技术包括 文本分类、聚类、观点倾向性识别、主题检测与跟踪、自动摘要等计算机文 本信息内容识别技术。 课题在黑龙江东北网络台开发黑龙江省网络宣传舆情监控系统的项目下 完成,实现了互联网舆情信息文摘生成中的相似度计算和聚类两个技术难点。 重点阐述了相似度算法的优化,并进行了设计与测试,利用互联网数据进行 了验证。选择了不同聚类算法,利用实验验证了所选聚类算法的合理性。 论文论述了互联网舆情文摘生成技术中的相似度计算、聚类生成过程和 文摘句的抽取。通过基于词频相似度计算、基于依存结构和增加语义依存结 构的相似度的计算的论述,说明了相似度计算方法的不断改进,其精确度越 来越高,它的准确性将直接影响句子的压缩、合并、以及最后的生成。文本 的聚类是文摘生成系统中承接相似度计算和文摘抽取生成的环节,直接影响 着文摘的质量。通过实验证明了平均距离法是计算类问距离的一种较有效的 方法,通过计算分类

文档评论(0)

1亿VIP精品文档

相关文档