基于短文本的舆情本体概念的抽取研究.docVIP

下载本文档

3
0
约3.88千字
约 6页
2018-11-27 发布于湖北
举报
版权申诉

基于短文本的舆情本体概念的抽取研究.doc

1、本文档共6页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
5、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
6、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
7、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
8、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

基于短文本的舆情本体概念的抽取研究　　摘要：针对现有的本体学习方法难以适应短文本类型新闻媒体资讯由原来的长文本转为短文本的情形。本文提出了一种“基于短文本的舆情本体概念的抽取方法”。短文本语料经过词频统计，其词频呈现数据稀疏现象，经过词频调整后参加后续概念抽取过程。短文本的描述信息较差。如果采用向量空间模型来表征短文本会造成向量空间的语义缺失和高维稀疏，所以本文使用集合空间来计算文档相似度，抽取与主题相关的核心概念。实验结果理想。　　关键词：舆情本体；概念抽取；短文本；集合　　中图分类号：TP31 文献标识码：A 文章编号：1009-3044（2018）14-0219-02 　　Abstract： In view of the existing ontology learning method， it is difficult to adapt to short text type news media information from original long text to short text. This paper proposes a short text based ontology concept extraction method. After word frequency statistics， short word frequency data show sparse data. After word frequency adjustment， it takes part in subsequent concept extraction process. The description information of short text is poor. If using vector space model to characterize short text will cause semantic loss and high dimension sparsity in vector space， this paper uses set space to calculate document similarity and extract the core concepts related to the subject. The results of the experiment are ideal. 　　Key words： public opinion ontology； concept extraction； short text； gather 　　1 引言　　?S着信息技术的快速发展，人们对网络信息的需求越来越旺盛，个人手机的普及促使短文本型新闻大量产生，成为网络舆情的重要载体，将从短文本语料中抽取到的舆情知识形成舆情本体，可持续支持后期的舆情分析与监管。　　2 相关工作　　由于计算机无法直接使用短文本的文字，所以计算机首先需要建立短文本表示模型来描述短文本特征。因短文本的实时特点，基于向量空间模型的聚类方法应用到社交网络短文本时面临着复杂度高、特征稀疏度高、噪声干扰大等。所以本文使用集合空间替代向量空间来计算文档相似度。　　由于短文本的稀疏性，所以它的特征空间维数大。国外M Sahami TD Heilman等人使用搜索引擎返回的有关信息作为扩展值[1]；Danesh Irani等人扩充twitter上的话题趋势作为特征项[2]；Xuan-HieuPhan使用主题模型的隐含主题作为特征项[3]；Bharath Srkam用短文本的作者的个人注册信息作为特征项[4]。国内王鹏等利用依存关系抽取上下位词扩充短文本特征集合[5]；宁亚辉等提出基于领域词语本体的短文本分类[6]；王细薇等人引入知网语义信息，用FP.Growth方法挖掘数据的扩展关系来分类[7]。以上方法全是学者研究短文本的特征提取扩展方式，但并没有考虑到使用数学工具来调整统计词频的方式，以达到缩短特征项计算时间。　　3 基于短文本的舆情本体概念抽取方法　　本文受舆情本体概念的抽取研究[8]的启发，针对短文本的两个问题，分别使用算法予以解决。　　3.1短文本文档相似度　　短文本的实时性强，数量庞大，这些都要求处理短文本的方法需要具有较高效率，这就要求短文本相关的计算具有很高的处理速度，为此本文提出简化算法。相似度主要取决于两个短文本的共现词语。如图1，C为短文本A特征词集合和短文本B特征词集合的交集，集合C的元素个数即为共现数。　　当使用集合空间算法时，计算短文本A和短文本B的共现数作为短文本A和短文本B的相似度的参数，共现数是两个集合交集的元素数目，因为n大于m，相似度为共现数除