基于降维的短信文本语义分类及主题提取[J].pdfVIP

基于降维的短信文本语义分类及主题提取[J].pdf

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
Computer Engineering and Applications 计算机工程与应用 2010 ,46 (23 ) 159 基于降维的短信文本语义分类及主题提取 刘金岭 LIU Jin-ling 淮阴工学院 计算机工程系,江苏 淮安 223003 Huaiyin Institute of Technology ,Huai ’an ,Jiangsu 223003 ,China E-mail :liujinlingg@ 126.com LIU Jin-ling.Dimensionality reduction of short message text classification and thematic extraction of semantic.Comput- er Engineering and Applications ,2010 ,46 (23 ):159-161. Abstract :In order to predict Chinese short message opinion quickly ,the short message text dimensionality reduction is ob- tained by using synonymous terms and the upper and lower merge ,and then the mass short message classification algorithm for the extraction and classification of the subject is given.Test shows that the method can greatly improve the public opin- ion of the speed and quality of forecasts. Key words :classification ;short message text ;dimensionality reduction ;theme 摘 要:为了对中文短信文本进行快速的舆情预测,利用对同义关系词汇归并和上下位词汇聚焦以及种子词汇的确定来实现对 短信文本空间的降维,而后又给出了海量短信文本分类的算法及分类主题的提取。实验表明该方法可以大大提高舆情预测的速 度和质量。 关键词:分类;短信文本;降维;主题 DOI :10.3778/j.issn. 1002-8331.2010.23.045 文章编号:1002-8331(2010 )23-0159-03 文献标识码:A 中图分类号:TP311 短信的使用己渗透到社会的各个领域,与此同时,通过短 语义项选取,词语的词性信息和上下文信息,而是简单地选取 信传播非法、色情,以及垃圾信息的现象也随之增多,且其带 词语义项中的最大的相似度作为词汇的语义相似度。这样会 来的损失也在不断地增大。因此,进行海量短信信息的研究 导致词汇的语义相似度与词汇在文本中真正的语义相似度不 分析,建立有效、准确的舆情预测模式,就显得十分重要。短 一致的情形发生,在降维过程中会降低文本分类的质量。基 信具有其自身的特点:(1)长度比较短,通常出现的是不会超 于此,针对短信文本的特点,利用文献[5]基于义原给出的词汇 过140个字符的短信用语;(2 )频繁使用网络语言以及缩略语; 和短信文本相似度的概念,给定一个阈值,将群发、转发和频 (3)由于群发,转发,下载短信行为频繁,短信库中存在大量的 繁下载(内容略改)用一个样本数据代替;由于短信息比较短, 重复短信。因此,基于短信的文本分类必须面对这些特点,开 又频繁使用网络语言以及缩略语,结合自然语言处理(NLP )的 发适应性技术。现有的文本分类方法主要有支持向量机 知识,考虑词语在文本中的词性信息,根据概念间的相互关 (SVM)、K 最近邻(KNN )、决策树、线性最小二乘法估计 系,对同义概念进行语义归并,对上下位概念进行语义聚焦及 (LLSF )和贝叶斯分类算法(Bayes )等。VSM (Vect

文档评论(0)

sxym26 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档