基于层次特征的变体短文本过滤算法.docVIP

下载本文档

55
0
约1.07万字
约 10页
2017-09-22 发布于安徽
举报
版权申诉

基于层次特征的变体短文本过滤算法.doc

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

基于层次特征的变体短文本过滤算法 5 10 15 20 25 30 35 40 摘要：为了规避常规过滤方法，微博、短信等中的有害短文本经常以不规整不正常的变体形式(即变体特征)出现。目前还对该问题还缺少有效解决方法。通过分析发现虽然变体特征千变万化，但实质上都是围绕核心关键词而演变出来的。本文根据变体特征提出了基于层次特征的变体短文本过滤算法。该算法首先找到底层的变体字特征；进而推导出高层的变体词特征；最后通过贝叶斯公式计算短文本有害的测度。实验结果表明，该方法在减少人工参与、提高处理效率和精度上都有较好的效果。关键词：关键词的层次特征；短文本过滤；变体短文本；中文文本中图分类号：TP391 A Variant Short Text Filtering Algorithm Based On the Level Features WEN Yuanxu, XU Weiran (Pattern Recognition and Intelligence System Laboratory, Beijing University of Posts and Telecommunications, Beijing 100876) Abstract: Many harmful short texts in Microblogs and SMSs are irregular and in unusual variant forms to circumvent conventional filtering methods. There is a lack of efficient solutions to this problem. We found that these texts still contain the keywords’ essential information with the letters’ variant appearances. This article suggests a variant short text filtering algorithm based on Level Features. According to the algorithm, finding keywords in different characteristics——level characteristics, improved Bayesian classifier to filter harmful short texts. Weighting level features eventually through short text contains keywords then getting the total weights of a text and filtering. The experimental results shows that the algorithm could reduce human involvement, improve processing efficiency and precision. Key words: Level Features of Keywords; Short Text Filtering; Harmful Short Texts; Chinese Texts 0 引言随着互联网和无线通信的不断发展，以微博为代表的互联网应用以及以手机短信为代表的手机应用已经广泛地融入人们的生活。据《中国互联网络发展状况统计报告（2012年7月版）》最新公布数据，截至2012 年6 月底，中国网民规模达到5.13 亿，全年新增网民5580 万；互联网普及率较上年底提升4个百分点，达到38.3%。中国手机网民规模达到3.56 亿，同比增长17.5%。我国手机用户已经在2012年3月达到9.997亿。与此同时，新浪微博的用户量在2012年初便超过三亿，每日有超过一亿条微博在互联网发布。在微博、短信中每天有数以亿计的短文本发出，这其中，有很多是有害的短文本。诸如垃圾、非法广告、诈骗、发票假证等有害短文本会被普通用户接收到，影响人们的正常生活，甚至会给部分用户带来财产损失和安全隐患。然而实际中，有害短文本为了规避常规方法的过滤，出现形式是不规整、不正常的，会有各种变体特征令传统方法无法正确识别和过滤。因此，研究变体短文本的智能识别算法具 -1- 有重要的意义。本文就是针对这类变体短文本提出了一种全新的算法。 45 50 1 问题分析及当前方法存在的缺陷过滤技术是目前对付有害短文本的主要手段，但采用现有的过滤方法时，现有的不管是基于关键词