一种关键字过滤系统下的DFA分词算法设计与优化.pdfVIP

一种关键字过滤系统下的DFA分词算法设计与优化.pdf

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
一种关键字过滤系统下的DFA分词算法设计与优化.pdf

第29卷第1期 计算机应用与软件 V0I.29No.1 2012年 1月 ComputerApplicationsandSoftware Jan.2012 一 种关键字过滤系统下的DFA分词算法设计与优化 刘 利 俊 (杭州科技职业技术学院电教网络 中心 浙江 杭州 310012) 摘 要 lnternet的迅猛发展和电子商务应用的 日益普及,越来越多的网络应用程序需要高效地对违禁用语、禁限售商品等关键 字进行高效过滤和处理。分析关键字过滤的基本啄理,对现有关键字过滤算法进行 了优化和功能增强,设计并实现了一个实时环境 下互联 网关键字过滤系统。 关键词 中文分词 DFA 双数组 中图分类号 TP301 文献标识码 A A DFA PARTICIPLE ALGORITHM DESIGN AND OPTIM IZATIoN IN A KEYW oRD FILTRATIoN SYSTEM LiuLiiun (Center0厂ElectrfiiedEducationandNetwork,HangzhouAcademyofScientcProfessionalTechnology,Hangzhou310012,Zhejiang,China) Abstract WiththerapiddevelopmentofInternetandpopularizationofE—business,moreandmorenetworkapplicationsneedtoefficiently filterandhandlesuchkeywordsasforbiddenlanguagesandforbidden/restrictedcommoditynames.Thepaperanalyzesthebasicprinciplesof keywordfiltration,optimizestheexistingkeywordsfiltrationalgorithm andenhancesitsfunction,anddesignsandrealizesarealtimeInternet keywordfiltrationsystem. Keywords Chineseparticiple DFA Doublearray 占用情况。 0 引 言 1.2 文档预处理 由于文档中不仅包含文本信息,还包括了格式等信息,在扫 Internet的迅猛发展对企业发展和个人生活都产生了深刻 描的过程中,需要对文档本身进行可读信息部分的提取。互联 影响,互联网在给我们带来海量有用信息的同时也带来了大量 网信息基本以HTMI文档为主,预处理的主要工作是:HTMI 的不良信息,如何对互联网信息进行有效的内容监测是亟待解 文档的标签去除,繁体字向简体字转化,特殊符号剔除,同音字 决的问题。目前 ,通常采用关键字过滤系统对这些不 良信息进 处理,全角字符向半角字符转化等。 行甄别和处理,这些系统的实施对不 良信息的过滤起到了一定 1.3 文档扫描 的效果,但同时也还存在一些不足之处:不良信息的传播者经常 文档分为历史文档和实时显示文档,对于文本的扫描非常 通过改变关键字的形式来躲过检查,关键字过滤算法在实时环 耗费CPU资源。因为文档的大小是动态的,我们可能对 1k或 境下还不够高效等。通过对现有的关键

文档评论(0)

过各自的生活 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档