关于BBS文本信息的中文自动分词系统的研究.pdf

关于BBS文本信息的中文自动分词系统的研究.pdf

基于BBS文本信息的中文自动分词系统的研究 摘要 in Boards System)的开设为广大网络用户开辟了自由发表言论的空间,但一些不健 康的、反动的言论也给我们的社会和国家带来了负面影响。如何准确的从大量用 户言论中有效的清除不文明及反动言论成为当前网络管理人员越来越关心的问 题。传统的BBS管理方法随着所拥有信息量的急剧增大,不但显得滞后且效率低下 已很难适应时代的发展。数据挖掘正是为了解决传统分析方法的不足,针对大规 模数据的分析处理而出现的。因此,如何应用数据挖掘技术来有效、快速地实现 BBS的安全管理工作就成为各网站越来越关注的热点。 目前针对BBS文档的鉴别与过滤还不成熟。由于BBS的特殊性,用于普通Web 文档和电子邮件的鉴别技术在用于鉴另tJBBS文档时效果并不理想。研究对BBS文 本内容进行数据挖掘,发现并自动删除不健康及反动言论,对网络管理有着非常重 要的现实意义。在处理大量文档时,需要从大量文档数据中分析和提取有用信息, 需要相关的工具完成不同文档的比较,以及文档重要性和相关性的排列,或找出多 文档的模式或趋势。因此,文本挖掘就成为数据挖掘中一个日益流行而重要的研 究课题。 文本挖掘即文本数据库中的知识发现,它是数据挖掘的一个分支。文本挖掘 作为从浩瀚的文本数据中发现潜在的有价值知识的一种有效技术,已经成为近年 来的研究热点。基于BBS的文本挖掘就是从BBS的内容或其描述中提取所需信息 的过程,它在BBS的管理中扮演着越来越重要的角色。 对中文文本进行分析的一个前提条件是对中文文本进行分词处理,中文分词 是中文信息处理领域中的基础课题,也是一个难点问题。由于中文文本是按旬连 写的,词间无间隙,按句连写转换成按词连写,词的正确切分是进行中文文本处 理的必要条件,它是一切工作的基础。本文的主要工作就是设计和实现一种快速 分词算法,将BBS用户提交给服务器准备发送的内容截获并保存在文本文件中, 并对这些文本文件进行分词处理,为下一步的文本分类及实现文本挖掘的要求和 BBS的安全管理打下基础。 本文采集登录BBS站点的每一用户基本信息(IP地址、用户名、信用等级 等),将用户提交给服务器准备发送的内容截获并保存在文本文件中,建立了文本 数据库,并在分析汉字编码系统和汉语词特点的基础上,采用hashmap组织词典, 建立了分词词典,最后设计和实现了一种快速分词算法,即正向最大匹配+姓名 识别,这种分词算法在试验中证明实用性强,分词速度快,准确率高,能识别数 字、名字,基本满足我们管理BBS的需要。 关键词BBS文本挖掘分词词典自动分词 onthe ofChi nese i c Study System AutomatWord i onBasedText Segmentat on I nformati ORofBBS Abstract Withthe ofInternet havebeenmoreandmoreall developmentTechnology,there kindsofnetwork service.The ofBulletinBoards application application System(BBS) has a communicationalfornetwork some providedfreely space users,butunhealthy andreactive wordshaveabadeffecton and of outcountrysociety.The

文档评论(0)

1亿VIP精品文档

相关文档