- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
智能搜索引擎中的中文信息分类过滤方法.pdf
信息技术高级研讨会烟台2001.7
智能搜索引擎中的中文信息分类过滤方法
段米毅刘启业钱晓军1
摘要:因特网上拥有浩如烟海、纷繁复杂的各种信息,为用户提供了一个极具价值的信
息源,我们设计了一个基于www的智能搜索引擎。该引擎的关键部分是中文信息分类过
滤.本文运用面向对象的建模技术OOMT分析了该系统的组成和功能,并介绍了该系统中
使用的中文信息分类过滤方法,最后对因特网中文信息的应用提出了我们的建议。
关键词:因特网自动分词自动分类对象建模
1引言
因特网上拥有浩如烟海的各种信息,包含了从技术资料、商业信息到新闻报道、娱乐
信息等多种类别和形式的信息,为用户提供了一个极具价值的信息源,如何能从纷繁复杂
的因特网信息资源中滤除垃圾,自动高效地搜索并获取有价值的信息是目前亟待解决的问
题,为此我们设计了一个基于w唧的智能搜索引擎。该引擎可根据预定频道,定期自动上
网搜索和挖掘信息,然后进行过滤和分类,去粗取精、去伪存真,最后将提取出的有价值
的信息存入数据库中,并在因特网上进行发布,实现网上信息搜集、整理、存储、发布、
检索的一条龙服务。
引擎的关键部分,在此分系统中我们采用了多种中文信息处理技术,提出了一种新型的中
文信息分类过滤方法。
2中文信息分类过滤模型
OrientedModel
我们用面向对象的建模技术00MT(Object ing
文信息分类过滤分系统的系统模型,如图1所示:
中文信息分类过滤分系统(FLGL)由两个功能分系统组成。它们是:中文信息自动分词
FLGL-ModeI=(O,R),其中,
O代表中文信息分类过滤分系统涵盖的一组对象类,用公式表达为:
OFLGL(ZDFC,ZDFL,ZDGL):
R表示关系,即对象类之间的语义联系,公式表达为:
R={FLGL由ZDFC,ZDFL,ZDGL组成)。
北京图形研究所
中国科技情报学会 北京科技情报学会
图1中文信息分类过滤分系统组成和功能框图
图中,中文信息分类过滤分系统的功能可以用公式表达为:
FFLGL{ZDFC,ZDFL,ZDGL)
这些功能是:
(1)中文信息自动分词(ZDFC)
对中文信息按照分词词库进行自动分词。
(2)中文信息自动分类(ZDFL)
根据分词结果,按照分类标准对中文信息进行分类,将信息划分到相应的类别。
(3)中文信息自动过滤(ZDGL)
按需要保留或滤除分类后的中文信息,存储到不同的数据库中。
图2中文信息分类过滤分系统执行流程
系统执行流程如图2所示,为了实现上述功能,我们在系统中结合了中文信息自动分
词和自动分类算法,下面分别对这两种算法进行介绍。
信息技术高级研讨会烟台2001.7 9
3系统算法
3.1中文信息自动分词算法
自动分词是汉语自然语言处理的第一步。本系统处理的是大量因特网上采集的中文网
页,因此分词的速度和分词算法的易实现性变得相当关键。在多种分词算法中,逆向最大
ReverseMaximum
匹配分词算法(The Method,简称RMM算法)简洁、易于实现,
Matching
在实际工程中应用最为广泛。但是,它是长词优先的机械匹配算法,存在着以下不足:①
速度慢。设分词词典的词条数为N,最大匹配词长为M,在词典的词条没有进行排序和索引
的极端情形下,为了识别出一个两字词须平均进行(M-2)N+N/2次扫描匹配。当词条数目N
比较大的时候,速度慢得难以忍受。②难以设定最大匹配词长M。M较大时,该算法的时间
复杂度明显提高(见表1)。为提高速度而降低M又将使算法不能识别汉字数目大于M的词,
导致切分精度降低。
表1分词实验结果
两字词根
文档评论(0)