智能搜索引擎中的中文信息分类过滤方法.pdfVIP

下载本文档

3
0
约6.09千字
约 6页
2017-03-23 发布于广东
举报
版权申诉

智能搜索引擎中的中文信息分类过滤方法.pdf

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

智能搜索引擎中的中文信息分类过滤方法.pdf

信息技术高级研讨会烟台2001．7 智能搜索引擎中的中文信息分类过滤方法段米毅刘启业钱晓军1 摘要：因特网上拥有浩如烟海、纷繁复杂的各种信息，为用户提供了一个极具价值的信息源，我们设计了一个基于www的智能搜索引擎。该引擎的关键部分是中文信息分类过滤．本文运用面向对象的建模技术OOMT分析了该系统的组成和功能，并介绍了该系统中使用的中文信息分类过滤方法，最后对因特网中文信息的应用提出了我们的建议。关键词：因特网自动分词自动分类对象建模 1引言因特网上拥有浩如烟海的各种信息，包含了从技术资料、商业信息到新闻报道、娱乐信息等多种类别和形式的信息，为用户提供了一个极具价值的信息源，如何能从纷繁复杂的因特网信息资源中滤除垃圾，自动高效地搜索并获取有价值的信息是目前亟待解决的问题，为此我们设计了一个基于w唧的智能搜索引擎。该引擎可根据预定频道，定期自动上网搜索和挖掘信息，然后进行过滤和分类，去粗取精、去伪存真，最后将提取出的有价值的信息存入数据库中，并在因特网上进行发布，实现网上信息搜集、整理、存储、发布、检索的一条龙服务。引擎的关键部分，在此分系统中我们采用了多种中文信息处理技术，提出了一种新型的中文信息分类过滤方法。 2中文信息分类过滤模型 OrientedModel 我们用面向对象的建模技术00MT(Object ing 文信息分类过滤分系统的系统模型，如图1所示：中文信息分类过滤分系统(FLGL)由两个功能分系统组成。它们是：中文信息自动分词 FLGL-ModeI=(O，R)，其中， O代表中文信息分类过滤分系统涵盖的一组对象类，用公式表达为： OFLGL(ZDFC，ZDFL，ZDGL)： R表示关系，即对象类之间的语义联系，公式表达为： R={FLGL由ZDFC，ZDFL，ZDGL组成)。北京图形研究所中国科技情报学会北京科技情报学会图1中文信息分类过滤分系统组成和功能框图图中，中文信息分类过滤分系统的功能可以用公式表达为： FFLGL{ZDFC，ZDFL，ZDGL) 这些功能是： (1)中文信息自动分词(ZDFC) 对中文信息按照分词词库进行自动分词。 (2)中文信息自动分类(ZDFL) 根据分词结果，按照分类标准对中文信息进行分类，将信息划分到相应的类别。 (3)中文信息自动过滤(ZDGL) 按需要保留或滤除分类后的中文信息，存储到不同的数据库中。图2中文信息分类过滤分系统执行流程系统执行流程如图2所示，为了实现上述功能，我们在系统中结合了中文信息自动分词和自动分类算法，下面分别对这两种算法进行介绍。信息技术高级研讨会烟台2001．7 9 3系统算法 3．1中文信息自动分词算法自动分词是汉语自然语言处理的第一步。本系统处理的是大量因特网上采集的中文网页，因此分词的速度和分词算法的易实现性变得相当关键。在多种分词算法中，逆向最大 ReverseMaximum 匹配分词算法(The Method，简称RMM算法)简洁、易于实现， Matching 在实际工程中应用最为广泛。但是，它是长词优先的机械匹配算法，存在着以下不足：① 速度慢。设分词词典的词条数为N，最大匹配词长为M，在词典的词条没有进行排序和索引的极端情形下，为了识别出一个两字词须平均进行(M-2)N+N／2次扫描匹配。当词条数目N 比较大的时候，速度慢得难以忍受。②难以设定最大匹配词长M。M较大时，该算法的时间复杂度明显提高(见表1)。为提高速度而降低M又将使算法不能识别汉字数目大于M的词，导致切分精度降低。表1分词实验结果两字词根