模式匹配论文:基于内容的Internet Web中文信息过滤.docVIP

模式匹配论文:基于内容的Internet Web中文信息过滤.doc

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
模式匹配论文:基于内容的Internet Web中文信息过滤

模式匹配论文:基于内容的Internet Web中文信息过滤 【中文摘要】本论文研究的主要内容为基于内容的中文网络信息过滤。在论文的撰写过程中,首先深入研究了模式匹配中的一些经典算法,包括算法流程,匹配思想以及时空性能。并对英文语境进行了分析,了解到在英文中字母使用较平均的特点。经典模式匹配算法之所以有着良好的性能,正是由于其充分利用了英文语境的这一特点。但在对中文语境进行分析之后可发现,中文语言特点与英文有着极大的不同,主要表现为中文语境中汉字使用频率分布极为不平衡。因此将适用于英文语境的模式匹配算法直接移植到中文语境当中并不可取。本文充分利用了中文语境的特点,改进了经典的模式匹配算法,根据汉字使用频率调整了字符串匹配中的比较顺序,从而使得算法效率得到了提高,并通过实验加以验证,证实了改进的正确性与合理性。此外,中文语境中存在着一些更为独特的特点,本文针对其中的同音字、形近字这一现象,利用它们发音相似的特点,提出了一种利用拼音转换提高匹配准确率的方法。相比字符串直接匹配的方法,这种方法显得更加智能,更加面向使用计算机的人,而非计算机。同样,拼音转换的方法也通过实验得到了验证。最后,本文通过编程实现了一个小型的代理服务器,并将改进后的模式匹配算法与拼音转换算法嵌入程... 【英文摘要】The main contents of this paper are to filter Chinese information in the network. Firstly, I researched some classic algorithms in the field of Pattern Matching including the process of the algorithm, the idea of the matching and the performance of time and space. After the analysis of English context, I find that the frequency of letter using in English is so average that the classic algorithms could have a good performance. However, after the analysis of Chinese context, there is a great difference betwee... 【关键词】模式匹配 内容过滤 拼音转换 代理服务器 【英文关键词】Pattern Matching Content Filtering PINYIN Transferring ProxyServer 【目录】基于内容的Internet Web中文信息过滤 致谢 5-6 中文摘要 6-7 ABSTRACT 7 序 8-11 1 引言 11-14 1.1 研究背景与意义 11-12 1.2 研究内容 12 1.3 论文组织结构 12-14 2 相关内容介绍 14-26 2.1 模式匹配技术 14-17 2.1.1 模式匹配定义 14 2.1.2 模式匹配分类 14 2.1.3 模式匹配应用领域 14-15 2.1.4 模式匹配发展 15-17 2.2 模式匹配算法 17-23 2.2.1 单模式匹配算法 17-20 2.2.2 多模式匹配算法 20-23 2.3 过滤系统介绍 23-26 2.3.1 现有产品介绍 23-24 2.3.2 过滤系统发展趋势 24-26 3 基于中文语境的过滤系统设计 26-45 3.1 过滤系统组成模块 26-27 3.2 系统模块设计 27-29 3.2.1 数据抽取 27 3.2.2 词典维护 27-28 3.2.3 文本处理 28-29 3.2.4 审核过滤 29 3.3 算法设计 29-39 3.3.1 拼音转换算法 29-31 3.3.2 改进的模式匹配算法 31-39 3.4 算法性能分析 39-45 4 基于中文语境的过滤系统实现 45-57 4.1 系统介绍 45-46 4.2 系统实现 46-52 4.2.1 系统界面 46-48 4.2.2 内存管理 48-49 4.2.3 词典维护 49-50 4.2.4 数据抽取 50 4.2.5 文本处理 50-51 4.2.6 审核过滤 51 4.2.7 其他主要函数 51-52 4.3 系统功能测试 52-57 5 结论 57-58 5.1 工作总结 57 5.2 下一步展望 57-58 参考文献 58-60 附录A 60-65 作者简历 65-67 学位论文数据集 67

文档评论(0)

hhuiws1482 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

版权声明书
用户编号:5024214302000003

1亿VIP精品文档

相关文档