化工专业词典结构设计及中文分词系统的开发.pdfVIP

  • 4
  • 0
  • 约6.61万字
  • 约 58页
  • 2021-07-28 发布于湖北
  • 举报

化工专业词典结构设计及中文分词系统的开发.pdf

化工专业词典结构设计及中文分词系统的开发 摘要 中文分词是中文信息处理的重要的基础工作,是语义理解的最初 环节,中文分词的准确与否直接影响后期语义分析的质量。对于搜索 引擎而言,中文分词技术直接影响搜索结果,它是搜索引擎的核心技 术之一。 本文在研究现有中文分词技术的基础上,为了使中文分词技术适 用于化工专业搜索引擎,设计并实现了一个专门针对专业化工词汇的 中文分词系统,为化工专业领域的人士快速准确地获取信息提供帮 助。 本文设计和实现了系统界面和分词器,主要介绍了分词器的实 现,包括分词词典机制和分词算法。分词词典机制主要涉及词典的物 理结构和逻辑结构,采用基于字符串匹配的分词方法,结合化工专业 词汇的构词特点,提出一种基于TRIE索引树的改进结构,以达剑提 高分词结果准确率的目的。首字散列表由汉字内码哈希得到首宁的位 置,沿着指针可查询其他字;分词算法是根据索引树的结构设计的搜 索查询算法,沿着指针链搜索匹配字符。由词典建立和文件扫描方向 的彳同,可以进行正向匹配和逆向匹配验证分词结果。通过对系统进 行的分词速度测试和分词精度测试的测试结果进行分析,证明木系统 达到了预期目标,满足化工专业搜索引擎的分词需要,可以为化工领 域提

文档评论(0)

1亿VIP精品文档

相关文档