- 4
- 0
- 约6.61万字
- 约 58页
- 2021-07-28 发布于湖北
- 举报
化工专业词典结构设计及中文分词系统的开发
摘要
中文分词是中文信息处理的重要的基础工作,是语义理解的最初
环节,中文分词的准确与否直接影响后期语义分析的质量。对于搜索
引擎而言,中文分词技术直接影响搜索结果,它是搜索引擎的核心技
术之一。
本文在研究现有中文分词技术的基础上,为了使中文分词技术适
用于化工专业搜索引擎,设计并实现了一个专门针对专业化工词汇的
中文分词系统,为化工专业领域的人士快速准确地获取信息提供帮
助。
本文设计和实现了系统界面和分词器,主要介绍了分词器的实
现,包括分词词典机制和分词算法。分词词典机制主要涉及词典的物
理结构和逻辑结构,采用基于字符串匹配的分词方法,结合化工专业
词汇的构词特点,提出一种基于TRIE索引树的改进结构,以达剑提
高分词结果准确率的目的。首字散列表由汉字内码哈希得到首宁的位
置,沿着指针可查询其他字;分词算法是根据索引树的结构设计的搜
索查询算法,沿着指针链搜索匹配字符。由词典建立和文件扫描方向
的彳同,可以进行正向匹配和逆向匹配验证分词结果。通过对系统进
行的分词速度测试和分词精度测试的测试结果进行分析,证明木系统
达到了预期目标,满足化工专业搜索引擎的分词需要,可以为化工领
域提
原创力文档

文档评论(0)