面向大规模信息检索的中文分词技术研究.pptVIP

下载本文档

0
0
约1.08万字
约 73页
2017-08-25 发布于江苏
举报

面向大规模信息检索的中文分词技术研究.ppt

面向大规模信息检索的中文分词技术研究王小飞指导教师：王斌前瞻研究中心 2006-6-6 提纲一、引言二、面向大规模中文信息检索的分词算法三、基于双数组Trie树优化算法的词典四、歧义消除五、未登录词识别六、查询扩展层面的覆盖歧义处理七、实验结果和分析八、总结一、引言研究意义信息检索简介中文分词简介常用评测指标研究意义分词技术的广泛应用：信息检索、人机交互、信息提取、文本挖掘等。目前对分词的研究，大都集中于通用的分词算法，以提高分词准确率为目的。目前的分词算法中，一些切分精度比较高的算法，切分的速度都比较慢；而一些切分速度快的算法，因为抛弃了一些繁琐的语言处理，所以切分精度都不高。速度：每秒几十k~几M 切分正确率：80%～98% 研究意义针对一项具体的上层应用来研究相关的分词技术，这样便于有一个比较确定的分词规范和目标，然后可以有针对性的在分词算法方面有所突破。信息检索：目前跟人们生活最接近，应用最频繁而且技术发展也最成熟的一项信息处理技术。信息检索简介信息检索(Information Retrieval, IR)：对收集的信息进行标引(Index)，在接收到用户提交的查询请求以后在标引过的数据中进行查找，然后将查找到的相关结果信息返回给用户。中文分词简介和困难中文分词(Chinese Word Seg

您可能关注的文档

文档评论（0）

1亿VIP精品文档

更多 >

面向大规模信息检索的中文分词技术研究.pptVIP