面向大规模信息检索的中文分词技术研究.pptVIP

  • 0
  • 0
  • 约1.08万字
  • 约 73页
  • 2017-08-25 发布于江苏
  • 举报

面向大规模信息检索的中文分词技术研究.ppt

面向大规模信息检索的中文分词技术研究 王小飞 指导教师:王斌 前瞻研究中心 2006-6-6 提纲 一、引言 二、面向大规模中文信息检索的分词算法 三、基于双数组Trie树优化算法的词典 四、歧义消除 五、未登录词识别 六、查询扩展层面的覆盖歧义处理 七、实验结果和分析 八、总结 一、引言 研究意义 信息检索简介 中文分词简介 常用评测指标 研究意义 分词技术的广泛应用:信息检索、人机交互、信息提取、文本挖掘等。 目前对分词的研究,大都集中于通用的分词算法,以提高分词准确率为目的。 目前的分词算法中,一些切分精度比较高的算法,切分的速度都比较慢;而一些切分速度快的算法,因为抛弃了一些繁琐的语言处理,所以切分精度都不高。 速度:每秒几十k~几M 切分正确率:80%~98% 研究意义 针对一项具体的上层应用来研究相关的分词技术,这样便于有一个比较确定的分词规范和目标,然后可以有针对性的在分词算法方面有所突破。 信息检索:目前跟人们生活最接近,应用最频繁而且技术发展也最成熟的一项信息处理技术。 信息检索简介 信息检索(Information Retrieval, IR):对收集的信息进行标引(Index),在接收到用户提交的查询请求以后在标引过的数据中进行查找,然后将查找到的相关结果信息返回给用户。 中文分词简介和困难 中文分词(Chinese Word Seg

文档评论(0)

1亿VIP精品文档

相关文档