- 0
- 0
- 约1.08万字
- 约 73页
- 2017-08-25 发布于江苏
- 举报
面向大规模信息检索的中文分词技术研究 王小飞 指导教师:王斌 前瞻研究中心 2006-6-6 提纲 一、引言 二、面向大规模中文信息检索的分词算法 三、基于双数组Trie树优化算法的词典 四、歧义消除 五、未登录词识别 六、查询扩展层面的覆盖歧义处理 七、实验结果和分析 八、总结 一、引言 研究意义 信息检索简介 中文分词简介 常用评测指标 研究意义 分词技术的广泛应用:信息检索、人机交互、信息提取、文本挖掘等。 目前对分词的研究,大都集中于通用的分词算法,以提高分词准确率为目的。 目前的分词算法中,一些切分精度比较高的算法,切分的速度都比较慢;而一些切分速度快的算法,因为抛弃了一些繁琐的语言处理,所以切分精度都不高。 速度:每秒几十k~几M 切分正确率:80%~98% 研究意义 针对一项具体的上层应用来研究相关的分词技术,这样便于有一个比较确定的分词规范和目标,然后可以有针对性的在分词算法方面有所突破。 信息检索:目前跟人们生活最接近,应用最频繁而且技术发展也最成熟的一项信息处理技术。 信息检索简介 信息检索(Information Retrieval, IR):对收集的信息进行标引(Index),在接收到用户提交的查询请求以后在标引过的数据中进行查找,然后将查找到的相关结果信息返回给用户。 中文分词简介和困难 中文分词(Chinese Word Seg
您可能关注的文档
最近下载
- 发热伴血小板减少综合征疫情形势分析(2024).pdf
- DB14_T 2362-2021 省级机关事业单位食堂服务管理规范.docx VIP
- 数媒艺术概论:第2章 媒介进化.pptx VIP
- 12为人民服务 课件(共31张PPT).pptx VIP
- GB50184-2011工业金属管道工程施工质量验收规范-2022040.docx VIP
- DB37T 4448-2021 党政机关食堂运行管理规范 .docx VIP
- 德阳市罗江区2025年网格员考试练习题(附答案).docx VIP
- 福建省泉州市安溪县2026届九年级下学期中考一模语文试卷(无答案).pdf VIP
- Sony索尼摄像机系统HDC-2580 HDCU-2080 RCP-3100 HDLA-3505 HDLA-3501说明书.pdf
- ASMEY14.5-2018尺寸与公差标注中文版.pdf VIP
原创力文档

文档评论(0)