- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
中文分词技术在信息检索系统中的应用研究论文
摘 要
摘 要
随着信息化时代的不断进步和发展,人们获取信息的手段也在不断的发生着
变化,从原始的手工查找到现在的计算机搜索引擎。计算机技术的发展极大的促
进了信息检索技术的进步,搜索引擎作为信息检索的主要手段,其发展受到越来
越多研究机构和个人的重视。搜索引擎作为检索工具,其发展给我们的生活带来
了前所未有的方便和快捷。当人类利用google、baidu等搜索引擎进行信息的查询
和检索时,它们是如何知道我们最想要的结果是什么,有多少结果是我们需要
的?
汉语言的博大精深使它不能像英语那样容易让人理解。当利用计算机处理汉
语言时,输入计算机的仅仅是一连串的字符序列,除了标点符号就没有其他的分
割标志,而英语却有一个明显的分割标志—空格,这使汉语分词遇到了一些在英
语中没有的问题,这些问题都集中体现在中文分词技术中,其中以歧义词的切分
和未登录词的识别为代表。
本文前面主要从理论上分析和介绍了目前的各种汉语自动分词方法,以及搜
索引擎技术的相关情况。对各种分词方法的技术特点进行了阐述,对自动分词发
展现状和趋势作了概括性的总结。讨论了中文分词中存在的两个主要问题—歧义
词的切分和未登录词的识别,简单介绍了中文分词和信息检索的关系。
目前的分词算法主要有基于词典和无词典两大类,这两种算法各有优缺点。
本文的分词系统是基于词典的,词典作为整个分词系统的核心,它的好坏直接影
响到分词系统的效率和准确率,所以要从时间和空间多个方面考虑分词词典的组
织结构。本文的主要工作如下:
1、简要的介绍了文章的研究背景和意义以及中文搜索引擎的相关情况,深
入的研究了目前国内中文自动分词发展情况和中文自动分词面临的问题。
2、介绍了目前常用的几种词典算法结构,根据已有的词典算法并结合前人
的研究工作,对基于双数组Trie树词典算法进行了改进,利用Lucene全文索引擎
工具包的切分工具对原始语料进行初切分,并结合统计方法在切分过程中对歧义
切分和未登录词识别进行了相应的处理,最后实现本文的分词系统CSSD。
3、把改进后的词典算法和目前现有的几种词典算法从空间利用率和查找速
度进行了比较,并把本文的CSSD分词系统和中科院ICTCLAS分词系统以及前向最
I
中文分词技术在信息检索系统中的应用研究
大匹配算法FMM从切分速度、切分准确率和未登录词识别三个方面进行了比较,
结果显示,CSSD分词系统能够满足面向大规模信息检索的要求。最后,对全文的
工作进行了总结,并提出进一步的研究工作。
关键字:中文自动分词 统计方法 双数组Trie 树 歧义词 未登录词
II
Abstract
Abstract
With the Information Technology continuous progress and development, the
people obtain the information changing constantly. We obtain these information from
the original manual lookup to the now computer searching engine. The development
of the computer science greatly accelerates the progress of the Information Retrieval
Technology. As the primary means of the Information Retrieval, more and more
research institutions and individual pay attention to the development of the Searching
Engine which has br
您可能关注的文档
最近下载
- 2022年新疆农业大学招聘事业编制人员考试真题及答案.docx VIP
- 广告创意学(湖南大学)中国大学MOOC 慕课 章节测验 期末考试客观题答案.docx VIP
- 中小学《探索三角形的面积计算公式》教学设计教育教学资料整理.docx VIP
- 武汉大学308护理综合历年部分考研真题汇编.pdf VIP
- 2023年新疆农业大学招聘事业编制工作人员31人笔试题库及答案解析.docx VIP
- 高三化学一轮复习 铁及其化合物 学案.doc VIP
- 个体工商户登记(备案)申请书.doc VIP
- 2024年新疆农业大学招聘事业编制人员考试真题.docx VIP
- 工业领域视觉大模型落地实践.pdf VIP
- TNAHIEM 121-2024 创伤中心建设与设备配置规范.docx VIP
文档评论(0)