- 7
- 0
- 约1.55万字
- 约 34页
- 2017-08-09 发布于辽宁
- 举报
(
二 〇 〇 八 年 六 月摘 要
随着信息的飞速增长,搜索引擎成为了人们查找信息的首选工具,在查询信息过程中,查询内容既包括西文也包括中文,中文与西文不同,西方文字(如英文)的单词间有空格作为分隔,计算机很容易把词分开。而在中文句子里,词和词之间没有明显的分隔符,要把中文句子拆分成词就需要使用中文分词技术。
本设计主要是研究中文分词算法,在计算机专业搜索系统进行应用。系统中的中文分词算法采用机械分词算法,通过和词典的比较,进行把中文词语拆分。
搜索引擎不是对整个查询内容进行匹配查询,而是划分成关键词进行查询。本系统中设计的中文分词算法,主要是采用最大正向分词算法把两字以上的词语拆分出来。这样既可以提高分词的速度,又可以提高搜索的速度和效率。该系统以Java技术为基础,涉及到相关的Struts、Hibernate、JSP等技术。本系统具有良好的可读性、可操作性、可维性、可扩展性和可移植性。
关键词:中文分词;词典;搜索引擎
Abstract
With the information rapid growth, the search engine became the people to search the information the first choice tool, in the polling message process, th
原创力文档

文档评论(0)