- 1、本文档共33页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
中文分词说明书.doc
(
二 〇 〇 八 年 六 月摘 要
随着信息的飞速增长,搜索引擎成为了人们查找信息的首选工具,在查询信息过程中,查询内容既包括西文也包括中文,中文与西文不同,西方文字(如英文)的单词间有空格作为分隔,计算机很容易把词分开。而在中文句子里,词和词之间没有明显的分隔符,要把中文句子拆分成词就需要使用中文分词技术。
本设计主要是研究中文分词算法,在计算机专业搜索系统进行应用。系统中的中文分词算法采用机械分词算法,通过和词典的比较,进行把中文词语拆分。
搜索引擎不是对整个查询内容进行匹配查询,而是划分成关键词进行查询。本系统中设计的中文分词算法,主要是采用最大正向分词算法把两字以上的词语拆分出来。这样既可以提高分词的速度,又可以提高搜索的速度和效率。该系统以Java技术为基础,涉及到相关的Struts、Hibernate、JSP等技术。本系统具有良好的可读性、可操作性、可维性、可扩展性和可移植性。
关键词:中文分词;词典;搜索引擎
Abstract
With the information rapid growth, the search engine became the people to search the information the first choice tool, in the polling message process, the inquiry content already included the western languages also to include Chinese, Chinese and the western languages is different, Western writing (for example English) between the word had the blank space achievement to separate, the computer was very easy the word to separate. But in Chinese sentence, between the word and the word the obvious separating character, cannot analyze Chinese sentence to use Chinese word segmentation technology.
This design mainly studies Chinese word segmentation algorithm, carries on the application in the computer specialized search system. In systems Chinese word segmentation algorithm uses the mechanical participle algorithm, through with the lexicon comparison, carries on Chinese words and expressions resolution.
The search engine is not carries on the match to entire inquiry content to inquire, but is divides the key word to carry on the inquiry. In this system designs Chinese word segmentation algorithm, are mainly uses most Taisho to analyze to the participle algorithm two characters above words and expressions? Like this both may enhance the participle the speed, and may enhance the search the speed and the efficiency. This system take the Java technology as a foundation, involves to related technologies and so on Struts, Hibernate, JSP. This system has the good readability, the feasibility,
您可能关注的文档
- 某白合金浇铸车间烟气收集系统方案设计课程设计(论文).doc
- 某房地产企业纳税筹划研究.doc
- 某高校二手书交易网站创办计划书(完整版).doc
- 商场管理系统管理员功能子系统.doc
- 新三矿年产120万吨新井通风设计课程设计.doc
- 某公路施工组织设计.doc
- 某地农产品电商平台方案v1.3.doc
- 上海岩土工程勘察设计论文研究院有限公司发展战略研究.doc
- 某供电系统设计 精品.doc
- 某供电系统设计.doc
- 2023年江苏省镇江市润州区中考生物二模试卷+答案解析.pdf
- 2023年江苏省徐州市邳州市运河中学中考生物二模试卷+答案解析.pdf
- 2023年江苏省苏州市吴中区中考冲刺数学模拟预测卷+答案解析.pdf
- 2023年江苏省南通市崇川区田家炳中学中考数学四模试卷+答案解析.pdf
- 2023年江西省吉安市中考物理模拟试卷(一)+答案解析.pdf
- 2023年江苏省泰州市海陵区九年级(下)中考三模数学试卷+答案解析.pdf
- 2023年江苏省苏州市高新二中中考数学二模试卷+答案解析.pdf
- 2023年江苏省南通市九年级数学中考复习模拟卷+答案解析.pdf
- 2023年江苏省南通市海安市九年级数学模拟卷+答案解析.pdf
- 2023年江苏省泰州市靖江外国语学校中考数学一调试卷+答案解析.pdf
文档评论(0)