庖丁解牛算法详细设计.doc

下载文档 降价啦

15
0
约1.39万字
约 21页
2018-03-08 发布于河南
举报
版权申诉
保障服务

庖丁解牛算法详细设计.doc

1、本文档共21页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

查看更多

庖丁解牛算法详细设计

庖丁解牛算法调研文档 - PAGE 20 - 文件编号：庖丁解牛算法调研文档修改说明文档版本作者/修改者日期更改更改地址更改内容1.0于文峰2012-1-4开始编写开始编写目录 TOC \o 1-3 \u 1 引言 PAGEREF _Toc346269731 \h 2 1.1 编写目的 PAGEREF _Toc346269732 \h 2 1.2 程序框架： PAGEREF _Toc346269733 \h 2 2 Paoding分词算法 PAGEREF _Toc346269734 \h 8 2.1 算法基本思想描述 PAGEREF _Toc346269735 \h 8 2.2 庖丁系统的核心内容 PAGEREF _Toc346269736 \h 8 2.3 算法计算详细步骤 PAGEREF _Toc346269737 \h 9 2.3.1 庖丁分词策略 PAGEREF _Toc346269738 \h 9 2.3.2 max-word-length PAGEREF _Toc346269739 \h 10 2.3.3 most-words PAGEREF _Toc346269740 \h 12 2.4 词典 PAGEREF _Toc346269741 \h 15 2.4.1 词典类型 PAGEREF _Toc346269742 \h 15 2.4.2 词典加载流程 PAGEREF _Toc346269743 \h 15 2.4.3 词典文件格式 PAGEREF _Toc346269744 \h 16 2.4.4 读取词典文件 PAGEREF _Toc346269745 \h 16 2.4.5 词典编译 PAGEREF _Toc346269746 \h 17 2.4.6 编译词典时间测试 PAGEREF _Toc346269747 \h 17 2.4.7 词典变更侦测 PAGEREF _Toc346269748 \h 18 3 举例说明 PAGEREF _Toc346269749 \h 18 4 参考资料 PAGEREF _Toc346269750 \h 21 引言庖丁系统是个完全基于lucene的 HYPERLINK /view/19109.htm \t _blank 中文分词系统，它就是重新建了一个analyzer，叫做PaodingAnalyzer，这个analyer的核心任务就是生成一个可以切词TokenStream。编写目的本文档详细阐述了庖丁分词算法的基本思想，该文档可供研究庖丁分词算法设计人员分析阅读。程序框架 Knife包 beef类实现了charSequence 变量： char[] value:文本字符数组 offset：字符的起始位置，字符开始位置，即charAt(i)返回value[offset+i]字符 count：从offset位置开始的字符数 hash：beef的hash code 函数： beef(char[] value,int offset,int count):初始化字符数组、起始位置、从起始位置开始字符数 set(int offset，intcount)设置offset，count getvalue() getCount() getOffset() charAt(int index):覆盖了chaAt(int)方法，获取指定位置offset+index的字符，返回之前进行了预处理：1）统一大小写格式；2）全角转半角 length(): return count subsequence(int start,int end):return from offset+start with length of end-start hashCode():根据value中字符值迭代计算返回一个int，作为value[]的key CharSet类判断字符是阿拉伯数字或者CJK或者拉丁字母 toNumber(char):统一数字格式，0，零，０，统一为0 CJKKnife类实现了Knife，DictionariesWare 是处理汉字的刀，定义了变量： Dictionary vocabulary 主字典 Dictionary noiseWords 不常见的词 Dictiona

您可能关注的文档

最近下载

文档评论（0）

asd522513656 + 关注: 实名认证

内容提供者

该用户很懒，什么也没介绍

咨询Ta 进入空间

1亿VIP精品文档

更多 >

相关文档

版权处理: 版权声明; 侵权处理; 免责声明; 致被侵权者一封信; 网站诺言

使用帮助: 用户协议; 隐私政策; 上传下载; 投稿帮助; 文档保障服务承诺

文赚学院: 文赚入门; 工具技巧; 官方动态; 文档分析

关于: 关于网站; 联系我们; 企业文化; 公司优势; 对外合作

更多: 机构入驻; 内容整治报告; 原创力公益; 版权公示; 处罚记录

: 原创力文档APP下载

: 关注微信公众号

原创力文档从2008开站以来，已有超数十万网友上传了数亿文档，原创力文档定位于“知识资源平台、知识服务平台”；本网站为内容提供方提供“创作营收”解决方案：你只需要简单地上传及管理你的内容，而后续的宣传/推广/内容分发/售出下发/发票开具/知识增值创收都由我们完成，让你无后顾之忧！本网站所有资料为用户分享上传，若发现您的权利被侵害，请联系24小时智能客服，如遇紧急情况请联系侵权客服QQ：2885784724（客服上班时间为9:00-18:30）；若您有其他疑问或建议，可点击此处联系我们，上传者QQ群:751299218

公安局备案号：51011502000106 | 工信部备案号：蜀ICP备08101938号-1 | ICP经营许可证/EDI许可证：川B2-20180569 | 公司营业执照 | 出版物经营许可证：成新出发高新字第046号
© 2010-2024 max.book118.com 原创力文档. All Rights Reserved 四川文动网络科技有限公司违法与不良信息举报电话：18582317992