面向大规模信息检索的中文分词技术研究.pptVIP

下载本文档

4
0
约1.12万字
约 73页
2017-06-20 发布于北京
举报
版权申诉

面向大规模信息检索的中文分词技术研究.ppt

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

七、实验结果和分析分词测试结果表8 pku语料库测试结果 P R Povv Rovv RIV IRSEG 0.933 0.921 0.804 0.653 0.982 ICTCLAS 0.920 0.911 0.641 0.599 0.981 FMM 0.856 0.887 0.000 0.000 0.952 七、实验结果和分析分词测试结果表9 msr语料库测试结果 P R Povv Rovv RIV IRSEG 0.842 0.882 0.401 0.220 0.964 ICTCLAS 0.853 0.893 0.468 0.300 0.969 FMM 0.802 0.868 0.000 0.000 0.912 七、实验结果和分析分词测试结果图9三种算法平均的切分准确率和召回率七、实验结果和分析分词测试结果相关说明测试集切分标准不同。比如人名、时间、数量词等未登录词的切分标准。语料库本身就存在一些切分不太合理或者可以说错误的地方。 “相当大军区级单位的正职首长” 语料库切分结果：相当\大军\区级\单位\的\正职\首长 IRSeg切分结果：相当\大\军区\级\单位\的\正职\首长有些地方虽然与语料库切分结果不同而被认为是切分错误，但实际上在语言学上来说，并没有严格的对错之分。甚至，有些我们认为要比语料库中的切分更合适一些。比如：“系\主任”、“并不\可怕” 等七、实验结果和分析检索测试：实验环境： 1. 检索系统：采用CMU和UMass合作开发的Lemur工具包 2．切分算法：IRSEG、ICTCLAS、前向最大匹配（Forward Maximum Match, FMM）和交叉二元切分法（Overlapping Bigram，OVB）。检索采用查询切分和文档切分一致。 3．测试数据：北大天网提供的中文Web测试集CWT100g的部分数据。查询集是选用SEWM2005中文Web检索主题查询集。评测指标：采用trec评测指标。七、实验结果和分析 IRSEG ICTCLAS FMM OVB Recall Interpolated Recall - Precision Averages 0.0 0.8150 0.7534 0.7516 0.8100 0.1 0.5958 0.5923 0.5991 0.6137 0.2 0.5116 0.5359 0.5186 0.5222 0.3 0.4614 0.5150 0.4341 0.4842 0.4 0.4335 0.4623 0.3769 0.3930 0.5 0.3940 0.3893 0.3245 0.3446 0.6 0.3453 0.2952 0.2652 0.3047 0.7 0.2998 0.2435 0.2238 0.2362 0.8 0.2637 0.1960 0.1825 0.1777 0.9 0.1957 0.1070 0.1086 0.1148 1.0 0.0714 0.0077 0.0243 0.0252 Average precision (non-interpolated) for all rel docs 0.3789 0.3583 0.3266 0.3427 Precision At 10 docs 0.6038 0.5158 0.5105 0.4895 At 20 docs 0.5692 0.4947 0.4368 0.4421 At 30 docs 0.5051 0.4561 0.4175 0.4211 R-Precision 0.3881 0.3872 0.3598 0.3823 表10 没有进行查询扩展的检索结果比较七、实验结果和分析图10 Precision at 10docs,20docs,30docs 七、实验结果和分析无查询扩展有查询扩展 Average precision 0.3789 0.3896 R-Precision 0.3881 0.3983 表11 IRSEG加入查询扩展前后的检索结果比较八、总结主要工作： 1.分析总结了适合于大规模信息检索的分词算法特点；在分词的时间性能、准确率、切分颗粒度和未登录词识别四个方面给出了我们自己的看法。 2.设计和实现了一个面向大规模中文信息检索的分词系统。在词典算法上，提出了基于双数组Trie树优化算法的词典机制，大大提高了分词速度；在歧义消除方面，提出了双字耦合度和t-测试差结合的方法来消除交叉歧义；在未登录词识别方面，用字的位置成词概率和局部二元串频统计来提高统一识别各种命名实体和新词；另外，对于切分中的覆盖歧义，提出了在查询扩展层面利用词典二次索引的解决方法；八、总结下一步研究方向和需要改进的地