Lucene应用WordNet同义词典实现同义词检索(C#版).docVIP

Lucene应用WordNet同义词典实现同义词检索(C#版).doc

  1. 1、本文档共9页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
从此处转载(不知是否是原作者)/%CC%EC%CF%C2%D7%E3%C7%F2001/blog/item/7de397fa5cdecb02d8f9fd2e.html 感谢原作者! Lucene 应用 WordNet 的同义词典实现同义词检索(C#版) 1 2010-07-18 10:49 同义词检索应该很多时候会用得上的,举个简单的例子,我们搜索关键字 good 的时候,与 well 和 fine 等的词条也可能是你想要的结果。这里我们不自己建立同义词库,直接使用 WordNet 的同义词库,本篇介绍 C# 版的实现步骤,还会有续篇--Java 版。 由于 Lucene 是发源于 Java,所以 C# 的应用者就没有 Java 的那么幸福了,Java 版已经有 3.0.2 可下载,C# 的版本还必须从 SVN 库里:/repos/asf/lucene//tags/Lucene.Net_2_9_2/ 才能取到最新的 2.9.2 的源码,二制包还只有 2.0 的。 接下来就是用 VS 来编译它的,不多说。只是注意到在 contrib 目录中有 WordNet.Net 解决方案,这是我们想要的,编译 WordNet.Net 可得到三个可执行文件: 1. Syns2Index.exe 用来根据 WordNet 的同义词库建立同义词索引文件,同义词本身也是通过 Lucene 来查询到的 2. SynLookup.exe 从同义词索引中查找某个词有哪些同义词 3. SynExpand.exe 与 SynLookup 差不多,只是多了个权重值,大概就是同义程度 好啦,有了 Lucene.Net.dll 和上面那三个文件,我们下面来说进一步的步骤: 二. 下载 WordNet 的同义词库 可以从 /3.0/ 下载 WNprolog-3.0.tar.gz 文件。然后解压到某个目录,如 D:\WNprolog-3.0,其中子目录 prolog 中有许多的 pl 文件,下面要用到的就是 wn_s.pl 三. 生成同义词 Lucene 索引 使用命令 Syns2Index.exe d:\WNprolog-3.0\prolog\wn_s.pl syn_index 第二个参数是生成索引的目录,由它来帮你创建该目录,执行时间大约 40 秒。这是顺利的时候,也许你也会根本无法成功,执行 Syns2Index.exe 的时候出现下面的错误: Unhandled Exception: System.ArgumentException: maxBufferedDocs must at least be 2 when enabled at Lucene.Net.Index.IndexWriter.SetMaxBufferedDocs(Int32 maxBufferedDocs) at WorldNet.Net.Syns2Index.Index(String indexDir, IDictionary word2Nums, IDictionary num2Words) at WorldNet.Net.Syns2Index.Main(String[] args) 莫急,手中有源码,心里不用慌,只要找到 Syns2Index 工程,改动 Syns2Index.cs 文件中的 writer.SetMaxBufferedDocs(writer.GetMaxBufferedDocs() * 2*/); //GetMaxBufferedDocs() 本身就为 0,翻多少倍也是白搭 为 writer.SetMaxBufferedDocs(100); //所以直接改为 100 或大于 2 的数就行 重新使用新编译的 Syns2Index.exe 执行上一条命令即可。成功执行后,可以看到新生成了一个索引目录 syn_index, 约 3 M。 现在可以用另两个命令来测试一下索引文件: D:\wordnetSynLookup.exe syn_index hi Synonyms found for hi: hawaii hello howdy hullo D:\wordnetSynExpand.exe syn_index hi Query: hi hawaii^0.9 hello^0.9 howdy^0.9 hullo^0.9 也可以用 Luke - Lucene Index ToolBox 来查看索引,两个字段,syn 和 word,通过 word:hi 就可以搜索到 syn:hawaii hello howdy hullo 四. 使用同义词分析器、过滤器进行检索 相比,Java 程序员要轻松许多,有现成的 lucene-wordne

文档评论(0)

ipad0b + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档