基于HowNet语义算法的研究.pdfVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
计算机科学2008V01.35NQ.4A 基于HowNet语义算法的研究*) 廖光忠黄泽鑫 (武汉科技大学计算机科学与技术学院 武汉430065) 摘要针对当前搜索引擎为用户提供的询问方式过于简单且不能对关键词进行语义分析,导致查全率低、准确率 低、冗余度高的问题,提出了一种基于知网的语义搜索引擎。首先通过词语问相似度算法计算出语义的相似度,并在 这基础上通过仿真测试得出语义搜索发散的最优阈值,同时利用相似度迭代算法实现语义算法的收敛。实验表明,该 改进方法可以根据用户的需求进行阈值的调节,满足了不同用户对阈值的需求,提高了用户对搜索引擎的满意度。 关键词知网,语义相似度,最优阈值,信息检索 原在这个层次体系中的路径距离是d,这两个语义距离是 1 引言 Sire(p,,Pz)=焘 (1) 眼下的搜索引擎不能不说是低智能的,首先它为用户提 供的询问方式实际上太过简单,现在基本上是“关键词语”;其 次“关键词语”又多停留在字符串级。“关键词语”查询有很大 层次体系中的路径长度,是一个正整数。a是一个可调节的 的缺点,这主要表现在两个方面:一是从提供关键字用户角度 参数。 在知网中,并不是将每一个概念对应于一个树状概念层 来看,关键字并不能够完整体现用户的需求。另外一方面 次体系中的一个结点,而是通过一系列的义原,利用某种知识 Web服务信息即UDDI注册中心的角度,它只能盲目地在 描述语言来描述一个概念。而这些义原通过上下位关系组织 Web描述信息里做字符串的匹配[1]。基于关键词的网页过 成一个树状义原层次体系。作为文本分类的特征词汇,重点 滤系统中,其权重往往是通过词频等统计方法来确定的,这 考虑实词概念相似度的计算。 不能很好地表达关键词对主题的表征程度,故基于这种词频 1)第一独立义原描述式:相似度记为Simt(S1,S2), 取值的关键词过滤系统的过滤准确率到达一定值后其精度就 2)其他独立义原描述式:语义表达式中除第一义原以外 很难提升[2]。 的所有其他独立义原(或具体词),将两个概念的这一部分的 本文研究了大量文献后,在刘群词汇语义相似度[3]的基 相似度记为Sire2(S1,S); 础上,通过建立中文检索系统仿真测试,得出在文本检索中词 3)关系义原描述式:语义表达式中所有的关系义原描述 语相似度的最优阈值,并利用知网层次结构关系,提出一种层 式,将两个概念的这一部分的相似度记为Sirrl3(S1,S), 次相似度迭代算法,同时通过中文检索系统仿真测试,得出在 4)符号义原描述式:语义表达式中所有的符号义原描述 文本检索中层次相似度迭代最优阈值。 式,将两个概念的这一部分的相似度记为sifn4(S1,s2)。 2知网 于是,两个概念语义表达式的整体相似度记为:

文档评论(0)

gubeiren_001 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档