- 1、本文档共8页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
基于RANSAC潜在语义分析的专家库检索.doc
基于RANSAC潜在语义分析的专家库检索
摘要:随着信息技术的发展,对信息的检索和利用越来越显示出其重要的作用。在知识产权专家库的应用中,由于信息表达的差异化和碎片化,信息检索的准确率和有效率都有待提高。将潜在语义检索方法应用于专家库系统中,可以大大提高检索的准确率和有效率,并且可以避免数据库以及外围系统的重复更新,极大地节约了开发和维护的成本,具有十分重要的实际意义。该文结合RANSAC以及潜在语义检索算法给出了一种适用于专家库信息检索的搜索算法。实验结果表明,该方法在实践中取得了预期的效果。
关键词: RANSAC;潜在语义分析;奇异值分解;聚类分析
中图分类号:TP393 文献标识码:A 文章编号:1009-3044(2014)05- 1141-03
Expert Database Retrieval Based on RANSAC and LSA Algorithm
CAI Jia-cheng
(Suzhou Intellectual Property Rights Center, Suzhou 215104, China)
Abstract: With the development of information technology the retrieval and use of information becoming more and more important. In the case of experts in intellectual property library, because of the differentiation and fragmentation of information expression, accuracy and efficiency of information retrieval is not good enough for us. By applying LSA technology to Municipal Intellectual Property expert database retrieval system can improve the accuracy and efficiency of retrieval results. It can also avoid needless updating of database and retrieval system which greatly save the cost of development and maintenance of the retrieval system. In this paper we introduced an expert database retrieval method based on RANSAC and LSA. The experimental results show that this method gets the expected effectiveness.
Key words:RANSAC;latent semantic analysis (LSA);singular value decomposition (SVD);cluster analysis
1 概述
近年来,随着互联网技术的发展,信息化已经渗透到企业与政府部门的各个重要环节。苏州知识产权专家库作为专家信息的存储与检索平台,为政府各部门进行知识产权专家信息检索,知识产权预警以及知识产权相关项目评审提供了统一化的信息搜集和过滤支持。在庞大的知识产权库中,由于录入人员、时间、方式的多样化,特别是随着时间的推移会出现一些新兴的领域以及新兴名词,导致对专家所擅长的领域以及兴趣方向描述方式不尽相同。而对于专家库录入界面进行规约化的做法会大量耗费重复开发的人力物力,并且不能做到一劳永逸。而引入基于潜在语义的搜索方法,有助于对数据库中各种专家信息进行聚类和分析,并且提取统一化的关键词作为出口。从而无需对以前的数据进行重复的整理或者反复改变既有系统的录入方式并调整数据库结构,从而大大节约了管理与维护成本。
本文,根据知识产权专家相关特征量大相似表述多,并且在实际应用中对搜索精度和效率的特别要求设计了基于层次化特征潜在语义空间的聚类方案来增加搜索准确度,通过使用RANSAC方法提高了搜索速度。从而实现了对专家信息检索在精度和效率上的需求。
2 基于潜在语义的专家库检索算法
2.1 RANSAC算法
专家库中的数据特征,具有数量庞大,但是特征方向性明显,同时包含散乱噪声的特点。为了提高精确度与后期计算速度,该文使用了R
文档评论(0)