领域本体构建研究及在专利信息服务中的应用.pdfVIP

下载本文档

4
0
约1.77万字
约 12页
2017-09-01 发布于安徽
举报
版权申诉

领域本体构建研究及在专利信息服务中的应用.pdf

1、本文档共12页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
5、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
6、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
7、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
8、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

江苏省系统工程学会第十一届学术年会领域本体构建研究及在专利信息服务中的应用1 孙涌，韦小丽 (苏州大学计算机科学与技术学院；江苏苏州215006) 摘要：本体是语义检索的核心。本体构建主要包括领域概念获取和概念间关系获取，其中领域概念获取是本体构建的基础。本文采用基于最大熵模型的方法来获取概念，该模型首先通过对领域文本进行挖掘而得到名词性短语，然后使用改进的TF．IDF公式从中抽取具有领域性的短语，经人工修正后得到本体概念。本工作以专利服务平台为背景，并以电梯专利信息为例进行实际应用，结果表明此方法提高了概念的准确性和完整性。关键词：本体：最大熵模型；自然语言处理：专利信息服务 1引言专利信息作为集技术信息、经济信息和法律信息于一体的实用知识，是技术情报的重要来源，它具有内容广泛详尽、实用性强、格式统一规范和传递信息快等特点。据统计，世界上已发布的专利文献已近4000万件，每年出版的专利文献有100多万件，约占世界科技出版物总数的1／4，另据的发明成果从未在其他非专利文献上发表【l】o由此可见，专利信息具有其它类型文献信息无法替代的优点，有着非常高的利用价值。目前，国内外有许多著名的专利检索系统，如欧洲专利局专利检索系统【I】、美国专利商标局专 15]、世界知识产权组织专利数据库WIPO(61、中华人民共和国国家知识产权局专利检索系统SIPO(玎、中国知识产权网专利检索系统CNIPR[81等，通过对上述组织和机构专利检索系统提供的数据库、检索方式、检索入口以及支持的逻辑运算符等方面进行比较，发现目前的专利检索系统存在两个方面的不足：首先，目前专利检索系统主要采用基于关键字匹配的检索方式，这种方式曾在一定程度上方便和帮助用户进行专利信息的检索，但是随着用户对专利信息需求发生根本性的改变，即转化为知识需求，由于传统信息检索方式无法忠实地表达用户的真实检索意图，仅仅是字面意义或某层意义，因此检索的查全率和查准率得不到保证，无法很好的满足用户的需求。其次，目前专利检索系统的检索结果通常直接展示给用户，用户需要从数量庞大的结果集中寻找实际需要的专利信息，专利检索系统对用户检索的导向很弱。而本体具有良好的概念层次结构和对逻辑推理的支持，因而在信息系统中得到了广泛的应用。目前，国外开发的系统有SCORE、OEDSeW、Time2Search、RDF OntoBroker、KAONPORTAL、Sydom、OntoSeek等。 I基金项目：国家自然科学基金项目：教育部科学技术研究重点项目(2070加) 作者简介：孙涌，副教授，博士，研究生导师，主研方向：智能信息处理．软件T程，科学计算可视化；韦小爵(1983-)。女．硕士研究生，主研方向：智能信息处理，数据挖掘．E-wail：stmyon90092@vip．sina．com·weihuili5；@sina．c,om· -955．江苏省系统工程学会第十一届学术年会国内的研究相对来说起步比较晚，但是研究成果也相继出现。2001年，武成岗[91等人提出了基于本体和多智能主体的信息检索服务器，该系统利用本体协助智能主体对网络上的文档进行领域分类，同时对用户的查询信息进行规范，由于仅提供给用户所关注领域的资源索引，因而检准率较高。 2003年，万捷【lo】等人提出基于内容的信息检索，利用本体将用户的检索要求扩充成语义集，并将检索到的文档通过文档分析器进一步过滤，使用户最终得到与检索要求内容匹配度较高的文档。董慧 01-12]等认为传统的信息检索机制在数字图书馆中存在“忠实表达”、“表达差异”和“词汇孤岛”三个深层次的问题。认为基于知识(或概念)层面的检索系统能解决此类问题，在文中提出数字图书馆本体论模型，并设计了一个基于本体论的检索算法。通过对本体在信息系统中应用现状的分析，作者认为，在专利信息检索中借助领域本体，一则可以对用户给出的检索词进行语义扩展，把未意识到的、未清晰表达的用户检索意图进行显现，充实用户检索词，从而使检索的结果更全面、更精确；二则可以将基于本体的扩展检索词显示给用户，用于引导用户进一步定位检索，启发其深入检索以获得更好的检索效果。本文的研究工作属于《基于VLDB集