- 1、本文档共12页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
江苏省系统工程学会第十一届学术年会
领域本体构建研究及在专利信息服务中的应用1
孙涌,韦小丽
(苏州大学计算机科学与技术学院;江苏苏州215006)
摘要:本体是语义检索的核心。本体构建主要包括领域概念获取和概念间关系获取,其中领
域概念获取是本体构建的基础。本文采用基于最大熵模型的方法来获取概念,该模型首先通过对领
域文本进行挖掘而得到名词性短语,然后使用改进的TF.IDF公式从中抽取具有领域性的短语,经人
工修正后得到本体概念。本工作以专利服务平台为背景,并以电梯专利信息为例进行实际应用,结
果表明此方法提高了概念的准确性和完整性。
关键词:本体:最大熵模型;自然语言处理:专利信息服务
1引 言
专利信息作为集技术信息、经济信息和法律信息于一体的实用知识,是技术情报的重要来源,
它具有内容广泛详尽、实用性强、格式统一规范和传递信息快等特点。据统计,世界上已发布的专
利文献已近4000万件,每年出版的专利文献有100多万件,约占世界科技出版物总数的1/4,另据
的发明成果从未在其他非专利文献上发表【l】o由此可见,专利信息具有其它类型文献信息无法替代
的优点,有着非常高的利用价值。
目前,国内外有许多著名的专利检索系统,如欧洲专利局专利检索系统【I】、美国专利商标局专
15]、世界知识产权组织专利数据库WIPO(61、中华人民共和国国家知识产权局专利检索系统SIPO(玎、
中国知识产权网专利检索系统CNIPR[81等,通过对上述组织和机构专利检索系统提供的数据库、检
索方式、检索入口以及支持的逻辑运算符等方面进行比较,发现目前的专利检索系统存在两个方面
的不足:
首先,目前专利检索系统主要采用基于关键字匹配的检索方式,这种方式曾在一定程度上方便
和帮助用户进行专利信息的检索,但是随着用户对专利信息需求发生根本性的改变,即转化为知识
需求,由于传统信息检索方式无法忠实地表达用户的真实检索意图,仅仅是字面意义或某层意义,
因此检索的查全率和查准率得不到保证,无法很好的满足用户的需求。
其次,目前专利检索系统的检索结果通常直接展示给用户,用户需要从数量庞大的结果集中寻
找实际需要的专利信息,专利检索系统对用户检索的导向很弱。
而本体具有良好的概念层次结构和对逻辑推理的支持,因而在信息系统中得到了广泛的应用。
目前,国外开发的系统有SCORE、OEDSeW、Time2Search、RDF
OntoBroker、KAONPORTAL、Sydom、OntoSeek等。
I基金项目:国家自然科学基金项目:教育部科学技术研究重点项目(2070加)
作者简介:孙涌,副教授,博士,研究生导师,主研方向:智能信息处理.软件T程,科学计算可视化;韦小爵(1983-)。女.硕士研究生,
主研方向:智能信息处理,数据挖掘.E-wail:stmyon90092@vip.sina.com·weihuili5;@sina.c,om·
-955.
江苏省系统工程学会第十一届学术年会
国内的研究相对来说起步比较晚,但是研究成果也相继出现。2001年,武成岗[91等人提出了基
于本体和多智能主体的信息检索服务器,该系统利用本体协助智能主体对网络上的文档进行领域分
类,同时对用户的查询信息进行规范,由于仅提供给用户所关注领域的资源索引,因而检准率较高。
2003年,万捷【lo】等人提出基于内容的信息检索,利用本体将用户的检索要求扩充成语义集,并将检
索到的文档通过文档分析器进一步过滤,使用户最终得到与检索要求内容匹配度较高的文档。董慧
01-12]等认为传统的信息检索机制在数字图书馆中存在“忠实表达”、“表达差异”和“词汇孤岛”三
个深层次的问题。认为基于知识(或概念)层面的检索系统能解决此类问题,在文中提出数字图书馆本
体论模型,并设计了一个基于本体论的检索算法。
通过对本体在信息系统中应用现状的分析,作者认为,在专利信息检索中借助领域本体,一则
可以对用户给出的检索词进行语义扩展,把未意识到的、未清晰表达的用户检索意图进行显现,充
实用户检索词,从而使检索的结果更全面、更精确;二则可以将基于本体的扩展检索词显示给用户,
用于引导用户进一步定位检索,启发其深入检索以获得更好的检索效果。
本文的研究工作属于《基于VLDB集
文档评论(0)