基于本体教学信息抽取设计.docVIP

下载本文档

0
0
约5.58千字
约 12页
2018-08-30 发布于福建
举报
版权申诉

基于本体教学信息抽取设计.doc

此“教育”领域文档为创作者个人分享资料，不作为权威性指导和指引，仅供参考

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

基于本体教学信息抽取设计

基于本体教学信息抽取设计　　〔摘要〕尽管目前我们拥有Google、百渡等通用搜索引擎，但对于特定领域，人们需要的不仅仅是信息所在地址的指向，还需要获取更小粒度的信息知识集成。本文尝试结合Web网页文档的特点及领域本体知识，以及信息提取、知识挖掘和XML等技术，给出了一种基于领域本体的Web信息集成方法，旨在提高用户利用Web信息的效率。　　〔关键词〕本体；信息抽取；XML 　　〔中图分类号〕TP391 〔文献标识码〕B 〔文章编号〕1008-0821(2009)03-0194-03 　　　　随着Internet的飞速发展，网络信息资源正在不断丰富，互联网日益成为一个巨大的信息资源库。与此同时，人们上网查找和利用信息却变得越来越困难、效率低下甚至不可能实现。如何从Web上有效地提取实用信息是人们关注的重点，并已成为互联网信息服务中一个重要的研究课题。尽管目前我们拥有Google、百渡等搜索引擎，但是它们都是通用性的工具。面对浩瀚的信息海洋，它们提供给人们的答案太多以至于有时候人们没有耐心翻到合乎需要的那一页。而且对特定领域，人们需要的不仅仅是信息所在地址的指向，还需要获取更小粒度的信息知识集成。这些数据可以直接向用户显示，也可作为原文信息检索的索引，或存储到数据库、电子表格中，以便于以后的进一步分析[1]。本文尝试结合Web网页文档的特点及领域本体知识，以及信息提取、知识挖掘和XML等技术，给出了一种基于领域本体的Web信息抽取方法，旨在提高用户利用Web信息的效率。　　　　1 需求及技术思路　　　　面对海量的Web数据，传统的搜索引擎系统提供的服务质量不能满足信息获取的需求，为提高查询结果的准确性和增强查询的表达能力，人们需要将数据从缺乏结构约束的Web页面提取出来，转化为具有结构的数据。本文以上海外国教材中心的教育信息库为背景，以外国著名大学教学信息自动抽取建库为抓手，利用教学信息这个特定领域的信息表征特点构造相关的领域本体。通过基于本体的信息抽取方法利用领域本体作为提取的外部知识来产生应用本体，由应用本体来完成最终的提取方式。同时也对领域本体产生反馈，运用这种类似于机器学习的方法不断完善领域本体，逐步提高抽取过程的自动化。　　1.1 抽取的算法思路　　Step1:选取HTML样本。一般情况下，同一个学校的教学信息的表现风格基本一致，所要处理的文档都是成批的，并且这些文档都按照某一种或者几种结构出现。因此只需要构造出其中一些样本的抽取规则，其余的就可以利用这些规则进行抽取。每一个生成的规则针对Web数据源中的某类Web页面。　　Step2:输入本体定义。“本体定义”就是定义信息的抽取目标，指明感兴趣的信息。通过本体定义使在后续的抽取过程中，只需要处理已经定义了的信息项，对无关的信息项不做处理或标记为“忽略”(Ignore)。　　Step3:把HTML样本解析为Dom树。　　Step4:规则生成器生成抽取规则。规则生成器根据本体定义和Dom树进行归纳学习生成抽取规则。　　Step5:生成的规则按一定形式存储到规则库供后续抽取利用。　　1.2 本体及基于本体的抽取方法　　本体[2](Ontology)在哲学上泛指对客观世界的本体描述，在人工智能领域一般指智能系统中涉及的概念术语及其性质等静态知识的描述。在人工智能界，最早给Ontology定义的是Neches等人。他们将Ontology定义为“给出构成相关领域词汇的基本术语和关系，以及利用这些术语和关系构成的规定这些词汇外延的规则定义”。1993年，Gruber给出了Ontology的一个最为流行的定义[4-5]，即“Ontology是概念模型的明确规范说明”。Ontology的目标是捕获相关领域的知识，提出供该领域知识的共同理解，确定该领域内共同认可的词汇，并从不同的层次的形式化模式上给出这些词汇(术语)和词汇间相互关系的明确定义。在知识过滤器系统中，本体(Ontology)汇集了领域相关的所有概念与术语及其之间的关系。知识过滤器系统的本体(Ontology)表示按对象分类构成层次结构。其中最底层是领域常用的英语词汇；次底层是这些词汇对应的概念，该层每个概念对应底层中一个同义词集，再往上则是这些概念的抽象。　　基于本体的抽取方法简单地说也就是先用本体(Ontology)建立数据模型，再把可能抽取的数据项映射到Ontology中的元素上，用户选择Ontology中的元素以决定抽取的对象。Ontology的引入既保证了结构的一致性，又保证了数据的一致性，使不同来源的数据都能以统一的视图呈现，方便了信息的继承和交换。　　　　2 具体实现方案　　　　2.1 本体定义　　本体是关于某个领域描述的形