项目交流会语文学科本体知识库构建.pptVIP

下载本文档

4
0
约8.09千字
约 36页
2019-10-01 发布于浙江
举报
版权申诉

项目交流会语文学科本体知识库构建.ppt

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

Semantic Annotation System Architecture Annotation Client Rest API Sesame Triple Store repository MySQL (users, permissions…) Rest API Resource System (books…) Ontology Editor HTTP Annotation Server Rest API? 难点四：自动化语义标注自动化语义标注目前处于调研阶段，其方法大致有两类：基于模式的：模式可以是手动定义也可以是挖掘得到的；基于机器学习的：可以是基于统计模型的，也可以是基于NLP的。如果数据量特别大的话，可以考虑采用Map-Reduce架构来实现构建过程的心得体会心得体会总结 1.构建知识概念体系选用知识点密集、权威性高的教辅书籍，推荐曲一线的知识清单类书籍； 2.构建的知识概念体系和知识点属性采用Excel的形式描述，便于修改，后期可以通过程序生成本体； 3.知识点的属性以及知识概念之间的关系一定要尽可能详细，这样便于后期自动问答系统回答问题； 4.版面标注方案的制定一定要考虑知识是否有用以及如何才能使得后期语义标注更加方便。对于教辅教材类书籍一般是采用语义标注系统进行标注(包括知识点标注和资源标注)，但是非教材类书籍一般是采用自动化语义标注，自动化标注的自动程度与版面标注的结果息息相关，尽可能在版面标注时附加一些有用的信息。网络学习资源 w3school RDF /rdf/index.asp W3C RDF /RDF/ Pundit http://thepund.it/ 本体知识库作为语义网和智能搜索引擎的语义数据支撑，已成为研究领域和工程领域的热点问题。研究领域中，开放链接数据项目(Linked Open Data Project, LOD)旨在将不同组织或个人发布的本体知识库使用语义链接关系互相关联，达到最大程度的全球化知识共享；DBpedia通过自动地结构化多语言维基百科,提供跨语言、跨领域的大规模世界知识；YAGO2 结合了WordNet、Geonames概念体系准确率高和维基百科实例信息丰富的优点，包含超过千万的结构化实例。工程领域中，各大搜索引擎巨头，如Google、百度和搜狗等，纷纷投身于大规模本体知识库(知识图谱)的构建中，以达到改进搜索质量、实现语义搜索的目标。 * 本体知识库作为语义网和智能搜索引擎的语义数据支撑，已成为研究领域和工程领域的热点问题。研究领域中，开放链接数据项目(Linked Open Data Project, LOD)旨在将不同组织或个人发布的本体知识库使用语义链接关系互相关联，达到最大程度的全球化知识共享；DBpedia通过自动地结构化多语言维基百科,提供跨语言、跨领域的大规模世界知识；YAGO2 结合了WordNet、Geonames概念体系准确率高和维基百科实例信息丰富的优点，包含超过千万的结构化实例。工程领域中，各大搜索引擎巨头，如Google、百度和搜狗等，纷纷投身于大规模本体知识库(知识图谱)的构建中，以达到改进搜索质量、实现语义搜索的目标。 * 第一个挑战是本体构建的问题，国内外研究学者虽然在本体构建领域已经取得不少的研究成果，但是，现有的构建方法都还不是很成熟，而且目前项目所面对的是特殊的基础教育领域，本体中的概念数目异常庞大，概念之间的关系也异常复杂。对于这种特殊情况下的本体构建问题，不仅需要结合已有的本体构建方法，还要不断继续调研探索和研究实践总结出更适合的构建方法才行。第二个挑战是知识库构建的问题，在完成前面的本体构建之后可以得到面向基础教育的语文学科知识概念体系，如何基于这个知识概念体系构建海量知识库是本研究课题的一个主要难点。构建本体知识库的核心问题之一是语义标注，基于本体的语义标注是指利用已有本体在网页与文档中插入语义标记，或通过标注文档产生语义数据并存入知识库的过程。语义标注的目的是使得机器能够识别网页页面的内容，这是构建语义网的基础性工作。但是，考虑到基础教育的图书资源和互联网资源数量异常庞大，单纯靠人工来解决语义标注是不仅费时费力的，而且容易出错，所以以半自动化或者自动化的方式进行语义标注是取代人工标注的有效方案。但是，通过对现有的语义标注工具的调研发现，不论在理论层次还是实践层次它们都不能完全满足当前项目的需求，所以重新设计并实现一套基于本体的语义标注系统是达到国家科研项目预期目标的必经之路。通过该语义标注系统的标注将产生一个数据量非常庞大的本体知识库，它可以用于作为项目的其他应用系统的基础，例如面向基础教育的海量知识库展示系统和针对知识记忆类问题的问答系统。 * 语义网是互联网创始人Tim