网站大量收购独家精品文档,联系QQ:2885784924

语义网应用模型构建技术.ppt

  1. 1、本文档共17页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
@author chaoswang 语义网应用模型构建. 2009.08 王超 语义网应用模型构建技术 技术模块图 * * Dom4J (xml) Jena (owl)(statement) AllegroGraph (statement + context) Lucene (fulltext) Prefuse 所有的工具从本质上来讲是针对某种数据结构进行“存储(写)+查询(读)” 每个工具的功能(演示),在我们项目中的作用 关键技术 步骤图 * Keyword 数据源:纯文本 正则表达式(读) Dom4J(写) Dom4(读), Jena API(写) 提供Field IndexWriter AG API(写) IndexSearcher AllegroGraph 在点击某篇文章的时候,将该文章的URI传入AG进行检索 将从AG返回的一系列结点和边,包括本体分子传入Prefuse 关键步骤 -1.将各种原始文档格式转换成纯文本(pdfbox,ocr等) 0.分析原始文档内容,抽取核心类(人脑分析) 1.以抽取的核心类作为xml标签,将纯文本转换成xml,该xml通过标签揭示了未来本体库中文档的构成及文档之间的关系(依赖正则表达式,Dom4J) 2.利用Jena API在CLI层建立本体库,直接将xml转换成owl(所谓的半自动建库,替代了手工通过protege建库) 3.利用Jena API将owl转成Ntriple,将三元组转成四元组存入owldb 4.再次利用Dom4J,将owl中的field提取出来建立lucene索引 5.输入关键词,对lucene进行搜索,返回文章列表,同时返回每篇文章的URI 6.点击某篇文章时,将URI传入AllegroGraph,利用AG API在owldb中进行检索,返回一系列节点和边,包括本体分子 7.将节点和边,包括本体分子转换成prefuse数据结构,渲染后作可视化展示 * 程序演示 Demo 1: regex读txt,Dom4J写xml(EmailParser,XmlTest,InfoExtractor) Demo 2: 用Dom4j读xml, Jena API写owl(tutorial04) Demo 3: AG API建立本体分子关联信息 Demo 4: 用Dom4j读owl,用IndexWriter建Lucene索引(jxlTest) Demo 5: Lucene对各个Field进行检索 Demo 6: AG API对owldb查询 Demo 7: 将查询结果转换成prefuse数据结构做显示(Example, AggregateDemo) * Regular Expression 在文本分析自动化过程中,regex是至关重要的技术(spider) ,静态文本中的简单搜索和替换任务 模式匹配(pattern,matcher),很多人因为它们看上去比较古怪而且复杂所以不敢去使用 Pattern p = Ppile(a*b); Matcher m = p.matcher(aaaaab); boolean b = m.matches(); * XML 完全结构化数据有非常良好的数据结构,如关系数据库、面向对象数据库中的数据。完全无结构数据是指声音、图像文件等无模式数据。 XML是用来存储数据的,XML与其他数据表现形式最大的不同是:他极其简单。 先有数据,后有模式。一般是先进行查询,查询结果即为数据结构及其模式。? 用于描述数据的结构信息.而不是对数据结构进行强制性约束。? 规模可能很大,甚至超过源数据的规模,而且因数据的不断更新而处于动态的变化过程之中? 不讲求精确性,可能描述其中一部分结构,也可能根据数据处理的不同阶段的视角而不同。? 非常灵活,能满足网络这种复杂分布式环境的要求。? 加大了数据处理的难度。? * DTD : 你叫橡皮泥,可以有颜色,产地等属性 XML: 橡皮泥 颜色=“白” 产地 武汉 /产地 /橡皮泥 XSL:第一种捏法:猫 第二种捏法:狗 * xml, xsl, dtd, xsd DOM TABLE ID=tableNode TBODY   TR TD BGCOLOR=yellowThis is row 1, c ell 1/TD TD BGCOLOR=orangeThis is row 1, cell 2/TD /TR   TR TD BGCOLOR=redThis is row 2, cell 1/TD TD BGCOLOR=magentaThis is row 2 , cell 2/TD

文档评论(0)

wxc6688 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档