- 1、本文档共17页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
@author chaoswang 语义网应用模型构建. 2009.08 王超 语义网应用模型构建技术 技术模块图 * * Dom4J (xml) Jena (owl)(statement) AllegroGraph (statement + context) Lucene (fulltext) Prefuse 所有的工具从本质上来讲是针对某种数据结构进行“存储(写)+查询(读)” 每个工具的功能(演示),在我们项目中的作用 关键技术 步骤图 * Keyword 数据源:纯文本 正则表达式(读) Dom4J(写) Dom4(读), Jena API(写) 提供Field IndexWriter AG API(写) IndexSearcher AllegroGraph 在点击某篇文章的时候,将该文章的URI传入AG进行检索 将从AG返回的一系列结点和边,包括本体分子传入Prefuse 关键步骤 -1.将各种原始文档格式转换成纯文本(pdfbox,ocr等) 0.分析原始文档内容,抽取核心类(人脑分析) 1.以抽取的核心类作为xml标签,将纯文本转换成xml,该xml通过标签揭示了未来本体库中文档的构成及文档之间的关系(依赖正则表达式,Dom4J) 2.利用Jena API在CLI层建立本体库,直接将xml转换成owl(所谓的半自动建库,替代了手工通过protege建库) 3.利用Jena API将owl转成Ntriple,将三元组转成四元组存入owldb 4.再次利用Dom4J,将owl中的field提取出来建立lucene索引 5.输入关键词,对lucene进行搜索,返回文章列表,同时返回每篇文章的URI 6.点击某篇文章时,将URI传入AllegroGraph,利用AG API在owldb中进行检索,返回一系列节点和边,包括本体分子 7.将节点和边,包括本体分子转换成prefuse数据结构,渲染后作可视化展示 * 程序演示 Demo 1: regex读txt,Dom4J写xml(EmailParser,XmlTest,InfoExtractor) Demo 2: 用Dom4j读xml, Jena API写owl(tutorial04) Demo 3: AG API建立本体分子关联信息 Demo 4: 用Dom4j读owl,用IndexWriter建Lucene索引(jxlTest) Demo 5: Lucene对各个Field进行检索 Demo 6: AG API对owldb查询 Demo 7: 将查询结果转换成prefuse数据结构做显示(Example, AggregateDemo) * Regular Expression 在文本分析自动化过程中,regex是至关重要的技术(spider) ,静态文本中的简单搜索和替换任务 模式匹配(pattern,matcher),很多人因为它们看上去比较古怪而且复杂所以不敢去使用 Pattern p = Ppile(a*b); Matcher m = p.matcher(aaaaab); boolean b = m.matches(); * XML 完全结构化数据有非常良好的数据结构,如关系数据库、面向对象数据库中的数据。完全无结构数据是指声音、图像文件等无模式数据。 XML是用来存储数据的,XML与其他数据表现形式最大的不同是:他极其简单。 先有数据,后有模式。一般是先进行查询,查询结果即为数据结构及其模式。? 用于描述数据的结构信息.而不是对数据结构进行强制性约束。? 规模可能很大,甚至超过源数据的规模,而且因数据的不断更新而处于动态的变化过程之中? 不讲求精确性,可能描述其中一部分结构,也可能根据数据处理的不同阶段的视角而不同。? 非常灵活,能满足网络这种复杂分布式环境的要求。? 加大了数据处理的难度。? * DTD : 你叫橡皮泥,可以有颜色,产地等属性 XML: 橡皮泥 颜色=“白” 产地 武汉 /产地 /橡皮泥 XSL:第一种捏法:猫 第二种捏法:狗 * xml, xsl, dtd, xsd DOM TABLE ID=tableNode TBODY TR TD BGCOLOR=yellowThis is row 1, c ell 1/TD TD BGCOLOR=orangeThis is row 1, cell 2/TD /TR TR TD BGCOLOR=redThis is row 2, cell 1/TD TD BGCOLOR=magentaThis is row 2 , cell 2/TD
您可能关注的文档
- 北师大版六年级语文上教材培训.ppt
- 第一课柳树绿了.ppt
- 物理近代实验塞曼效应.ppt
- 新员工用丰田教育(修改).ppt
- 2012 第12章 Hash和MAC算法.ppt
- 夏枯草(药事会).ppt
- EXCEL在人业管工作中的运用.ppt
- 板式家具结构-20100902.ppt
- 飞鹰微电子入驻永丰产业基地活动方案.ppt
- XP系统GHOST安装过程.ppt
- 泡茶文化课件.pptx
- 2025年闽江师范高等专科学校单招职业技能测试近5年真题考点含答案解析.docx
- 汽车驾驶安全知识课件.pptx
- 领导在街道理论中心组暨2025年生活会学习研讨会上的发言稿.pptx
- 2025年闽江师范高等专科学校单招职业适应性测试历年(2019-2024年)真题考点试卷含答案解析.docx
- 2025年闽江师范高等专科学校单招英语2014-2024历年真题考点试卷摘选含答案解析.docx
- 2025年闽江师范高等专科学校单招语文2019-2024历年真题考点试卷含答案解析.docx
- 结直肠癌的分期与治疗.pptx
- Unit5Readingforwriting读写课件人教版高中英语必修第一册.pptx
- 中药热奄包诊疗方案.pptx
最近下载
- 急诊与灾难医学-第二十二章 人为灾难的医学救援.pptx
- 030904《项目实施进度里程碑确认单》.xlsx VIP
- 治疗篇第六章骨伤科四肢病证推拿讲解.ppt
- 2025年广西机场管理集团有限责任公司人员招聘笔试备考题库及答案解析.docx
- 七年级下册英语课件Unit 3《Keep Fit》(Section A 1a-1d).pptx VIP
- 福特嘉年华说明书.pdf
- 医院医疗设备管理员及使用人员岗位职责.pptx VIP
- 江苏省小学科学实验知识竞赛题库附答案.pdf VIP
- 教科版(2017秋)四年级下册科学期末复习训练题(含答案).docx VIP
- 八年级下数学期中测试题(a卷).pdf VIP
文档评论(0)