- 1、本文档共25页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
.项目工作汇报
* * * * * * * * * * * * * * * * * * * * 项目工作汇报 胡鹤 二〇〇八年一月六日 项目目标 “示范语义网及其知识服务平台研究” 研究主题语义网建设的理论、标准、方法和技术,并积极参与国际有关的活动和努力;以经济学科和法学为专业领域,集成这两个领域散布于网上的各类资料,建设一个人文社会科学语义网(知识仓库),并提供广泛的网上知识和信息服务; 项目模块划分 报告提纲 研究背景 目前进展 近期工作 后继工作 总结 研究背景 目前语义Web的研究和应用面临许多困难,距离理想的应用场景还相去甚远。要想让语义Web中的计算机‘理解’语义,人们必须为现有的无结构、半结构和结构化数据添加机器可识别的语义标识,使得隐式语义信息显式化,这就产生了对语义标注的需求。 语义标注技术是实现语义Web设想的关键环节,直接决定了语义Web的可用性和规模,是语义Web研究与应用的核心问题之一。 当前现状 语义Web研究网站 annotation.semanticweb.org列举了一些目前为止有代表性的基于本体的语义标注工具: SHOE Knowledge Annotator、Semantic Markup Plug-in for Internet Explorer、Semantic Word、Annotea、Melita、GATE、OntoMat Annotizer、SMORE等。 存在问题 当前的语义标注系统 ①这些标注工具绝大部分只支持手工标注,少数支持半自动标注,但需要用户指导标注学习过程。自动化程度不够高,精度较差; ②除少数工具支持本体词汇的编辑、修改和扩充外,多数工具都不支持本体; ③上述工具都是国外开发的,只支持英语标注,不支持中文标注. 目前进展 一个标注原型系统 ConAnnotator 一种基于格结构的标注方法 ConAnnotator… ConAnnotator… 文章级标注 标注问题 → 语义相似度匹配问题 我们提出了一种基于格结构的本体与资源对齐方法和自动标注算法。通过将领域资源中的关键字映射到本体结构中,创建领域资源对应的资源格结构。研制了评价资源格与本体格之间对应关系的评估算法用于资源与本体概念之间的匹配计算。这种算法可以自动化的将领域资源对应到合适的本体概念上,实现了领域资源相对本体的自动化标注(文章级)。 基于格的标注方法 基于格的标注方法 基于格的标注方法 基于格的标注方法 标注方法的其他应用 利用该算法,探索了利用开放性语言类资源WordNet和中国分类主题一体化词表(CCT)构建双语领域本体的方法。通过将WordNet和CCT的主体分类结构转化为对齐的格结构,对中英文本体概念进行匹配,将领域相关性较强的CCT和通用语言学本体WordNet两个互补性的知识源集成起来。 基于格的标注方法 目前进展 两种语义标注粒度 文章级(网页,pdf文档,txt文档…) 文章内部 目前的自动化标注方法只支持文章级的标注,为实现项目目标,必须进入文章内部 近期工作 GATE (General Architecture for Text Engineering) 是目前自然语言处理领域比较受推崇的一个 Java 开源项目,它是一个应用非常广泛的自然语言处理开放型基础架构,为用户提供了图形化的开发环境,被许多自然语言处理项目尤其是信息抽取的项目采用。 近期工作 GATE 致力于解决在语言工程领域问题,它具体完成以下三种功能: 为语言处理软件提供组织结构,提供文本处理的总体架构; 提供用于自然语言处理的可重用组件,支持各种不同的语言处理应用程序; 提供开发环境。为语言处理软件的研究和开发提供一种方便的图形化的环境和调试机制。 近期工作 分析和改造基于 Java 的开源系统 GATE,用于中文的面向经济学和法学领域的语义标注应用. GATE 是面向英文的系统,为支持中文应用需要大量的定制、改造、扩充工作. 近期工作 近期工作 改造工作包括: 完善 GATE 中文词表 研制针对中文文本的 JAPE 处理规则 改造 GATE, 令其支持中文本体 在GATE 中加入中文 POSTagger ,利用高精度 POS 信息辅助语义标注 利用 Lucene 全文检索引擎,建立海量标注索引 后继工作 改造开源软件, 完成并发布语义标注工具 对经济学和法学的网上资源,进行大规模标注,支持对海量标注结果的快速检索和面向语义功能的访问服务. 基于标注工具,研制并发布面向经济学和法学领域的语义网和知识应用系统. 总结 时间点: 2008 年中期 我们的任务: 集成经济学和法学两个领域散布于网上的各类资料,建设人文社会科学语义网,提供网上知识和信息服务; 我们的目标: 开源系统实现 + 高档次
文档评论(0)