- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
互联网命名实体抽取及关联关系挖掘探究
互联网命名实体抽取及关联关系挖掘探究摘 要:首先分析了互联网文本中命名实体分布特征;然后使用UIMA SDK构建一个文本分析引擎在文档中寻找命名实体,将结果写入抽取信息数据库EIDB中;最后对文本中包含的命名实体的强关联关系进行了关联分析。实验证明该框架非常有效。
关键词:UIMA; 命名实体; 抽取; 强关联关系; IMDB
中图分类号:TP391 文献标识码:A 文章编号2013)003013202
基金项目:湖北省教育厅科学技术研究项目(;武汉东湖学院大学生科研重点项目(2012)
作者简介:彭庆喜(1974-),男,硕士,武汉东湖学院计算机学院工程师,研究方向为数据挖掘与机器学习。
0 引言
随着互联网的发展,Web上数据的价值越来越受到研究人员的重视。从Web上获取信息成为深入研究的一个非常重要的基础手段。然而互联网上的信息基本上是非结构化信息。如何从这些非结构化的文本中获取我们需要的信息,是非常重要的工作。文章基于UIMA构建了一个互联网命名实体的抽取与分析系统。先使用UIMA SDK建立了一个文本分析引擎,然后将结果写入抽取信息数据库EIDB中,最后使用DB2 Intelligent Miner分析了互联网人名之间的强关联关系。实验证明该解决方案得到了满意的抽取和分析结果。
1 UIMA架构
UIMA(全称“Unstructured Information Management Architecture”,即“非结构化信息管理架构”)于2009年3月作为OASIS标准发布,它是一个组件化的软件架构,用于分析同终端用户相关联的大容量非结构化信息。这个框架的目的是为非结构化分析提供一个通用的平台,从而提供能够减少重复开发的可重用分析组件。UIMA 架构允许插入定制的分析组件,并将它们与其它组件合并。UIMA 应用程序不需要知道分析组件共同合作生成结果的细节,集成和组织多个分析组件是 UIMA 框架的工作。
UIMA 应用程序可能分析纯文本并识别人员、位置和组织;它也可能识别关系,比如为谁工作或在什么地方工作。应用程序通常可以拆分成组件,例如 “语言识别” = “特定于语言的部分” = “句子范围检测” = “实体检测”。这些组件之间存在依赖性,例如,“句子范围检测” 必须先于 “特定于语言的部分”。 每个组件都是自含的并且可以与其它组件组合。每个组件实现由其它框架定义的接口,并通过 XML 描述符文件提供自我描述元数据。UIMA 框架管理组件和在它们之间流动的数据。分析引擎、标注器和 Common Analysis Structure分析引擎是UIMA 中的中央构建块。分析引擎包含一个或多个标注器或其它分析引擎。每个标注器实现一个特定的文本分析功能。这种递归式打包允许通过简单的分析引擎构建复杂的分析引擎。每个标注器将其结果储存在具有类型的特征结构中,该结构仅是包含类型和一组属性/值对的数据结构。图1是包含用于命名实体识别、语法分析和关系探测的标注器文本分析引擎。
目前UIMA的实现主要有Apache UIMA和IBM UIMA。其中IBM UIMA是商业软件,而Apache UIMA是开源软件。本文为了利用DB2的智能挖掘软件,所以使用的是IBM UIMA,当然也可以迁移到Apache UIMA环境。
2 基于UIMA的文本分析
首先将Web数据存入数据库作为源数据,然后UIMA 组件从源数据中的非结构化数据字段中提取出结构化的数据。不同的组件从源数据库中读取文档、分析文档来寻找提到的人名以及将结果保存到一个数据库中。文档是由 SQLReader 从源数据库中读取的,这个组件实现了 UIMA 的 CollectionReader 接口,是使用 SDK 开发的。当 UIMA 框架调用 SQLReader 的初始化方法时,它使用JDBC连接到数据库并发出一个 SQL SELECT 语句,这个语句在 SQLReader 存储的 ResultSet 对象中返回需要的数据,比如文本字符串。然后,这个框架使用 CollectionReader 接口的迭代器类方法(比如 getNext())实际地获取每个文档的文本和元数据。这些数据在一个 UIMA 定义的数据对象中返回给框架,这个对象称为 Common Analysis Structure(CAS)。实际上,因为正在分析文本文档,所以这个数据对象是文本 CAS(TCAS)。当框架调用 getNext 时,它提供一个空的 CAS。SQLReader 用来自 ResultSet 中当前行的数据填充 CAS。SQLReader 还实现 hasNext() 方法(这里未显示)以
您可能关注的文档
最近下载
- 1.1 蓄电池的检查与日常维护 课件(共28张PPT)《汽车电器检测与维修》同步教学(机工版·2020).ppt.pptx VIP
- 电导率分析仪PRO-C3使用说明书.pdf VIP
- 关于新形势下党内政治生活的若干准则-PPT.pptx VIP
- FSC管理手册程序文件制度文件表单一整套.doc VIP
- LG TS16TH说明书 用户手册.pdf
- 智能体互联网技术白皮书(2025年)-.docx VIP
- 廉洁职业保证措施.docx VIP
- 考务工作手册(发给考务和监考) .pdf VIP
- 2023年长沙学院计算机科学与技术专业《计算机网络》科目期末试卷A(有答案).docx VIP
- 全国统一施工机械台班费用定额2012(excel版).pdf
原创力文档


文档评论(0)