互联网命名实体抽取及关联关系挖掘探究.docVIP

下载本文档

3
0
约4.13千字
约 7页
2017-09-05 发布于福建
举报
版权申诉

互联网命名实体抽取及关联关系挖掘探究.doc

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

互联网命名实体抽取及关联关系挖掘探究

互联网命名实体抽取及关联关系挖掘探究摘要：首先分析了互联网文本中命名实体分布特征；然后使用UIMA SDK构建一个文本分析引擎在文档中寻找命名实体，将结果写入抽取信息数据库EIDB中；最后对文本中包含的命名实体的强关联关系进行了关联分析。实验证明该框架非常有效。关键词：UIMA；命名实体；抽取；强关联关系； IMDB 中图分类号：TP391 文献标识码：A 文章编号2013）003013202 基金项目：湖北省教育厅科学技术研究项目（；武汉东湖学院大学生科研重点项目（2012）作者简介：彭庆喜（1974-），男，硕士，武汉东湖学院计算机学院工程师，研究方向为数据挖掘与机器学习。 0 引言随着互联网的发展，Web上数据的价值越来越受到研究人员的重视。从Web上获取信息成为深入研究的一个非常重要的基础手段。然而互联网上的信息基本上是非结构化信息。如何从这些非结构化的文本中获取我们需要的信息，是非常重要的工作。文章基于UIMA构建了一个互联网命名实体的抽取与分析系统。先使用UIMA SDK建立了一个文本分析引擎，然后将结果写入抽取信息数据库EIDB中，最后使用DB2 Intelligent Miner分析了互联网人名之间的强关联关系。实验证明该解决方案得到了满意的抽取和分析结果。 1 UIMA架构 UIMA（全称“Unstructured Information Management Architecture”，即“非结构化信息管理架构”）于2009年3月作为OASIS标准发布，它是一个组件化的软件架构，用于分析同终端用户相关联的大容量非结构化信息。这个框架的目的是为非结构化分析提供一个通用的平台，从而提供能够减少重复开发的可重用分析组件。UIMA 架构允许插入定制的分析组件，并将它们与其它组件合并。UIMA 应用程序不需要知道分析组件共同合作生成结果的细节，集成和组织多个分析组件是 UIMA 框架的工作。 UIMA 应用程序可能分析纯文本并识别人员、位置和组织；它也可能识别关系，比如为谁工作或在什么地方工作。应用程序通常可以拆分成组件，例如 “语言识别” = “特定于语言的部分” = “句子范围检测” = “实体检测”。这些组件之间存在依赖性，例如，“句子范围检测” 必须先于 “特定于语言的部分”。每个组件都是自含的并且可以与其它组件组合。每个组件实现由其它框架定义的接口，并通过 XML 描述符文件提供自我描述元数据。UIMA 框架管理组件和在它们之间流动的数据。分析引擎、标注器和 Common Analysis Structure分析引擎是UIMA 中的中央构建块。分析引擎包含一个或多个标注器或其它分析引擎。每个标注器实现一个特定的文本分析功能。这种递归式打包允许通过简单的分析引擎构建复杂的分析引擎。每个标注器将其结果储存在具有类型的特征结构中，该结构仅是包含类型和一组属性/值对的数据结构。图1是包含用于命名实体识别、语法分析和关系探测的标注器文本分析引擎。目前UIMA的实现主要有Apache UIMA和IBM UIMA。其中IBM UIMA是商业软件，而Apache UIMA是开源软件。本文为了利用DB2的智能挖掘软件，所以使用的是IBM UIMA，当然也可以迁移到Apache UIMA环境。 2 基于UIMA的文本分析首先将Web数据存入数据库作为源数据，然后UIMA 组件从源数据中的非结构化数据字段中提取出结构化的数据。不同的组件从源数据库中读取文档、分析文档来寻找提到的人名以及将结果保存到一个数据库中。文档是由 SQLReader 从源数据库中读取的，这个组件实现了 UIMA 的 CollectionReader 接口，是使用 SDK 开发的。当 UIMA 框架调用 SQLReader 的初始化方法时，它使用JDBC连接到数据库并发出一个 SQL SELECT 语句，这个语句在 SQLReader 存储的 ResultSet 对象中返回需要的数据，比如文本字符串。然后，这个框架使用 CollectionReader 接口的迭代器类方法（比如 getNext（））实际地获取每个文档的文本和元数据。这些数据在一个 UIMA 定义的数据对象中返回给框架，这个对象称为 Common Analysis Structure（CAS）。实际上，因为正在分析文本文档，所以这个数据对象是文本 CAS（TCAS）。当框架调用 getNext 时，它提供一个空的 CAS。SQLReader 用来自 ResultSet 中当前行的数据填充 CAS。SQLReader 还实现 hasNext（）方法（这里未显示）以