异构数据文本挖掘技术的研究.docVIP

下载本文档

14
0
约2.87千字
约 7页
2018-10-16 发布于福建
举报
版权申诉

异构数据文本挖掘技术的研究.doc

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

异构数据文本挖掘技术的研究

异构数据文本挖掘技术的研究　　[摘要] 本文主要研究基于自然语言处理技术和数据挖掘技术，面向出版行业，对海量、异构的数字出版文本内容进行智能分析与挖掘，研究与实现命名实体识别与语义关系抽取、自动摘要提取、自动关键词提取、自动分类、自动过滤、自动消重、话题检测与追踪、情感分析等关键技术，为资源的编辑、加工、整理提供帮助，为知识标引和素材推荐等提供技术支撑。　　[关键词] 出版；文本挖掘；异构数据　　doi ： 10 . 3969 / j . issn . 1673 - 0194 . 2017. 21. 070 　　[中图分类号] TP311.13 [文献标识码] A [文章编号] 1673 - 0194（2017）21- 0164- 02 　　1 背景　　数字出版已经成为出版行业的一种趋势，将逐渐取代传统出版方式。数字出版所产生的大量数字内容需要进行智能管理和自动加工，而其中文本数字内容数量最多，包括报纸、期刊、图书等出版类型，对文本数字内容的智能加工与挖掘技术是数字出版领域的关键基础技术，对数字出版多个子系统起到平台支撑作用。例如，文本分类技术可以将数字内容按照行业分类体系自动归类，文档自动摘要技术可以将数字内容进行提炼和标引。这些技术能帮助出版行业单位对数字资源进行明晰化、系统化、智能化的管理，自动发掘潜在的知识规律，替代人工劳动，提高了生产效率。　　目前，文本挖掘技术已经被广泛应用于互联网搜索与服务行业。主要采用的技术包括网页信息抽取技术、网页聚类技术、日志挖掘技术等，其目的是通过对互联网网页、用户日志等数据进行分析，改善搜索效果和提高用户体验。然而，与互联网搜索领域不同，数字出版领域的数字出版物形式多样，包括期刊、报纸、书籍等等，不同类型的出版物具有不同的篇幅与结构。传统的文本挖掘技术已不能满足对数字出版领域数字内容的智能化处理与分析需求，因此亟需研发面向数字出版领域的文本挖掘技术。　　2 大数据文本挖掘技术研究现状　　基于自然语言处理技术和数据挖掘技术，面向数字出版领域的文本挖掘技术，对异构出版内容资源内包含的知识体系进行抽取和挖掘，为资源的编辑、加工、整理提供帮助，为知识标引和素材推荐等提供技术支撑。一方面，对已有文本挖掘技术（例如基于条件随机场的序列标注技术、基于支持向量机的分类技术等）进行升级改造，以满足数字出版行业的技术要求；另一方面，针对新的技术需求，研发文本挖掘创新技术（例如开放式实体关系抽取技术、基于图学习模型的摘要和关键词统一抽取技术、非规范文本的情感分析技术等）。　　文本挖掘成果的处理对象主要针对新闻文本类型，无法处理数字出版行业所产生的异构数字内容，例如对科技文献和书籍进行自动摘要的难度要远大于对新闻文档的自动摘要，因此这些已有的文本挖掘技术已经打下了一个坚实的基础。　　3 异构数据文本挖掘技术目标　　基于自然语言处理技术和数据挖掘技术，面向出版行业，对海量、异构的数字出版文本内容进行智能分析与挖掘，研究与实现命名实体识别与语义关系抽取、自动摘要提取、自动关键词提取、自动分类、自动过滤、自动消重、话题检测与追踪、情感分析等关键技术，为资源的编辑、加工、整理提供帮助，为知识标引和素材推荐等提供技术支撑。本课题研发的技术将作为数字出版行业的关键支撑技术，为多个相关子系统提供服务。　　面向新闻的命名实体识别技术、传统的文档摘要与关键词抽取技术、面向简单分类体系的文本分类技术、基于高维索引的文本相似搜索技术、基于规则的文本过滤技术、基于聚类的主题检测技术、基于查询的主题追踪技术、新闻规范文本的情感分类技术。　　4 异构数据文本挖掘技术路线　　异构数据文本内容文本挖掘技术划分为三个层次：引擎层、服务层以及应用与管理层。　　4.1 引擎层　　引擎层包括各项文本挖掘的基础功能，实现文本挖掘的核心算法。　　（1）命名实体识别，识别出文本中出现的专有名称和有意义的数量短语并加以归类。　　（2）实体关系抽取，识别一个文档集内存在联系的实体，并抽取适当的短语描述它们之间的关系。　　（3）自动关键词与摘要提取，为给定的一篇或多篇文档自动提取若干反映文档主要内容的关键词；在符合长度要求的限制下，抽取若干反映文档主要内容的若干句子组成摘要；以及针对用户特定查询的相关文档集，生成描述这些文档与用户查询相关的摘要。　　（4）自动分类，依据文档内容，按照预先指定和训练的分类体系进行自动分类。　　（5）文本过滤，根据用户设置的敏感规则对文档进行过滤，并特别针对互联网中出现的各种隐藏的敏感内容的手段加以识别。　　（6）文本消重，提供海量文档的快速相似判断功能，为版权保护、学术不端行为检测等系统提供支撑。　　（7）话题检测与追踪，在没有话题的