人文社会科学的研究中文本挖掘技术的应用进展.docVIP

下载本文档

11
0
约2.84千字
约 6页
2018-10-26 发布于福建
举报
版权申诉

人文社会科学的研究中文本挖掘技术的应用进展.doc

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

人文社会科学的研究中文本挖掘技术的应用进展

人文社会科学的研究中文本挖掘技术的应用进展　　[摘要]指出作为处理海量数据的有效工具，文本挖掘技术近年来在人文社科领域得到广泛重视。概述文本挖掘的相关技术和研究现状，介绍信息抽取、文本分类、文本聚类、关联规则与模式发现等常用的文本挖掘方法在人文社科研究中的具体应用，以拓展文本挖掘的应用领域，并为人文社科研究的方法创新提供新的思路。　　[关键词]文本挖掘人　文社科　技术应用　　[分类号]TP391 　　[文本挖掘概述　　文本挖掘(text mining)是一个跨学科的交叉研究领域，涉及到数据挖掘、机器学习、统计学、自然语言处理、可视化技术、数据库技术等多个学科领域的知识和技术。目前关于文本挖掘并没有统一的定义，关于文本挖掘的名称亦有“文本数据挖掘(text data mining)”或“文本知识发现(knowledge discovery in text)”等不同说法。一个比较广泛使用的定义是：文本挖掘是指为了发现知识，从文本数据中抽取隐含的、以前未知的、潜在有用的模式的过程。它是一个分析文本数据，抽取文本信息，进而发现文本知识的过程。　　一个完整的文本挖掘过程一般包括预处理、模式挖掘、模式评价等多个步骤，其中包含了多种文本处理与挖掘技术，如数据预处理技术中的分词、特征表示、特征提取技术，挖掘分析技术中的文本结构分析、文本摘要、文本分类、文本聚类、关联规则、分布分析与趋势预测等技术以及信息展示中的可视化技术等。　　文本挖掘技术拓展了现有的数据挖掘技术，把挖掘的对象从结构化的数值数据扩展到非结构化的文本数据，因此可以帮助我们从海量的文本数据中发现新的模式、模型、规则、趋势等知识，目前在很多领域得到了广泛应用。文献计量的结果表明，近年来国际上文本挖掘的研究论文呈迅猛上升势头。以“text mining”为主题词在Web of Knowledge(WoK)中检索可得与文本挖掘相关的论文3 049篇(截至2010年)，且呈逐年上升的趋势。从WoK学科统计来看，目前文本挖掘技术的研究主要集中于计算机科学、计算生物学、数学、医药信息学、生物化学与分子化学、信息科学、医学等自然科学领域，论文总数占文献总量的82％。相比而言，人文社会科学领域的论文则较少，两者之和为18％，其中人文科学仅为1％。　　由于互联网时代学术资源生产与传递方式的变化，以新的方法和技术从海量文本中发现隐含的知识和模式，成为情报学中最有前景的领域之一。由于人文社科文献的非结构化特征更加明显，文献中包含的隐性内容更多，能否在人文社科领域成功运用文本挖掘就成为了检验文本挖掘的方法论优势的试金石。本文以文本挖掘的几个关键技术——信息抽取、文本分类、文本聚类、关联规则、模式发现与可视化技术为主要线索，分析发现文本挖掘技术在人文社科研究中的应用特点，以便为人文社科研究中更加自觉地应用文本挖掘方法提供新的思路。　　2、信息抽取应用　　信息抽取(information extraction)是文本挖掘的前-端技术，它从文本对象中抽取预先指定的实体、关系、事件等信息，形成结构化的数据并输入数据库。信息抽取所获得的结构化信息片段从一个角度反映了文本内容的内在特征，因此通过机器学习等方法可以从中发现知识、挖掘知识，为科学研究提供有力的支持。　　信息抽取作为一门独立的内容处理技术，其本身在商业、情报分析、数字图书馆等领域有着广泛的应用，已有较多专门的信息抽取系统投入商用。在人文社科研究中，信息抽取常常作为文本挖掘的一个重要步骤，作为知识发现技术的前端和基础。文献构建了基于信息抽取的文本挖掘模型，均把信息抽取作为文本挖掘的一个重要组成部分，是提高文本挖掘效率的一个手段。不仅讨论了信息抽取对文本挖掘的作用，而且证实了通过文本挖掘得出的规则对信息抽取系统具有指导作用。除了作为文本挖掘的前端技术，信息抽取技术在改善信息检索、辅助知识发现方面在人文社科研究中有着较多的应用。　　2.1　改善信息检索　　传统的信息检索只能通过关键词与文档的匹配返回与用户需求相关的文档，而信息抽取则可以帮助用户直接定位所需的信息，无需阅读文档的全部内容。由于在处理海量数据时具有出色表现，信息抽取在多个人文社科领域得到了应用。在古典文学研究领域，德国莱比锡大学承担的eAQUA项目从古典文献资料(公元前3000年一公元600年)中抽取特定领域的知识，并通过eAQUA门户免费提供这些知识。在文献中，英国伦敦国王学院的Matteo(2010)介绍了一个信息抽取在古典文学中的应用研究项目，该项目旨在对当代关于古希腊和拉丁文学作品进行研究的二手文献进行实体抽取，并提供与原始文献之间的关联，从而提供更高级的信息展示和检索功能。在社会学领域，英国联合信息系统委员会(JISC)资助的ASSER