人文社会科学研究中文本挖掘技术应用进展.PDF

人文社会科学研究中文本挖掘技术应用进展.PDF

人文社会科学研究中文本挖掘技术应用进展

<<专题一    人文社会科学研究中文本挖掘技术应用进展 郭金龙 许 鑫 陆宇杰 华东师范大学商学院信息学系 上海200241 〔摘要〕指出作为处理海量数据的有效工具,文本挖掘技术近年来在人文社科领域得到广泛重视。概述文本挖掘 的相关技术和研究现状,介绍信息抽取、文本分类、文本聚类、关联规则与模式发现等常用的文本挖掘方法在人文 社科研究中的具体应用,以拓展文本挖掘的应用领域,并为人文社科研究的方法创新提供新的思路。 〔关键词〕文本挖掘 人文社科 技术应用 〔分类号〕TP391 ProgressofTextMiningApplicationsinHumanitiesandSocialScience GuoJinling XuXin LuYujie DepartmentofInformatics,BusinessSchool,EastChinaNormalUniversity,Shanghai200241 〔Abstract〕Asaneffectivemethodtohandledatadeluge,textmininghasearnedwidespreadrespectinhumanitiesandsocialscience inrecentyears.Thispaperfirstlysummarizestherelevanttechniquesoftextminingandcurrentsituationofstudy,thenintroducesspe cificapplicationsoffrequently-usedtextminingtechniqueslikeinformationextraction,textclassification,textclustering,association rulesandpatterndiscoveryinthedomainofhumanitiesandsocialscience,soastoexpandthedomainoftextminingapplicationas wellasprovidingnewideasforhumanitiesandsocialscienceresearch. 〔Keywords〕textmining humanitiesandsocialscience technologyapplication 预测等技术以及信息展示中的可视化技术等。 1 文本挖掘概述   文本挖掘技术拓展了现有的数据挖掘技术,把挖 掘的对象从结构化的数值数据扩展到非结构化的文本   文本挖掘(textmining)是一个跨学科的交叉研究 数据,因此可以帮助我们从海量的文本数据中发现新 领域,涉及到数据挖掘、机器学习、统计学、自然语言处 的模式、模型、规则、趋势等知识,目前在很多领域得到 理、可视化技术、数据库技术等多个学科领域的知识和 了广泛应用。文献计量的结果表明,近年来国际上文 技术。目前关于文本挖掘并没有统一的定义,关于文 本挖掘的研究论文呈迅猛上升势头。以“textmining” 本挖掘的名称亦有“文本数据挖掘(textdatamining)” 为主题词在WebofKnowledge(WoK)中检索可得与文 或“文本知识发现(knowledgediscoveryintext)”等不同 本挖掘相关的论文3049篇(截至2010年),且呈逐年 说法。一个比较广泛使用的定义是:文本挖掘是指为 上升的趋势(见图1)。从WoK学科统计来看,目前文 了发现知识,从文本数据中抽取隐含的、以前未

文档评论(0)

1亿VIP精品文档

相关文档