基于文本挖掘网络媒体报道探究.docVIP

下载本文档

3
0
约8.59千字
约 15页
2017-07-19 发布于福建
举报
版权申诉

基于文本挖掘网络媒体报道探究.doc

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

基于文本挖掘网络媒体报道探究

基于文本挖掘网络媒体报道探究[摘要] 探讨基于实体关系的文本挖掘机制，以文本挖掘为方法，辅以属性抽取、属性关系映射等方式，以上海世博新闻媒体网络版报道为例，对新闻媒体网络版这种非结构化信息进行研究。在属性抽取时结合相似度算法，使属性抽取的准确率得到提高。选取香港、台湾、境外媒体华语版、上海本地媒体对世博会相关报道进行实证分析，基于内容对报道差异进行阐述，并得出结论。研究表明，运用文本挖掘对新闻媒体文本进行分析和评价，可以挖掘出媒体报道的更多内涵，为情报分析提供思路。 [关键词] 文本挖掘网络媒体实体关系属性抽取上海世博 1 引言随着信息技术的发展和网络信息资源的丰富，数字化信息不断改变着我们的思维方式和工作模式。然而面对海量信息，如何发现并获取有价值的信息成为难题。如今，各种网络搜索引擎可以帮助人们进行有效的信息检索和分类，但是利用这些工具检索出来的信息仍然是海量的。如何从检索到的海量信息中挖掘出用户感兴趣的内容，并能对信息进行必要的分析、提炼成为信息管理、情报分析领域的新课题呢？本文将运用属性抽取和文本挖掘的方法，以网络版新闻报道为例，对报道的内容进行分析，并挖掘出媒体报道的内涵。文本挖掘是数据挖掘技术中日益盛行的重要研究领域，同数据挖掘的区别在于文本挖掘主要处理非结构化的文本数据，包括新闻文章、研究论文、书籍、期刊、报告、专利说明书、会议文献、技术档案、政府出版物、技术标准、电子邮件消息及Web页面等，这些数据不像关系数据库那样具有规范格式，因此处理难度都较高。同时，这些文档又大多采用自然语言描述，对挖掘提出更高的要求。从1995年Feldman正式提出文本挖掘的概念[1]至今，国外学者对文本挖掘的应用研究进行了很多有益的探讨，这方面最主要的研究集中在文本挖掘理论体系与技术手段方面，获得的成果有文本挖掘模型[2-3]、非结构化文本文件特征抽取与文本中间表示[4-6]、文本挖掘算法 [7-8]、语义关系挖掘[9-10]、文本聚类与主题分析[11-12]等，对文本挖掘国外学者已经形成了一套较成熟的理论体系，并且应用于多个领域，如网络聊天室文本流主题跟踪[11]、在线新闻实时监控[12]、专利数据分析[13]等。最近几年，国内学者对文本挖掘的关注度开始提高，但仍然处于吸收国外研究成果阶段，在理论方面，对文本特征抽取和文本聚类[14-16]等进行了一定的探讨；在实践应用中，文献[17]运用文本挖掘的方法对政府工作报告中用户感兴趣的区域经济关系进行了实证研究，并得到相关结论。通过国内外的研究对比，笔者发现，无论在理论探讨还是实践应用方面，国内的文本挖掘研究还不够深入，仍处于小规模实验阶段。本文拟运用文本挖掘的基本方法，就我国台湾、香港及其他境外媒体华语版及上海本地媒体对上海世博会相关报道进行分析，研究的新闻文本量近29 000篇，通过属性抽取分析媒体报道的差异。 2 网络媒体文本挖掘方法分析本次实验选取的新闻样本为境内外主流媒体网络版，主要包括上海本地的《解放日报》、《新民晚报》等，香港地区的《大公报》、《香港商报》、《香港文汇报》等，台湾地区包括《经济日报》、《联合报》、《中国时报》等，国外媒体中文版包括《星洲日报》(马来西亚)、《明报》(加拿大)、《联合早报》(新加坡)等，共计30家中文主流媒体。作为一种文本信息，新闻报道的格式也相对一般文本文件更为规范，这样便于挖掘的实现。与传统的新闻分析强调事件（新闻主题）、人物、时间、地点不同，这里运用文本属性抽取和文本内容挖掘以获取新闻报道的关注点并分析不同地区媒体报道的差异，因此与传统的信息统计分析等情报学方法又有一定的区别，可作为特定信息集合的信息挖掘和特征提取的实践应用。在进行文本挖掘工作前，我们需要对所操作的对象进行抽象化。如果将一篇新闻报道看做一个实体的话，那么新闻报道所反映的信息可以看做该实体的属性，我们可以将实体所关注的重点进行抽象。如：某篇新闻（实体）是关于世博会安全保障（属性）方面的报道，那么安全保障即为该实体的属性，是这篇报道的主要内容。本文关注的是在一个实体集合中哪些属性是他们的共同特征，并且与另外的实体集合有哪些差异，并进行比较。例如：对于上海世博会的报道，香港地区媒体和上海本地媒体就是不同的实体集合，在这两个实体集合中哪些属性是相同的，如报道的关注度主要集中在哪里，哪些又是不同的，如香港地区媒体主要侧重于哪些方面的报道等。我们希望通过文本挖掘的方式进行报道差异的分析。为了便于实现计算机的文本挖掘，需要建立相应的实体―属性对应关系，这里我们引入了一级属性和二级属性的概念，如下图所示：依据上文的解释，属性是用来描述某一实体的特征，对于新闻报道来说可以体现为具体内容的抽象，如世博