博客资源数据挖掘的研究的现状.docVIP

下载本文档

10
0
约6.35千字
约 12页
2018-10-14 发布于福建
举报
版权申诉

博客资源数据挖掘的研究的现状.doc

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

博客资源数据挖掘的研究的现状

博客资源数据挖掘的研究的现状　　摘要：目前中国有3.73亿网民拥有博客，博客网站上已经存在海量的信息。对这些博客资源进行挖掘，可以获得有价值的信息。博客资源挖掘是Web数据挖掘的一种具体应用。探讨了国内外学者对博客资源进行数据挖掘的已有成果、各种方法与技术，涉及到博客网页的识别、博客传播特征、语义博客系统、博客之间的链接与交互、博客作者信息挖掘、博客主题挖掘、博客分类与聚类算法等。热点话题挖掘是博客数据挖掘的一种具体形式，也介绍了博客热点话题挖掘的方法与技术。　　关键词：博客；Blog；Web；数据挖掘；算法；热点话题挖掘；现状　　中图分类号：TP392 文献标识码：A 文章编号：1009-3044（2013）12-2771-03 　　1 博客简介　　因特网（Internet）和万维网（WWW）的出现，改变了人们的工作方式和生活方式。个人网站、论坛（BBS）等给了人们自由发表信息的途径，而博客（Blog）的出现，使人们更加方便的展示自我。由于具有开放、简便易用的特点，使博客具有独特的魅力，使用博客的用户越来越多。　　1.1 博客的定义　　博客的英文名字Blog，来源于Web Log这个名称。博客源于RSS技术，作者以日志风格发布信息，读者以评论方式与作者互动，是一种自由、简单易用的信息传播和互动方式。　　一个博客文章就是一个网页，博客作者可以对文章分类。这些文章都按照发表日期的倒序排列，最新的文章在网页最上面显示。博客的内容和题材，在合乎法律的要求下相当广泛，可以是新闻、时事评论、个人生活体验、购物信息、专业技术技巧、学术知识、照片、小说、产品等，有个人博客、公司博客、组织博客等。　　1.2 博客的现状　　据估计，目前全球的博客运营网站有数十万个，有数亿人使用博客。博客已经成为个人、企业、组织、团队之间常用的沟通工具。2002年，中国大陆开始有了博客服务网站。现在中国大陆已经有大量的博客服务网站，发展迅速。截止到2013年4月，新浪博客服务网站点击数最高的个人博客已经超过了21亿次点击，排在第二、第三的个人博客的点击数均超过10亿次，排在第100名的博客的点击数也高达6千5百万（来自新浪博客总流量排行）。中国互联网信息中心（CNNIC）统计显示，截止到2012年底，我国拥有博客（个人空间）的网民有3.73亿，占网民总数的66.1%[1]。从市场份额看，典型的博客网站有：QQ空间、新浪博客、博客大巴、搜狐博客、和讯博客、博客园、CSDN博客、博客网、网易博客、凤凰博客、中国博客、天涯博客、百度空间等。　　2 博客资源挖掘　　近几年来，由于博客的快速发展，国内外很多科研人员开始对博客进行研究，获得了丰富的研究成果。目前的研究主要集中在对博客内容进行挖掘、检索等方面。　　2.1 国外对博客资源挖掘的研究　　IBM的D.Gruhl、R.Guha、D.Liben-Nowell和A. Tomkins从宏观、微观两个层次上研究了博客网站里的主题传播特征和博客用户之间的交互特征，通过数学模型抽取出博客网站里可以表示新主题的关键词，并对不同时期发布的关键词进行分析，得出一些传播特征[2]。日本的I.Ohmukai、H.Takeda、K.Numa等人利用语义网搜索技术建立一个更加方便发表博客的“语义博客系统”，并对信息的收集和发表的不同层次做了详尽的分析[3]。HP实验室的E.Adar、L.Zhang对博客网站里的信息传播进行分类，设计出可视化的工具软件来动态显示不同博客之间的互相链接，并提出了一种新的Rank搜索算法[4]。　　博客上的信息是网络信息的一种，但它又有自己的特点，对博客进行研究，首先需要能够识别博客信息。东京工业大学的T. Nanno、T. Fujiki、Y. Suzuki、M. Okumura等学者提出了基于对日期表示和对HTML文档的分析来自动收集、监控、挖掘博客（Blog）的方法[5]。马里兰大学的Kolari P、Finin T、Joshi A等学者提出了基于向量空间模型（SVM）的博客识别和发现的方法，去掉了较好的效果[6]。博客与传统的个人网页或网络日记不完全相同，T. Fujiki、T. Nanno、M. Okumura等学者通过对自动提取的热点关键词的分类、比较，区别出了博客和个人网站、网络日记的差异[7]。　　2.2 国内对博客资源的研究　　在博客识别方面的研究，国内已经出现比较可靠的方法或算法。哈尔滨工业大学的张迪通过比较博客网页和普通的Web网页，提取出博客网页的特征，从网络爬虫下载得到的网页中识别出博客网页来，并且作者还对博客网页相关内容进行了抽取[8]。重庆大学的张程、陈自郁等人针对当前因特网上大量出现的博客网页，通过分析博客网页的结构特