- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
优秀期刊论文,完美PDF内部资料、支持编辑复制,值得参考借鉴!!
ComputerEngineeringandApplications计算机工程与应用
@数据库、信号与信息处理@
基于文章要素影响分析的博客文章分类方法
鲁梦平’,黄 翰 ,蔡昭权 ,朱一帆’,何翊宇 ,徐震宇’
LU M engping。,HUANG Han’,CAIZhaoquan,ZHU Yifan,HE Yiyu’,XU Zhenyu’
1.华南理工大学 软件学院,广州 510006
2.惠州学院 教育技术中心 ,广东 惠州 516007
1.SchoolofSoftwareEngineering,South ChinaUniversity ofTechnology,Guangzhou 510006,China
2.EducationalTechnology Center,Huizhou University,Huizhou,Guangdong 516007,China
LU M engping,HUANG Han,CAIZhaoquan,etal。Biog posts classification method based on analysisofarticleelements.
ComputerEngineeringandApplications,2011,47(29):124—126.
Abstract:Traditiona1textclassification methods are directly used to classify blog postswithoutconsidering characteristics
ofblogposts,SO thispaperproposesamethod to improve classification resultsby considering the impactofarticle elements.
This paperproposes an easy method to getrid ofnoisy postsin orderto ensure the reliability oftheposts;blog tags are
used to extend the thesaurusSO asto improve words segmentand the accuracy ofblog classification;GImethod proposed
in comprehensive evaluation modelisused to calculate theweights oftitle,tag,label,firstparagraph,lastparagraph and other
part,which rae to be analyzed in blog classification.Experimentalresults show thatthismethod can gain beRerclassification
performancethan traditionalTF-IDF method.
Key words:blog postsclassification;blog textfiltering;blogtags;article element;G1method
摘 要 :现有的博客文章分类的研究通常直接沿用传统文本分类方法,并没有结合博客 自身的特点。研究基于文章要素的影响分
析实现分类效果的改进。提出了一种简单的博客文本去噪方法,以保证博客数据的可靠性;提出了基于博客标签的中文词库扩展
方法,用于改善中文分词效果,以提高博客分类的准确性;根据综合评价模型G1法计算博客文章中标题、标签 类别、首段 末段以
及正文等文章要素的权重,分析它们对博客分类的影响。实验结果表明,研究提出的方法比传统的TFIDF方法有更好的分类效果。
关键词:博客文章分类;博客文本去噪;博客标签;文章要素;G1法
DOI:10.3778~.issn.1002—8331.2011.29.034 文章编号 :1002—8331(2Ol1)29一O124.03 文献标识码:A 中图分类号:TP31l
博客(Blog)作为一种全新的网络交流方式,受到越来越 标签、分类、首段、末段、评论和其他正文部分组成,这些文章
多人的关注。海量的博客数据给信息组织和管理带来了巨大 要素在表达博客主题时所体现的重要程度是不一样的。
的困难。博客分类技术作为一种 自动的、高效的知识管理技
您可能关注的文档
- 基于多媒体网络环境的高职院校外语教师素质研究.pdf
- 基于多示例学习的对象图像推荐算法.pdf
- 基于多校区背景下图书馆管理工作的探讨——以广东农工商职业技术学院为例.pdf
- 基于多元非线性拟合方法的碳硫分析仪检测系统.pdf
- 基于多重视角下的顾客资源、团队行动与新产品绩效的关系研究.pdf
- 基于二维EMD的红外图像弱小目标检测.pdf
- 基于二维sinc谱的近频率信号参数估计.pdf
- 基于范畴论的Web本体论描述研究.pdf
- 基于非线性增长模型的物流需求量预测.pdf
- 基于分布距离的特征聚类方法.pdf
- 安徽省合肥市望龙中学2024~2025学年九年级上学期化学期中模拟试题(解析版).pdf
- 安徽省淮北市2024-2025学年七年级上学期期末语文试题(解析版).pdf
- 第三单元 课题1 第2课时 分子可以分为原子.ppt.pptx
- 安徽省淮北市部分学校2024-2025学年九年级上学期1月期末数学试题(解析版).pdf
- 安徽省淮北市部分学校2024-2025学年八年级上学期期末语文试题(解析版).pdf
- 安徽省淮北市部分学校2024-2025学年九年级上学期1月期末物理试题(解析版).pdf
- 安徽省淮北市部分学校2024-2025学年七年级上学期期末生物试题(解析版).pdf
- 安徽省淮北市部分学校2024-2025学年九年级上学期11月期中历史试题(解析版).pdf
- 安徽省淮北市部分学校2024-2025学年九年级上学期期末语文试题(解析版).pdf
- 安徽省淮北市2024-2025学年上学期七年级期中考试数学试题卷(解析版).pdf
原创力文档


文档评论(0)