基于hadoop 的web 文本分类系统设计研究 - 兰州大学.pdf

基于hadoop 的web 文本分类系统设计研究 - 兰州大学.pdf

  1. 1、本文档共5页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
基于hadoop 的web 文本分类系统设计研究 - 兰州大学

第50 卷 第6 期 兰 州 大 学学报 (自然科学版) Vol. 50 No. 6 2014 年 12 月 Journal of Lanzhou University (Natural Sciences) Dec. 2014 文章编 号: 0455-2059(2014)06-0892-05 基于 Hadoop 的Web 文本分类系统设计研究 赵文娟 山西大 学商务 学院 信 息学院, 太 原 030031 摘 要: 针对 统Web 文本 分 类方法 无法 解决大 规模分 类问题, 在 深 入分 析 当前 主 流 并 行计算 平 台Hadoop 的基础 上, 提 出基 于 Hadoop 的Web 文本 分类系统, 该系统主 要包 括 文本 预处理、向量表示、文本分类、结果评 价 等模块. 真 实数据 集 上 的比较实验表明所 建系统的有 效性. 关键词: Web 文本 分类; Hadoop; HDFS; Mapreduce 中图分类号: TP391.1 文献标识码: A doi: 10.13885/j.issn.0455-2059.2014.06.020 Research on designing a web text classification system based on Hadoop ZHAO Wen-juan School of Information, Business College of Shanxi University, Taiyuan 030031, China Abstract: In order to solve the poor performance problem of traditional web text classification approaches in dealing with large-scale data, a web text classification system based on Hadoop was designed. The constructed system mainly includes text preprocess, vector representation, classification and result evaluation. Comparative experiments on the authentic dataset verified the effectiveness of the constructed system. Key words: Web text classification; Hadoop; HDFS; Mapreduce 随着 信 息 技 术 的飞速 发 展, 网络资 源 日益丰 台, 由于其具有 高效的大规模数据 处理 能力, 因而 富, 数据量迅速增加, 如何 从大量Web 文本 中快速 受 到 业 界 的广 泛 推 崇. 鉴于 此, 本 文在 Hadoop 平 找 到 用 户 需 要的信 息 成 为 一 个 亟 待 解决的问题. 台上 提 出面 向Web 文本 的分 类系统, 该系统对解 为了 提 高文本 检 索效率, 文本 分 类技 术 作 为信 息 决 统文本 分类方法面 临 的大规模分类问题具有 检 索和 文本 挖 掘 的一 个 重要研 究 方向备 受 关注. 重要的现 实意义. 文本分类任 务是对未知类别 的文本进行自动 处理, 1 Hadoop 判 断它们所 属预定义类别集 中的一个或多个类别. 当前 主 流 的文本 分 类算 法 可 概 括 为: 1) 基 于 概 率 Hadoop[9]是 由Apache 开发 的分布 式系统基础 [1] 架构. 当前计算领域 面 临 TB 或 PB 级的海量数据, 模型 的分类算法, 如 朴 贝 叶斯 、KNN(K

文档评论(0)

wujianz + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档