基于文本的数据挖掘论文.docVIP

  • 71
  • 0
  • 约10.03万字
  • 约 113页
  • 2015-10-02 发布于河南
  • 举报
第一部分 基于文本的数据挖掘 第一章 绪论 1.1问题的背景 对数据的分类问题是人类所面临的一个非常重要且具有普遍意义的问题。将事物正确的分类,有助于人们认识世界,使杂乱无章的现实世界变得有条理。因此在科学技术、工农业生产以及工商业领域,数据分类、文本分类都起着至关重要的作用,例如人类基因序列的识别、电子商务、图书的分类、搜索引擎、动植物的分类等。同时,随着计算机技术的飞速发展,人们现在可以利用计算机自动的或者辅以少量的人工帮助,对大量的数据进行快速、准确的分类,人们称这种自动(半自动)的分类方法为分类器。近年来,随着Internet 的迅猛发展以及人们利用信息技术生产和搜集数据能力的大幅度提高,大规模的网络文本库不断涌现。为了便于在海量文本库中搜寻、过滤、管理这些文本,基于人工智能技术的文本自动分类方法成为人们研究的焦点。机器学习中所谓的文本分类,即是对所给出的文本,给出预定义的一个或多个类别标号。 按文本语料的性质和应用需求的不同,文本自动分类可分为基于分类体系的自动分类和基于信息过滤和用户兴趣的自动分类。基于分类体系的分类一般要经过特征提取、文本表示、分类模型训练和分类几个步骤。基于信息过滤(Information Filtering)的自动分类的目的是为用户自动过滤掉那些用户所不感兴趣的信息从而为用户提供个性化服务,节省用户时间。 文本分类作为组织和管理数据的一种有力手

文档评论(0)

1亿VIP精品文档

相关文档