基于文本的数据挖掘..doc

  1. 1、本文档共112页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
基于文本的数据挖掘.

目 录 第一部分 基于文本的数据挖掘 1 第一章 绪论 1 1.1问题的背景 1 1.2技术发展现状 1 1.3全文安排 2 第二章 基于支持向量机理论的分类机设计 2 2.1引言 3 2.2支持向量机算法的提出 3 2.3支持向量机算法的描述 4 2.4支持向量机算法和其他算法的性能比较 9 第三章 支持向量分类器的具体编程实现 12 3.1系统功能综述 12 3.2程序总体框架描述 12 3.3主要功能函数说明 15 第四章 程序运行结果和结果分析 23 4.1训练集和测试集选取 23 4.2运行结果及正确率分析 23 4.3运行结果分析 30 第五章 论文结论 31 5.1论文总结 31 5.2未来研究展望 33 参考文献 34 代 码 36 外文资料 45 中文译文 56 第二部分 论文 67 第一章 基于支持向量机算法和其他算法在文本分类中的性能比较 67 1 支持向量机的基本思想和算法 67 2 支持向量机算法和其他算法的性能比较 71 3 支持向量机的优缺点 73 参考文献 74 第二章 Bifurcations of a Homogenous Diffusive 74 Introduction 75 1. Steady state bifurcation 77 2. Conclusion 82 References 83 第三章 基于主题和文档的文本文摘构件库 83 1 文本摘要的意义及该领域技术发展现状 84 2 文本摘要的技术分析方法 85 3 Luhn、LSA摘要算法实现 85 4 性能评价 90 参考文献 91 第四章 基于web的实验室管理系统设计与开发 93 1 引言 93 2 系统设计 94 3 实验室管理系统的分析 98 4 实验室管理系统的实现 100 参考文献 103 第五章人工神经网络的发展及应用 104 1人工神经网络的发展 105 2 人工神经网络的特性 107 3 人工神经网络的应用 107 参考文献 108 第六章对人工神经网络的初步认识 108 1 人工神经元模型的提出 108 2 神经元的结构及模型 108 3 人工神经网络的特点 109 4 人工神经网络计算机与传统计算机的比较 110 第一部分 基于文本的数据挖掘 第一章 绪论 1.1问题的背景 对数据的分类问题是人类所面临的一个非常重要且具有普遍意义的问题。将事物正确的分类,有助于人们认识世界,使杂乱无章的现实世界变得有条理。因此在科学技术、工农业生产以及工商业领域,数据分类、文本分类都起着至关重要的作用,例如人类基因序列的识别、电子商务、图书的分类、搜索引擎、动植物的分类等。同时,随着计算机技术的飞速发展,人们现在可以利用计算机自动的或者辅以少量的人工帮助,对大量的数据进行快速、准确的分类,人们称这种自动(半自动)的分类方法为分类器。近年来,随着Internet 的迅猛发展以及人们利用信息技术生产和搜集数据能力的大幅度提高,大规模的网络文本库不断涌现。为了便于在海量文本库中搜寻、过滤、管理这些文本,基于人工智能技术的文本自动分类方法成为人们研究的焦点。机器学习中所谓的文本分类,即是对所给出的文本,给出预定义的一个或多个类别标号。 按文本语料的性质和应用需求的不同,文本自动分类可分为基于分类体系的自动分类和基于信息过滤和用户兴趣的自动分类。基于分类体系的分类一般要经过特征提取、文本表示、分类模型训练和分类几个步骤。基于信息过滤(Information Filtering)的自动分类的目的是为用户自动过滤掉那些用户所不感兴趣的信息从而为用户提供个性化服务,节省用户时间。 文本分类作为组织和管理数据的一种有力手段,可以被应用于抽取符号知识、发布新闻、过滤电子邮件、学习用户兴趣从而个性化网页服务等方面。目前常用的文本分类器有K-最近邻分类器(K-NN Classifier), Na?veBayes 分类器和支持向量机分类器(Support Vector Machines Classifier)等。 1.2技术发展现状 文本分类是文本挖掘(Text Mining)[19]的一个重要应用方面。文本挖掘是由数据挖掘从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中,提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。因此,数据挖掘也体现在对一些事实或观察数据的集合中寻找模式并提出决策支持过程。? ? ? ? ? ? 图1-1 数据挖掘流程图 文本分类(Text Categorization 或Text Classification)是在已给定的分类体系下(文本集),依据文本的内容或对文本的标识信息等,通过分类程序的学习和运算等处

文档评论(0)

jiulama + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档