- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
人工智能在自动文本分类系统中的应用研究
摘要:人工智能与信息社会人工智能研究的就是怎样利用机器模仿人脑从事推理规划、设计、思考、学习等思维活动。文本分类是指在给定分类体系下, 根据文本内容(自动) 确定文本类别的过程。该文阐述了自动文本分类分类在利用人工智能技术设计时的必要性和重要性, 通过对当前具有代表性的分类算法原理进行分析、比较, 总结出每种算法的性能特征, 既便于使用者了解掌握各种分类算法、更好地选择合适的算法, 又便于研究者对算法进行研究改进, 提出性能更好的分类算法。
关键词:人工智能;分类; 文本分类; 分类方法
1 引言
数据的丰富带来了对强有力的数据分析工具的需求, 大量的数据被描述为“数据丰富, 但信息贫乏”。快速增长的海量数据收集、存放在大型和大量的数据库中, 没有强有力的工具, 理解它们已经远远超出了人的能力。
人工智能的一个重要支柱是数据挖掘技术。 数据挖掘一开始只是一种从大规模数据库或数据仓库中提取隐藏的预测性信息的科学方法。它让人们有能力最终认识数据的真正价值,即数据中潜在的可用信息和知识。 数据挖掘是数据库知识发现的核心步骤,它研究的主要目标是发展有关的方法论、理论工具,以支持从大量数据中提取有用的和让人们感兴趣的知识、模式和规则。 其主要研究内容包括基础理论、发现算法、数据仓库、可视化技术、定性定量互换模型、知识表示方法、知识分类算法、半结构化和非结构化数据中的知识发现以及网上数据挖掘等
而分类作为数据挖掘的一种模式, 可以用于提取描述重要数据的模型, 通常是预测分类标号( 或离散值) 。例如, 可以建立一个分类模型, 对银行贷款的安全或风险进行分类。许多分类的方法已被机器学习、专家系统、统计学和神经生物学方面的研究者提出。
文本自动分类技术是自然语言处理的一个重要的应用领域, 是替代传统的繁杂人工分类方法的有效手段和必然趋势,特别是随着互联网技术的发展, 网络成为人们进行信息交互和处理的最有效的平台, 各种数字化的信息每天以极高的速度增长, 面对如此巨大的信息, 人工分类选择已经无能为力,计算机自动分类已成为网络时代的必然选择通过利用先进的计算机技术、人工智能技术, 不仅可以实现方便快捷的分类效果, 节省大量的人力物力, 并且可以进一步进行更深层次的信息挖掘处理, 提高信息的利用效率。
文本分类处理的研究是计算机、信息处理领域的重要内容, 特别是随着网络技术的快速发展, 这种应用也变得更加迫切。
2 基本概念
2.1 人工智能
事实上,人工智能是个大科学的通称,它所覆盖的研究领域非常广,直接与其基础理论密切相关的学科至少包括控制论、信息论、系统论、计算机科学、电子学、生理学、心理学、数学、生物学、语言学和哲学等等。人工智能的主要分支研究领域有数十种,如模式识别、模糊逻辑、神经网络、机器学习、概率推理、物景分析、自然语言理解、博弈、自动定理证明、自动程序设计、回答系统、问题求解系统、机器发明系统、遗传算法、专家系统等。
任何工作离不开智能,因此任何领域都是人工智能的潜在应用领域。例如,应用人工智能的方法和技术,设计和研究各种计算机的“机器专家”系统,可以模仿各个行业的专家去从事医疗诊断、质谱分析、矿床探查、数学证明、家务管理、运筹决策等脑力工作,以完成某些需要人的智能、运用专门知识和经验技巧的任务等等。
而本文则是侧重于描述人工智能在自动文本分类上的应用。
2.2 自动文本分类
传统的文本分类是指在给定分类体系下, 根据文本内容(自动) 确定文本类别的过程。20 世纪90 年代以前,占主导地位的文本分类方法一直是基于知识工程的分类方法, 即由专业人员手工进行分类。目前在国内也已经开始对中文文本分类方法进行研究, 相比于英文文本分类, 中文文本分类的一个重要的差别在于预处理阶段: 中文文本的读取需要分词, 不像英文文本的单词那样有空格来区分。从简单的查词典的方法, 到后来的基于统计语言模型的分词方法, 中文分词的技术已趋于成熟。并在信息检索、Web 文档自动分类、数字图书馆、自动文摘、分类新闻组、文本过滤、单词语义辨析以及文档的组织和管理等多个领域得到了初步的应用。尽管机器学习理论对于文本分类方法的研究起了不可低估的作用, 在这之前文本分类方法的研究曾一度处于低潮, 但是文本分类的实际应用和它自身的固有的特性给机器学习方法提出了新的挑战, 这使得自动文本分类方法的研究仍是信息处理领域一个开放的、重要的研究方向。
而文本自动分类技术是自然语言处理的一个重要的应用领域, 是替代传统的繁杂人工分类方法的有效手段和必然趋势,特别是随着互联网技术的发展, 网络成为人们进行信息交和处理的最有效的平台, 各种数字化的信息每天以极高的速度增长, 面对如此巨大的信息, 人工分类选择已经无能为力,计算机自动分类
您可能关注的文档
最近下载
- 2025-2026新人教版小学3三年级数学上册全册教案【新教材】.doc
- 发展社会主义民主政治..pptx VIP
- 加油站试用合同.docx VIP
- 《发展社会主义民族政治》主题单元设计.doc VIP
- 学校财务管理培训课件《中小学食堂财务管理与会计核算》.pptx VIP
- 广东省深圳市罗湖区2023年中考英语二模试卷(附答案详解).docx VIP
- 高压变频器节能计算.docx VIP
- 水利水电工程单元工程施工质量验收评定表及填表说明.doc VIP
- 《中国特色社会主义》教案第二单元第5课第2框教案.docx VIP
- 苏少版(2024)小学美术一年级上册教学设计(附教材目录).docx VIP
文档评论(0)