摘要
随着网络应用的飞速发展和大规模数据仓库技术的广泛应用,
人们越来越容易获得来自各个方面的大量信息。与此同时却也面对
着“数据丰富,但信息贫乏”的挑战。因此人们迫切需要可以从海
量的数据信息中发现有用的规律和有价值的知识的方法和工具。数
据挖掘和知识发现技术的产生正是顺应了这个需求,并正以强大的
生命力蓬勃发展,成为数据库研究的一个新领域。文本分类作为处
理和组织大量文本数据的关键技术,是数据挖掘研究的一个重点和
热点。文本分类技术可以在很大程度上解决信息混乱问题,从而协
助人们高效管理和有效利用大量文本信息。为了得到更好的文本分
类性能,本文对文本分类中的关键技术进行了分析总结,这些包括:
文本表示模型、文本预处理、特征选择和分类方法等。其中特别对
特征选择和贝叶斯文本分类算法作了深入的研究。在这些研究的基
础上本文将改进了的特征选择方法与改进了的贝叶斯文本分类方法
有效结合起来,实现了一个文本分类系统。最后我们做了两组实验
来评定系统的性能。论文的主要研究内容概括如下:
[1] 对文本分类过程中的关键技术进行了研究,包括文本表示模型、
文本预处理、特征选择、分类算法等。特别对几种常用的文本分
类方法进行了研究。
2
[2] 分析和讨
您可能关注的文档
- 山东青能动力有限公司风力发电机项目投资评估研究.pdf
- 信息技术对武汉市政府服务质量影响研究.pdf
- 湖南省部分地区城乡中学“每天锻炼一小时”实施现状比较研究.pdf
- 我国财政经济预测研究-关于经济模型的分析.pdf
- 我国食品安全和企业社会责任机制建构.pdf
- 关于身份的代理盲签名体制的研究.pdf
- 卓越绩效评价方法在中国商业银行的应用研究.pdf
- 入世后中国国有大型企业集团战略调整研究——A集团战略调整分析.pdf
- 网上综合银行的建设和测评研究.pdf
- 中外合作办机构地跨文化管理研究.pdf
- 2026住宅小区消防改造建筑方案(执行版,含总平面布置/疏散流线/消防节点).docx
- 2026制造工厂人力资源规划与排班配置方案(执行版,含排班模型/岗位编制/缺口清单).docx
- 2026人工智能企业内训实施计划(执行版,含培训安排/案例任务/考核清单).docx
- 2026仓储物流园总平面布置建筑方案(执行版,含车流组织/仓位分区/消防间距).docx
- 2026老旧办公楼节能改造建筑方案(执行版,含围护结构/节能设备/施工节点).docx
- 2026Python文件批量重命名与归档脚本方案(执行版,含文件样例/处理脚本/归档规则).docx
- 2026企业会计准则长期股权投资核算指南(执行版,含成本法分录/权益法分录/减值检查表).docx
- 2026社区养老服务中心项目可行性研究报告(执行版,含服务需求/建设内容/运营预算).docx
- 2026物流园冷链仓储项目可行性研究报告(执行版,含选址分析/设备配置/财务测算).docx
- 2026企业会计准则现金流量表编制口径手册(执行版,含分类口径/填报模板/勾稽检查表).docx
最近下载
- 2022年山东省淄博市中考数学真题【含答案】.docx VIP
- 2026年译林版高考英语一轮总复习考点梳理语讲解(选择性必修第二册).pdf VIP
- Midea 美的 MS811-1.2T 软水机 说明书.pdf
- Linux部署WordPress电商网站报告.docx VIP
- 逆流再生强酸阳离子交换器计算书.xls
- 劳动出版社《安全用电(第六版)习题册》答案.pdf VIP
- 资本论.pdf VIP
- 2024年山东省淄博市中考英语真题含答案.docx VIP
- 2026年全国特种设备P证气瓶充装作业证考试题库(含答案).docx VIP
- 6.2 民族区域自治制度 课件-2025-2026学年高中政治统编版必修三政治与法治.pptx VIP
原创力文档

文档评论(0)