- 4
- 0
- 约6.54千字
- 约 4页
- 2021-11-24 发布于吉林
- 举报
本科生毕业论文(设计)开题报告
题 目
文本自动分类
学生姓名
学 号
2006
学 院
信息科学与技术学院
专业年级
2006级计本(1)班
指导教师
职称、学历
讲师 硕士研究生
计划完成时间
2010年5月20日
开题报告
一、选题的目的、意义(理论、现实)和国内外研究概况
1.目的与意义
文本分类作为信息检索、信息过滤、搜索引擎、文本数据库、数学化图书馆等领域的技术基础,有着广泛的应用前景。在文本分类过程中,由于文本数据的半结构化甚至于无结构化的特点,使得表示文本数据特征向量高达几万维甚至于几十万维。即使经过初始化筛选处理(使用停用词表、稀有词处理、单词归并),还会有很多高维数的特征向量留下。高维的特征对分类机器的学习未必全是至关重要的,有益的。高维的特性可能会大大增加机器学习的时间而仅产生与之小得多的特征子集一样的分类结果。特征提取算法能够删除对分类贡献不大的词条,选择出能够代表文本或类别特征的词条,一方面减少了文本向量的维数,另一方面使特征向量能更好地代表文本或者类别特征。文本维数的减少,有利于分类算法的运用,使各种分类算法能够运用到文本分类中,为选择更好的分类算法提供了条件。因此,在进行文本分类中,文本特征的提取的显得至关重要。
2.国内外研究概况
到目前为止,文本自动分类在国外大致经历了三个发展阶段:第一阶段(1958-1964)主要进行自动分类的可行性研究。第二阶段(1965-1974)进行自动分类的试验研究。第三阶段(1975-至今)进行实用化阶段,并在邮件分类、电子会议、信息过滤等方面取得较为广泛的应用,其中较为成功的系统有麻省理工学院(MIT)为白宫开发的邮件分类系统,卡内基集团为路透社开发的Construe系统等。
我国文本分类的研究工作始于20世纪80年代,大体经历了可行性探讨、辅助分类系统、自动分类系统三个阶段。总体来书,中文文本分类还处于在试验研究阶段,正确分类率约为60%~90%,已经逐渐向商业话的软件应用靠拢,并已经尝试开发了一批自动分类系统。例如,清华大学吴军研制的自动分类系统、山西大学刘正瑛等人开发的金融自动分类系统、上海交大的西风文本自动分类系统。如何找到合理的应用并且在实践中逐步改善算法,提高性能成为文本分类算法的当务之急。
二、本课题的理论依据、研究内容和研究方法、步骤及进度安排
1.理论依据
本课题在研究与实现过程中主要基于汉语自分词理论与技术、数据结构字典组织算法、中文文本分类技术、机器学习理论与技术和面向对象程序设计等作为基本理论依据。
2.研究内容
(1)现在研究条件
Windows XP计算机1台、搜狗文本分类语料库、jbuilder2006、Java课本、信息检索课本,文本分类实现。
训练集
训练集
测试文档
分词器
特征选择
类特征库
文档特征
分类器
分类结果
(2)主要研究内容
实现过程:1 训练:从搜狗文本分类语料库中选择一批文档作为训练集(每类训练文本数量不一),各类文档经分词器进行分词处理后,再采用X方特征提取,得到各个类别在不同特征提取算法下的特征,形成类特征库;2 测试阶段:自行从网上随意下载测试文本,然后采用贝叶斯公式分类法结合类特征库进行分类,最后统计各类特征提取算法组合下分类的准确率,进行评价。
在上述研究过程中分词采用逆向最大匹配分词法,被研究的特征提取算法暂定为X方,如果时间足够,考虑其他的特征提取算法与分类算法。
2.研究方法与技术路线
(1)查找并阅读相关资料,以理论指导实践;
(2)搜集研究过程中用到的各种工具软件;
(3)基于各种算法的优化与实现;
(4)采用jbuilder2006实现整个课题的实现。
3.研究步骤与进度安排(这个地方要重写,参我给你发的开题报告,注意你们提交论文的时间是5月20日)
重翻java课本
熟悉jbuilder2006
了解分词算法
实现分词系统
了解X方特征抽取
实现特征抽取
了解贝叶斯分类
实现贝叶斯分类
测试
三、本课题的重点、难点,预期结果和成果形式
1.课题的重点、难点
分词系统的优化,X方特征提取的优化,贝叶斯分类的优化(代码实现上的优化)。
数据结构的选择,算法复杂度的降低
2.预期结果及成果形式
(1)毕业论文
完成毕业论文的撰写,包括对整个开发过程的记录、问题的探讨以及成果的总结。
(2)软件系统
面向文本分类的文本特征提取算法研究实验系统软件。
四、参考文献
(1)彭时名. 中文文本分类中特征提取算法研究. 重庆大学硕士论文,2006.
(2)薛翠芳,郭炳炎. 汉语文本特征词的抽取方法. 情报学报,2000,19(3).
(3)李盛韬. 基于主题的Web信息采集技术研究. 中国科学院硕士论文,2002.????
(4)许高建,胡学钢,路遥等. 一种改进的文本
原创力文档

文档评论(0)