- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
文本分类算法在山东女子学院档案管理应用
文本分类算法在山东女子学院档案管理应用
【摘 要】高等教育的快速发展使学校档案馆要管理的档案越来越多,许多学校针对这种情况采用档案管理软件对档案进行管理,据调查在我校没有对档案文件进行自动分类功能,为减轻档案工作人员工作量便研究一种适合我校档案的文本自动分类方法。本文大体论述文本分类算法的知识点和文本分类算法的应用。根据山东女子学院档案的重复性、周期性等特点,询问档案馆工作人员采用手工对档案进行分类时,需要知道档案主题名和档案人信息确定归属于哪一个类别。本文将档案按照主题名看作不同类别应用加权分类算法对属于不同的类别的档案进行自动分类处理。
【关键词】文本分类;山东女子学院档案;短文本;加权分类算法
1 研究背景和意义
对于档案人员来说文本分类不是一个陌生的概念,过去用手工进行档案分类。随着计算机快速发展出现了许多文本文件。对文本进行有效的分类,利用计算机进行文本分类研究和应用尤为重要[2]。
分类的意思是将具有共同特定特征的事物放在一起方便检索。最典型的分类应用是在超市里商品排放,例如把不同品牌薯片放在一个货架上,把饼干放在另一货架上。这种好处是让顾客在买东西时能比较品牌信息为购买做决定。用户在下次购买东西的时候会直接前往该位置。
文本分类是把有相似特征的文本归纳到一起方便查询。面对海量的档案信息,目前的管理模式是依靠专业人员在档案管理系统中进行手工分类工作,利用文本分类算法对山东女子学院档案系统进行管理以提高档案管理水平。
2 文本分类相关技术
2.1 文本分类的概念
文本分类是指在一定的分类体系下根据文本的内容自动确定文本类别的过程[1]。文本分类是文本挖掘的一个分支。
2.2 文本分类和文本挖掘
文本知识又称为文本数据挖掘。文本挖掘不同于数据挖掘,数据挖掘面对的是结构化数据。文本挖掘面对是非结构化的文本,因此决定它采用的方法与数据挖掘不同。文本分类属于文本挖掘的范围。
2.3 文本预处理
文本预处理在分类中很重要。文本预处理包括以下几个方面:1)中文分词[3]。中文分词是将句子分为单词和词组的过程。2)词性标注[4]。词性是词语的属性,例如名词,形容词等。3)停用词过滤[5]。停用词指的是辅助词。如“的”这些词出现在大量的句子中如不处理会影响分类效果。4)实体识别[6]。实体识别是指对人名、地理位置等实体名字的识别。
2.4 文本表示
文本表示就是将文本预处理得到的特征词表示成计算机所能处理二进制数。
2.5 文本特征选择与特征抽取
对文本特征进行筛选,选出最能代表文本类别的特征,这个过程就是特征选择[7]。对每个特征计算其统计的度量值,设定一个阈值T,把度量值小于T的特征值过滤掉,剩下的是有效特征。特征抽取通过对初始特征空间进行扭曲、拉伸或者旋转等变换得到一个新的低维数特征空间的过程。
3 针对山东女子学院档案的基础词库的创建
根据学院档案管理的特点结合文本分类技术的发展,提出一种用于学院档案的基于语义的短文本加权自动分类算法。
3.1 基于山东女子学院档案自动分类算法的基础库设计
对于一份档案而言,其名字包括该档案的所有内容,档案进行计算机分类无需全文分析,只需对档案的名字分析。
本算法通过对档案名字信息中特征词提取和分析来进行档案的归类。通过对已分类的档案名字进行统计分析,将与各个类别相关度高的关键词提取出来建类别词库并根据关键词与类别之间的关联度的强弱为其分配相应的权值,可创建词库表。在档案名字中存在大量的词如“关于”、“通知”等与分类无关词,为提高文本在提取特征词的准确度减少冗余词的出现,需创建停用词库。通过对档案文件责任者信息提取创建一个责任者词库。通过分析确定该档案所属的大类类别。
3.2 分类词库的创建
类别词与类之间的关联度能够区分,需要为其类别词与类之间的关联度建立权重来表达这两者的不同。当某一类别词与类之间的关联度非常紧密时,需要为其赋予较高的权重系数,是该类别词的档案文件能够分到指定的类别。当一份档案中有多个类别词,且这些类别词的档案有属于不同的类别号时,可以通过权重计算来确定该份档案应该分到哪个类号中。
4 基于语义的短文本的加权分类算法
在完成基础词库的创建后,采用加权分类算法对档案文件进行分类。算法的步骤为:
1)在责任者词库搜索该档案责任者信息,确定该档案属于的大类类别。2)用停用词表对档案文件名字进行遍历去除停用词。3)根据1)确定的类别在类别词库中遍历,提取文本类别词及其对应的权值。4)将获得的类别词及其对应权值进行分类加权汇总并进行比较取得最大值即为该份档案所属的类别。
4.1 基于语义的短文本加权自动分类算法
文档评论(0)