- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
遗传算法在改进文本特征提取方法中的应用-现代图书情报技术
知识组织与知识管理
遗传算法在改进文本特征提取方法中的
应用*
路永和 梁明辉
( 中山大学资讯管理学院 广州 510006)
摘要: 【目的 】综合分析特征提取方法并对传统特征提取流程和方法进行改进。【方法 】利用特征池进行特征词
预选, 引入遗传算法对候选特征词分组编码并提取最佳特征向量。【结果 】改进的文本特征提取方法在使用KNN
计算适应度值时效果最佳, 而且在特征维数较少时效果更为明显。同时在针对不同特征维数和语料库时, 分类准
确率更加稳定。【局限 】实验语料库质量有待提高; 构造特征池时只使用 CHI 和IG 两种特征提取方法; 使用分
组编码时没考虑词与词之间的语义关系; 种群数量和迭代次数受限于计算的复杂性。【结论 】加入特征池进行特
征预提取能够提高文本分类准确率的稳定性, 而加入遗传算法到文本特征提取中可以提高特征提取的效果, 遗
传算法利用分组编码规则可以减少特征的过拟合现象并提高算法运行速度。
关键词: 文本分类 特征提取 遗传算法 特征池
分类号: G254 TP391
1 引 言 2 相关研究
文本分类方法主要有贝叶斯、KNN 、类中心、支 2.1 文本特征提取方法
持向量机等[1], 文本表示一般使用向量空间模型 目前常用的特征提取方法有文档频率(DF)、信息
(Vector Space Model, VSM) 中的特征向量来表示, 其 增益(IG)、互信息(MI)、卡方检验(CHI)、期望交叉熵
维数可以达到几万维甚至几十万维。特征向量能否很 (ECE)和几率比(OR)等[2] 。卡方检验和互信息都表示文
好地表示不同文本的特性直接影响到文本分类的精 本分类中的特征和类别之间的相关性, CHI 或MI 的值
度, 因此文本分类中特征提取方法的好坏对文本分类 越大, 表明特征与类别的相关性越强。信息增益IG 主
的效果有重要影响。因为特征维数过多会影响分类器 要是根据特征项在文档中出现与否来计算它为分类预
的训练效果, 而过少则又不足以很好地表示各类文本 测所贡献的信息比特数。特征的文档频率 DF 是指在
的特点。所以有必要研究并找到一种既能减小特征向 训练样本集中出现该特征的样本数[3] 。
量空间维数又能保证有较优的分类效果的特征提取方 这几种文本特征提取方法没有绝对的最优, CHI
法。本文采用遗传算法并且加入特征池和候选特征分 的分类效果好但计算代价较高[4] 。对于分类效果而言,
组编码来优化特征提取, 以进一步提高文本分类的准 在英文数据集的分类中, CHI 与IG 效果最佳, DF 效果
确率。 基本与前两者一致, 而MI 则相对较差[2]; 在中文数据
收稿日期: 2013-12-25
收修改稿日期: 2014-01-27
∗本文系国家自然科学基金项目“面向文本分类的多学科协同建模理论与实验研究”(项目编号:和国家高技术研究发展计划(863
计划)资助项目“农产品全供应链多源信息感知技术与产品开发”(项目编号: 2012AA101701)的研究成果之一。
48 现代图书情报技术
总第245 期 2014 年 第4 期
集的分类中, CHI 的效果最佳, 其次为IG, 而MI 则相 (1) 把遗传算法和其他智能算法结合使用, 例如
对较差[5] [4]
, DF 的效果居中 。 将蚁群算法应用于遗传算法中的适应度计算步骤中,
2.2 遗传算法在文本特征提取中的应用 又如用神经网络分类器的效果作为遗传算法的适应度
遗传算法(Genetic Algorithm)是一类借鉴生物界 函数。这种改进的好处是能够结合不同算法的优点,
的进化规律演化而来的随机化搜索方法。遗传算法组 减少遗传算法缺陷的影响。但是这种方法在设计多种
成部分主要有[6]: 编码机制、适应度函数、遗
您可能关注的文档
- (二)职业病防治的政策与法规.ppt
- 遗传工程与人类社会.doc
- 我国社会工作发展及境外社会工作经验.ppt.ppt
- 与遗传异常相关的反复发热-printo.pdf
- 旅行商问题的遗传算法α.pdf
- 心理辅导概论.ppt.ppt
- 青年教师的职业发展生涯(殷堰工).-苏州市网上教师学校.ppt
- 人类的体能与遗传-journalofgeneticsandgenomics.pdf
- 遗传算法在信息检索中的应用.pdf
- iso14001标准培训-ppt-呼和浩特市新思达企业管理咨询有限公司.ppt
- 长春师范大学《电工与电子技术》2025 - 2026学年第一学期期末试卷(全网独发).docx
- 吉林大学《电工与电子技术》2025 - 2026学年第一学期期末试卷(全网独发).docx
- 赛可瑞(英文商品名Xalkori,克唑替尼,Crizotinib)化学审评(FDA).pdf
- 赛可瑞(英文商品名Xalkori,克唑替尼,Crizotinib)产品审评(FDA).pdf
- 舒巴坦钠度洛巴坦钠(Xacduro)产品审评(FDA).pdf
- 赛可瑞(英文商品名Xalkori,克唑替尼,Crizotinib)药理审评(FDA).pdf
- 沙芬酰胺片(safinamide)药品审评(FDA).pdf
- 沙芬酰胺片(safinamide)临床药理和生物审评(FDA).pdf
- 沙芬酰胺片(safinamide)药理审评(FDA).pdf
- 中国移动高级培训之GPONONU注册流程和原理介绍.pptx
文档评论(0)