- 1、本文档共6页,其中可免费阅读2页,需付费100金币后方可阅读剩余内容。
- 2、本文档内容版权归属内容提供方,所产生的收益全部归内容提供方所有。如果您对本文有版权争议,可选择认领,认领后既往收益都归您。
- 3、本文档由用户上传,本站不保证质量和数量令人满意,可能有诸多瑕疵,付费之前,请仔细先通过免费阅读内容等途径辨别内容交易风险。如存在严重挂羊头卖狗肉之情形,可联系本站下载客服投诉处理。
- 4、文档侵权举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
第卷第期年月改进算法的文本特征项权值计算方法路永和李焰锋摘要首先从特征项重要性和类别区分能力的角度出发通过分析传统的权重函数及其相关改进算法研究文本分类中向量化时的特征权重计算构建权重修正函数其次通过对特征词的卡方分布和作对比实验验证能提高类别中专有词汇的权值降低常见但对分类不重要的特征的权值最后将与结合作为新的特征权重算法通过在中文分类语料库上的实际分类实验与其他权重算法比较验证此种算法的有效性关键词文本分类特征权重类别区分分类号引言中往往比在短文档中出现的频数更大这就往往会影响到分类的效果比
第57卷 第3期 2013年2月
改进TFIDF算法的文本特征项权值计算方法
?
■ 路永和 李焰锋
[摘 要]首先,从特征项重要性和类别区分能力的角度出发,通过分析传统的权重函数 TFIDF(term
?
frequencyinversedocumentfrequency)及其相关改进算法,研究文本分类中向量化时的特征权重计算,构建权重
?
修正函数TW。其次,通过对特征词的卡方分布
您可能关注的文档
- 呼和浩特抽水蓄能电站面板堆石坝沉降变形监测分析 - china institute .pdf
- 范峻昊组——《西游记》之兵器.ppt
- 担载树状高分子铜配合物催化氧化乙基苯性能研究.pdf
- 同行评议与文献计量在科研评价中的作用分析比较 - 图书情报工作.pdf
- na 2 co 3 溶液.ppt
- 食道癌组织表面增强拉曼光谱研究 - 矿业科学学报.pdf
- 传感器网络中利用反演集合估计的机器人定位方法 - 云计算论坛.pdf
- 基于梯度的crahn分布式协作频谱感知方案 - 计算机应用与软件.pdf
- 基于功率谱熵的频谱感知算法研究 - 电子器件.pdf
- 家政服务行业商业信誉指数体系建立研究 - core.pdf
文档评论(0)