- 1、本文档共6页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
一种改进的向量空间模型的文本表示算法 - 重庆理工大学学报
第31卷 第1期 重 庆 理 工 大 学 学报(自然科学) 2017年1月
Vol.31 No.1 JournalofChongqingUniversityofTechnology(NaturalScience) Jan.2017
doi:10.3969/j.issn.1674-8425(z).2017.01.014
一种改进的向量空间模型的文本表示算法
张小川,于旭庭,张宜浩
(重庆理工大学 计算机科学与工程学院,重庆400054)
摘 要:文本表示是将可阅读的文字转换成计算机可识别的数据结构的过程,是文本信息
处理领域中关注的基础性问题。针对向量空间模型中文本表示的tfidf算法仅考虑了词项特征
与文档之间的关系,没有考虑与类别关联性的问题,引入数理统计卡方分布方法,以此改进了tf
idf算法,构成为新算法tfidfc。该算法将词项的卡方分布值c作为文本表示的一个因子,用该
θ
c值来衡量词项在文本类中分布的差异,并且引入词性因子 ,得到改进向量空间模型的表示文
θ
本。对改进前后的2个算法进行文本分类实验,结果表明:改进后的算法得到了提升,部分解决
了词项特征与类别的关联性。
关 键 词:文本表示;向量空间模型;卡方分布;tfidf
中图分类号:TP391 文献标识码:A 文章编号:1674-8425(2017)01-0087-06
TextRepresentationBasedonImprovedVectorSpaceModel
ZHANGXiaochuan,YUXuting,ZHANGYihao
(CollegeofComputerScienceandEngineering,ChongqingUniversityofTechnology,
Chongqing400054,China)
Abstract:Textrepresentationtransfersthereadabletextintocomputeridentifiabledatastructure,and
itisafundamentalproblemintextinformationprocessingfield.Asatextrepresentationapproachin
VectorSpaceModel(VSM),tfidfalgorithmjustconsiderstherelevancybetweentermfeatureand
document,butclass.Inordertosolvethisproblem,thepaperintroducetheChisquareconceptof
mathematicalstatistics,andproposeatextrepresentationalgorithm———tfidfc.Andthealgorithm
θ
takesthetermcvalueasafactorofatextrepresentation,andcvaluemeasuresthetermdistribution
differenceinclasses,andalsoconsiderstheterm characteristicas valuetoproducethe
θ
correspondingtextrepresentationbasedontheimprovedVSM.Last,itclassifiessh
您可能关注的文档
- 二种多管水母光蛋白基因的分离、表达及生物活性初步研究 - 海洋学报.pdf
- 工艺产业再现风华1 - ntua创意产业设计研究所博士班.pdf
- síntese sobre rochas magmáticas documento word.doc
- 桉木氨水浸渍预处理响应面优化提高酶解效率 - 中国桉树.pdf
- 单位:供应室护理长:黄素馨.pdf
- 高分辨飞行时间质谱在蛋白质组学相对定量分析中的应用 - 分析化学.pdf
- 油松不同部位多酚与单+的含量比较研究.pdf
- 蛋白质环化的研究进展.pdf
- hplc 法测定刺五加注射液中紫丁香苷和异嗪皮啶的含量 - 中国药品标准.pdf
- 响应曲面法制备甘草次酸脂质体工艺优化 - 南京农业大学学报.pdf
最近下载
- 名词复数和名词所有格练习.docx VIP
- 《京东物流成本控制研究》开题报告文献综述3500字.doc VIP
- How-do-you-go-to-school英语优质课课件.ppt
- 煤矿提升运输系统安全风险专项辨识评估报告.docx
- 中华民族共同体概论课件专家版9第九讲 混一南北和中华民族大统合(元朝时期).pdf VIP
- (新join in外研剑桥版)英语三年级上册Unit5大单元教学设计.docx
- 2021年中考数学二轮复习真题演练:数学思想方法1.pdf VIP
- 【总结】新技术应用示范工程单项新技术应用总结.docx VIP
- 人教版小学语文一年级上册背诵、默写内容汇总.pdf
- (2024秋新改)部编版一年级语文上册全册教案.doc
文档评论(0)