- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
一种改进的朴素贝叶斯关键词提取算法研究-计算机应用与软件
第31卷第2期 计算机应用与软件 Vol31No.2
2014年2月 ComputerApplicationsandSoftware Feb.2014
一种改进的朴素贝叶斯关键词提取算法研究
王锦波 王莲芝 高万林 喻 健
(中国农业大学信息与电气工程学院 北京 100083)
摘 要 为了提高关键词提取的准确率,在利用文本中相同词的前后词共现频率识别组合词的基础上,提出一种基于改进词语统
计特征的朴素贝叶斯关键词提取算法。该算法选取词语的词长、词性、位置、TFIDF值作为词语的特征项,改进了统计词长、TFIDF
和词频的方法,使长词和TFIDF大的词具有更高的概率,而在统计词频时,考虑了词语之间包含与被包含的关系。然后,采用朴素
贝叶斯模型对标记好关键词的文本进行训练,获得各个特征项出现的概率,用来提取文本的关键词。实验表明,与传统基于词频和
决策树C4.5的关键词提取算法相比,采用该方法提取的关键词具有更高的准确率和可读性。
关键词 朴素贝叶斯 组合词识别 词语特征项 关键词提取
中图分类号 TP391 文献标识码 A DOI:10.3969/j.issn.1000386x.2014.02.047
ONANIMPROVEDNAVEBAYESIANKEYWORDEXTRACTIONALGORITHM
WangJinbo WangLianzhi GaoWanlin YuJian
(CollegeofInformationandElectricalEngineering,ChinaAgriculturalUniversity,Beijing100083,China)
Abstract Inordertoimprovethekeywordextractionaccuracy,basedonrecognisingthecompoundbyusingcooccurrencefrequencyof
thewordsbeforeandaftertheidenticalwordsintext,weproposeanaveBayesiankeywordextractionalgorithmwhichisbasedonthe
improvementofstatisticalcharacteristicsofwordsandexpressions.Thealgorithmselectsthewordlength,thepartofspeech,thepositionand
theTFIDFvalueofthewordsandexpressionsasthefeatureitemsofthewordsandexpressions,improvesthemethodofcountingtheword
length,TFIDFandwordfrequency,makesthosewordswithlongerlengthandhigherTFIDFvaluehavehigherprobability.Whilecounting
thewordfrequency,itconsiderstherelationshipofcontainingandtobecontainedbetweenthewords.Then,itusesnaveBayesianmodelto
trainthetextswiththekeywordsmarkedandtogettheoccurrenceprobabilityofeachfeatureitemforextractingthekeywordsoftext.
Accordingtotheexperiment,thekeywordsextractedbythealgorithminthispaperhaveahigherprecisionrateandreadabilitythanbythe
traditionalwordfrequencybasedanddecisiontreeC4.5basedkeywordextractionalgorithms.
Keywords NaveBayes Compo
您可能关注的文档
- 2008新生入馆教育课-学军中学.ppt
- 20112015年城轨道交通运营管理专业建设与发展规划.doc
- 2011年广州注协会计师事务所高级运营管理培训班.pdf
- 2012年中考填报推荐自荐资格库初中学校用户1初中学校用户登录.doc
- 2012012信息检索-浙江大学城学院图书馆.ppt
- 2016参与申报柳州科技奖项目-武汉理工大学科学技术发展院.doc
- 2018年春季论文指引-北京教育考试院.pdf
- 938科技信息检索.doc
- 863计划任务2015年执行情况报告-空间数据挖掘与信息共享.pdf
- 2014秋电子商务综合实训项目三0830.ppt
- 《网上报告厅》使用说明-东南大学图书馆.ppt
- 一种模糊特征提取算法及其在人脸识别中的应用-江苏科技大学学报.pdf
- 一种满足最大隐私泄漏率要求的匿名方法-燕山大学学报.pdf
- 一种融合用户学习过程的用户查询意图模型-计算机应用研究.pdf
- 三供应商必须提交的谈判资料响应文件内容-安徽合肥公共资源.doc
- 三维参数化零部件库建模方法研究-计算机工程与应用.pdf
- 上海图书馆联合虚拟参考咨询知识库答案格式规范的研究.pdf
- 上海外卖网运营管理现状剖析与建议-复旦大学精品课程.pdf
- 上海中小商贸流通企业公共服务平台操作手册-上海中小商贸流通.doc
- 上百维的基础特征万亿链接千亿网页百亿的各种富媒体资源千万网站.pdf
最近下载
- DGTJ08-2001-2016 基坑工程施工监测规程.docx VIP
- 污泥( 废水)运输服务方案(技术方案).doc
- 中国特色国有企业公司治理结构的形成和发展 2025.docx
- 初中英语语法大全.pdf VIP
- 八升九分班考数学试卷.docx VIP
- DB3711_T 165-2025 中小企业劳动用工风险防控服务规范.pdf VIP
- DB3711_T 167-2025 夏玉米病虫害绿色防控技术规程.pdf VIP
- 北师大版八升九数学试卷.docx VIP
- 原子结构 高一化学人教版(2019)必修第一册.pptx VIP
- 沃尔沃-V90 Cross Country-产品使用说明书-2020款 T5 AWD 智尊版-V90CC T5 PZ10GC1-3110819w46V90CC_OMA~Z.pdf
文档评论(0)