- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
基于共现词卡方值的关键词提取算法.pdf
第42卷 第6期 计 算 机 工 程 2016年6月
V01.42 No.6 ComputerEngineering June2016
· 人工智能及识别技术 · 文章编号:1000-3428(2016)06-0191-05 文献标志码:A 中图分类号:TP301.6
基于共现词卡方值的关键词提取算法
时永宾,余青松
(华东师范大学 计算中心 ,上海 200333)
摘 要:文本分词系统的词库未收录新词和组合词,而这些词具有很强的主题表现力。为此,基于共现词卡方值,
提出一种关键词提取算法。使用语言技术平台的依存句法分词系统构建词语的关联关系,并提取共现词。应用卡
方检验检测共现词的分布是否具有显著性差异。差异越大,共现词作为关键词的概率也越大,该算法同样适用于
单个词。把单个词和共现词作为候选关键词,综合考虑候选关键词的卡方值、词频、词个数抽取全文关键词。实验
结果表明,该算法提取关键词的效果优于TextRank算法,关键词提取的准确率达到38.07%,共现词的正确率达到
80.15% 。
关键词 :依存句法分析 ;共现词;卡方检验 ;候选关键词;显著性差异
中文引用格式 :时永宾,余青松.基于共现词卡方值的关键词提取算法 [J].计算机工程,2016,42(6):191—195.
英文 引用格式 :ShiYongbin,YuQingsong.KeyWordsExtractionAlgorihtm BasedonChi-squareValueofCo-
concurrenceWords[J].ComputerEngineering,2016,42(6):191-195.
KeyW ordsExtractionAlgorithm
Basedon Chi-squareValueofCo-concurrenceW ords
SHIYongbin.YUQingsong
(ComputerCenter,EastChinaNormalUniversity,Shanghai200333,China)
【Abstract】Newwordsorcompoundwordsarenotincludedinthedictionaryoftextsegmentationsystem,howeverthese
wordshavesffong themeperformances.Toaddressthisproblem ,thekeywordsextraction algorithm basedonchi—square
valueofco-concurrencewordsisproposed.Co—concurrencewordsareextractedbytheassociationsamongwords,which
raeestablishedaccordingtothedependencyparsingfrom theLanguageTechnologyPlatfomr (LTP).Thechi—squareis
usedto testwhetherobviousdifferencesexistamong the distributionsofco-concurrencewords.Co—concurrencewords
with higherobviousdifferenceshavegreaterprobability ofbeingkey words.Thealgorithm isalsovalid forthe single
word.Taken thesinglewordandco—concurrencewordsascandidatekeywords,thealgorithm extractsfulltextkeywords
with the consideration ofthe chi—square value,word rfequency and n
文档评论(0)