- 1、本文档共3页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
关键词抽取在协同管理中的应用
摘要:为了自动提取协同管理平台中的修改意见的主题,本文从选取候选词集和基于统计的抽取方法入手进行关键词抽取,首先利用维基百科作为语料库,利用最大匹配算法生成候选词集,然后综合考虑了词频、逆文本频率、词长等三项指标,利用改进的tf-idf关键词抽取方法,抽取关键词来表示修改意见的主题。将关键词与朴素贝叶斯分类算法相结合,对修改意见语料集进行实验,结果表明,抽取来的关键词能够更准确地表示修改意见的主题。
关键词:短文本候选词集关键词抽取tf-idf
中图分类号:f560.81文献标识码:a文章編号:1674-098x(2019)02(a)-0200-02
目前,在企业协同管理平台存有大量修改意见,需要人工对这些意见进行分析,了解企业用户经常犯什么错误,从而采取针对性培训,提高企业执行效率。但是在执行过程发现工作量大、时间效率低、存在人为主观性等缺点。为了克服这些缺点,我们需要让计算机能够“读懂”修改意见,根据对意见的收集可以得知用户经常犯的错误,并挖掘出一些潜在的企业管理短板,采取针对性培训。
根据评论进行意见收集实质是对短文本进行关键词抽取。短文本指的是篇幅小、表现形式多种多样、内容零碎的一类文本,大多都是能够表达完整意见的语句。关键词指的是代表短文本主题内容的词或短语,便于读者快速理解短文本内容并对文本进行归类总结。中文关键词抽取一般分为通过中文分词产生候选词集和对候选词集进行抽取两个部分。中文与拉丁系语言区别在于字之间没有空格或分隔符来识别词语的边界,中文字可以自由组合产生多种含义,单个字的重复利用率高,从上述可以发现主要难点在于如何得到一个好的候选词集和如何将其中的关键词抽选出来。
1短文本候选词集
由于中文具有一定语义的最小单位是词,词与词之间没有明显切分标志,中文分词效果的好坏直接影响到关键词抽取的最终结果。如何提高分词效果和将大量未在分词词典中出现的未定义词(缩略语、网络语言等新词)识别出来,是中文分词中的难点。特别是相对长文本,短文本中词的数量要少得多,候选词集的选取更是难上加难。
为了实现高效的分词,基础前提是构建一个高效的词表,通常短文本分词可以借助现有大语料库或词典等外来资源扩充短文本语义特征[1],本文利用中国科学院计算技术研究所发布的免费版分词词典作为分词词典[2],利用分词过程中产生的多频率词和单位常用的专业术语作为分词词典的补充。
中文分词是将一个汉字序列切分成一个个单词的过程。传统的中文分词算法分为三类:基于字符串匹配的分词方法、基于理解的分词方法和基于统计的分词方法。本文采用了第一种方法,即按照一定的策略将汉字字符串与一个词典中的词进行匹配。常见和实用的分词匹配算法有正向最大匹配法、百度的双向最大匹配算法bmmm和google逆向最大匹配算法rmmm[3]。本文应用正向最大匹配法对短文本进行词条匹配,具体思想是已知分词词典中的最长的词条字数为l个,取评论的前l个字作为匹配字段,在分词词典中查找,若词典中有这个词,则匹配成功,就切分出来,取下一个l个字段;如果词典中找不到该词,则匹配失败,将匹配失败的词条进行记录、存储,当再次出现时进行频率更新,当词频数等于某一个设定的值时,作为未定义词,更新分词词典。然后去掉匹配字段的最后一个字,重新进行上述的操作,直到切分出所有词为止。
然后过滤掉不能反映主题的停用词,诸如“的”之类助词和“因此”等只能反映句子语法结构的词语,本文的停用词确定为所有虚词以及标点符号。
2关键词抽取
现有的中文关键词抽取方法,主要有基于语义分析、基于规则和基于统计的方法。基于语义分析通过研究自然语言的语法关系来抽取关键词,可以分为语义分析、词法分析、句法分析和篇章分析,但是需要对文本逐步进行分析,耗费大量人力物力。基于规则的方法主要是通过建立关键词的位置、词性等特征规则等方法来进行抽取,需要人工统计规则,规则自适应性弱,领域性较强。基于统计的分析方法分为有监督和无监督的关键词抽取方法,有监督的关键词抽取方法指的是基于决策树、朴素贝叶斯、svm等机器学习方法,需要大规模人工标注的训练语料作为基础支持,抽取效果依赖具体的训练语料的质量。虽然该类方法精确度高,但是对语料需要耗费大量的人力资源进行标注,而在没有大量人工标注的标准语料库作为支持的情况下,无监督的方法更加适用关键词抽取的实际应用。本文通过无监督的统计tf-idf方法确定候选词的权重,从中筛选出权重较大者作为最终的关键词。
特征词的挑选通常应该具备以下原则:(1)能够确实标识文本内容,即与文本主题内容应密切相关;(2)具备将目标文本与其他文本区分
文档评论(0)