- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
基于分词相关系数的垃圾焚烧邻避事件文本相似度计算研究管理论文
目录
0 引 言
1 文本分词
1.1 基于Python结巴分词的文本分词
1.2 数据矢量化
1.3 关键词词义相似度替换
2 皮尔逊相似度计算模型
3 案例应用――垃圾焚烧事件
4 结 语
正文
摘要:基于分词相关系数的垃圾焚烧“邻避”事件文本相似度计算研究 作者:未知 将文本相似度计算引入“邻避”冲突事件的应急决策,通过对案例进行文本分词、词义相似度替换得到关键词频次,然后将数据矢量化得到可用于计算的关键词权重表,最后通过皮尔逊
关键字:文本分词;垃圾焚烧;文本相似度
doi : 10 . 3969 / j . issn . 1673 - 0194 . 2018. 13. 070
[中图分类号] TP391.3 [文献标识码] A [文章编号] 1673 - 0194(2018)13- 0157- 03
0 引 言
近年来,随着工业化、城市化进程的加快,“邻避”问题日益突出,给人民群众的生活及健康造成了不利的影响[1]。据统计,近年来中国境内规模在百人以上的群体性事件中,约32%与像垃圾焚烧这样的“邻避”项目密切相关,因此“邻避”冲突事件发生后如何通过科学决策和快速处置最大限度地降低事件造成的损失和社会影响成为建设生态文明、构建和谐社??过程中亟需解决的现实问题[2]
我国学者就“邻避”问题的研究主要通过分析、比较真实发生的案例,运用经济学、政治学、社会学等学科的视角和研究方法,得出许多对现实有着指导意义的建议。总体上,当今国内关于“邻避”问题的文献中,研究方法仍以定性方法占多数,而采用定量分析的文献仍然较少,这与西方学界大量运用定量分析、以数据为支撑的研究仍有很大差距。为此,本文将基于文本分词、词义相似度替换以及皮尔逊相关系数法计算案例相似度的方法引入到“邻避”冲突事件的应急决策中,为提出更加精准高效的决策提供支持。
1 文本分词
1.1 基于Python结巴分词的文本分词
结巴分词支持精准模式、全模式以及搜索引擎模式三种分词模式,精准模式指将句子最精确地分开,适用于文本分析,全模式指把句子中所有的可以成词的词语都扫描出来, 优点是速度非常快,但是无法解决歧义,搜索引擎模式指在精确模式的基础上,对长词再次切分,提高召回率,适用于搜索引擎分词。
结巴分词自带一个文本词典,命名为“dict.txt”,其中包含了两万多条词,包含了每个词条出现的次数以及词性(词条次数是结巴分词创造者基于人民日报语料等资源训练得出来的)。结巴分词属于概念语言模型分词,所谓概念语言模型分词,是指在全切分所得的所有结果中求某个切分方案S,使得P(S)最大。
1.2 数据矢量化
数据矢量化是指将文本分词得到的元数据按照关键词表和对应的权重进行矢量化的过程。为了使文本分词得到的结果能够进行量化计算,我们将分词结果与关键词表进行对比去除无意义的词,计算所有关键词的权重,做出对应的键值对矢量表,其中键为关键词,值为权重。
1.3 关键词词义相似度替换
不同人在表达相同的意思时可能会使用不同的词语,仅仅通过文本分词无法使数据矢量化过程结果准确,因此就需要用到关键词词义相似度替换,将与关键词语义相似的词语替换为关键词本身。词义相似度是指两个给定词语的语义相似度。我们使用百度AI开放平台NLP(自然语言处理)接口,它依托全网海量优质数据和深度神经网络技术,通过词语向量化来计算两个词之间的相似度,基于自然语言中的分布假设,即越是经常共同出现的词之间的相似度越高。
百度AI开发平台NLP接口使用百度大规模网页数据进行模型训练,具有样本数据丰富且时效性高,收录词汇覆盖度广,召回率高的特点,同时其基于DNN深度学习大量样本训练模型,完成词语的向量化,可建立高精度的词向量表示体系,另外还基于高精度的词向量表示系统及海量样本训练学习,能够准确描述词义相似度,满足高精度要求的业务场景需求。
2 皮尔逊相似度计算模型
向量相似度的计算主要分为欧几里得距离算法和皮尔逊相关系数算法(Peaon)。其中皮尔逊相关系数法是比欧几里得距离更加复杂的计算向量相似度的一种方法。该相关系数是判断两组数据与某一直线拟合程序的一种试题,它在数据不是很规范的时候,会倾向于给出更好的结果。皮尔逊相关系数是一种度量两个变量间相关程度的方法。其结果是一个介于-1到1之间的值,其中1表示变量完全正相关,-1表示完全负相关,0表示无关。我们使用该系数用来说明两个文本案例之间的强弱程度,数值越大,两个文本案例的相关性就越高,当系数为负时,表明案例间无相关[3]。其计算公式如下:
3 案例应用――垃圾焚烧事件
本文以垃圾焚烧“邻避”事件为例通过上述方法进行文本相似度计算。将从网络任意搜索的一则案例同时与一个垃圾焚烧发电厂顺利落地的典型案例和一个遭受“
您可能关注的文档
- 打好精准脱贫攻坚战之电商扶贫研究管理论文.doc
- 大地保险引进8家战略投资者前景可期管理论文.doc
- 大数据背景下的我国开放数据的研究现状分析管理论文.doc
- 大数据背景下互联网金融专业教学模式探析管理论文.doc
- 大数据背景下企业财务管理的挑战与变革管理论文.doc
- 大数据时代企业人力资源创新思考管理论文.doc
- 大学生村官职业倦怠问题研究管理论文.doc
- 大学生金融衍生品了解程度调查报告管理论文.doc
- 大学生精致利己主义现象调查探讨管理论文.doc
- 大学生在线冲动性购买行为模式及引导策略管理论文.doc
- 2026年投资项目管理师之宏观经济政策考试题库300道附答案【精练】.docx
- 超星尔雅学习通《形势与政策(2025春)》章节测试附完整答案(网校专用).docx
- 超星尔雅学习通《形势与政策(2025春)》章节测试带答案(研优卷).docx
- 超星尔雅学习通《形势与政策(2026春)》章节测试题附参考答案(实用).docx
- 2026年刑法知识考试题库a4版.docx
- 2026年刑法知识考试题库标准卷.docx
- 2026福建泉州市面向华南理工大学选优生选拔引进考试题库新版.docx
- 2026年国家电网招聘之文学哲学类考试题库300道含完整答案(夺冠).docx
- 2026年法律职业资格之法律职业客观题一考试题库300道含答案【巩固】.docx
- 2026年刑法知识考试题库【精练】.docx
原创力文档


文档评论(0)