配网工程项目词库创建与`分词探索.docVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
配网工程项目词库创建与`分词探索

配网工程项目词库创建及分词探索   摘 要:随着国网公司信息系统的完善和业务数据的积累,公司各业务部门开展了数据探索和分析,以支撑逐年增加投资、扩大规模的配网工程项目建设工作。但是由于各省市公司的管理模式不同,导致配网工程项目相关数据一致性较差,可用于支撑分析的特征值较少。因此论文基于文本挖掘方法创建符合国网公司特性的工程词库,弥补过往历史数据的缺失和不完整,使历史文本数据能够支撑后续数据分析工作 关键词:文本挖掘;配网工程;词库创建 中图分类号:TP391 文献标识码:A 文章编号:1006-8937(2016)32-0072-02 1 研究背景 配网工程项目具有项目类型众多、物资使用种类集中的特点,随着国网信息化系统建设的逐渐完善,出现联合数据分析的需求,然而由于各网省公司项目管理水平的差异,配网项目在各网省公司的管理模式不同 部分省公司按照区县对配网项目进行打包管理,部分省公司则按照单体项目进行管理。但是从整体来看,针对配网工程项目的管理是松散的,直接导致了配网工程项目的可用特征较少,无法配合其他数据,以工程项目为对象进行联合数据分析。但是配网工程项目的命名包含一定规律,可以通过文本挖掘的方法从工程项目名称中提取有效的项目属性特征,以描述工程建设性质和建设内容。然而目前较为成熟的分词函数都依赖于对应的专业词库,即基于一本专业“词典”自动完成名词的分解,所以提取配网工程项目特征标签的首要任务就是构建专业的配网电网词库,以支持后期分词函数的应用,完成对配网工程项目名称的分词 2 词库构建原理 传统的词典创建方法通常认定出现频数超过某个阈值的文本片段即为词典的组成部分,然而并没有考虑到该文本片段是否仅为一个词还是由多个词构成的词组,因此为了克服传统方法的缺点,需要综合分析自然语言的内部凝聚程度和外部自由运用程度两个方面去构建配网专业词库。其中词语的内部凝聚程度指的是一个文本片段成词的概率,凝聚程度越大说明该文本片段越可能成为一个词即进入配网专业词库,如“维修工程”出现的概率为“维修工”出现概率的25倍,这说明“维修工程”更可能是一个具有实际意义的配网专业词汇 外部自由运用度指的是定义该词语片段与左邻、右邻词语之间的相关程度,计算该文本的左邻字和右邻字所能够提供的信息熵,信息熵越大,说明该文本可提供的信息量越大,该文本的左右邻字越丰富,即可以更加自由地运用于各个语言环境中,如“台区”前后可以添加各类文本片段成词,然而“变电台区”、“新增台区”、“台区布点”等词却仅能够以单独形态成词,即更有可能成为真正有区分度的有实际意义的配网专业词汇 用p(x)代表词语的凝聚程度,P(AB)代表该文本片段在整个文本中出现的概率,P(A),P(B)代表子文本片段在整个文本中出现的概率,凝聚度公式如下: P(x)= \*MERGEFORMAT(1) 用H(u)代表文本所能提供的信息熵,Pi代表不同情况下的概率,通常情况下,外部信息熵公式如下: H(u)=E[-logpt2]=-P?log \*MERGEFORMAT(2) 如果仅从内部凝聚程度考虑,有可能出现找到部分词的情况,该词内部凝聚程度很高,但并不包含完整的文本片段,如变电、开闭等。同样,如果仅从外部自由程度去考虑,很有可能提取到相当多的连接字,该连接字可以很大程度上自由地运用于文本环境中,如的、了等。因此模型首先需要对输入文本进行预处理,将一列项目名称整合成一段紧密相连的文本片段、去掉字母、数字和特殊符号,将预处理后的文本按从前至后和从后至前两个方向进行单字切割,分别生成单字出现字频表 然后计算并逐步检验可能成词的文本片段的内部凝聚程度和外部自由运用程度两个指标,结合实际业务需求,在程序中设定合适的内部凝聚度阈值和左右信息熵阈值,按照业务规则最终筛选得到既准确又有现实意义的配网电网专业词库字典,比如针对项目名称中各省地市公司的地理位置词语,由于缺乏能够揭示工程建设性质和建设内容的实际意义,所以即便可以满足内部凝聚程度和外部自由运用程度两个指标的要求,也不能作为最终的词语进入配网电网专业词典 运用R语言实现以上步骤,该阶段的输入数据是一列包含配网电网特征关键词的项目名称,输出是一列可能成词的文本即配网电网专业词库字典,该输入输出的数量并非一一对应的关系,如图1所示 3 分词原理 运用R语言中的结巴(jiebaR)工具包,利用其支持的最大概率法(Maximum Probability),隐式马尔科夫模型(Hidden Markov Model),索引模型(Query Segment),混合模型(Mix Segment)共四种分词模式的功能,首先引入并应用已经创建完成的配网专业词典,替换掉结巴(jiebaR

文档评论(0)

docman126 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

版权声明书
用户编号:7042123103000003

1亿VIP精品文档

相关文档