一种基于语义相似分析的围串标智能识别方法.pdf

一种基于语义相似分析的围串标智能识别方法.pdf

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
(19)中华人民共和国国家知识产权局 (12)发明专利申请 (10)申请公布号 CN 111274783 A (43)申请公布日 2020.06.12 (21)申请号 202010038033.0 (22)申请日 2020.01.14 (71)申请人 广州供电局有限公司 地址 510000 广东省广州市天河区天河南 二路2号 (72)发明人 谢荣伟 韩卫民 陆志浩 马仲能  黄康君  (74)专利代理机构 上海精晟知识产权代理有限 公司 31253 代理人 汤蔚莉 (51)Int.Cl. G06F 40/194(2020.01) G06F 40/30(2020.01) G06F 40/284(2020.01) 权利要求书1页 说明书4页 附图1页 (54)发明名称 一种基于语义相似分析的围串标智能识别 方法 (57)摘要 本发明涉及一种基于语义相似分析的围串 标智能识别方法,先计算关键词相似性、文本统 计相似性及章节综合语义相似性,再结合这三个 维度的权重,通过这三个维度的加权平均计算得 到两份投标文件的综合相似度,进而判断是否围 串标。本申请采用的围串标识别方法,通过人工 智能语义分析技术深度解读不同公司的投标文 件的相似特征,从统计特征层面与内容语义表达 层面多角度分析围串标的疑似可能性,可靠性 强,效率高,同时推动了人工智能技术在电力行 业围串标分析中的智能应用。 A 3 8 7 4 7 2 1 1 1 N C CN 111274783 A 权 利 要 求 书 1/1页 1.一种基于语义相似分析的围串标智能识别方法,其特征在于,具体包括以下步骤: S1:计算关键词相似性:利用TextRank算法分别从两份投标文件中抽取若干关键词,每 一份投标文件的一系列关键词构成关键词集合,利用两份投标文件对应关键词集合的交集 比例计算杰卡德距离,得到两份文件的关键词相似度; S2:计算文本统计相似性:过滤文件中的停用词、行业专用词,再利用tf-idf计算方法 提取统计权重特征向量,并计算特征向量之间的余弦相似性即得到文本统计相似性; S3:计算章节综合语义相似性:先计算每个章节特征向量的余弦相似性,再结合每个章 节的权重,得到两份投标文件的章节综合语义相似度; S4:计算综合相似度:根据经验设计关键词相似性、文本统计相似性及章节综合语义相 似性这三个维度的权重,通过这三个维度的加权平均计算得到两份投标文件的综合相似 度,进而判断是否围串标。 2.根据权利要求1所述的一种基于语义相似分析的围串标智能识别方法,其特征在于, S2中过滤停用词、行业专用词的步骤是: S21:根据人工经验和分词统计方法,构建停用词库、行业专用词库; S22:采用jieba分词对文件进行分词处理,然后将每一个分词分别与停用词库、行业专 用词库中的词进行比较,如果是停用词库、行业专用词库的词则删除,以此循环删除所有的 停用词、行业专业词。 3.根据权利要求2所述的一种基于语义相似分析的围串标智能识别方法,其特征在于, S3中每个章节特征向量的余弦相似性的具体计算步骤如下: S31:利用WORD2VEC技术对历史所有投标文件进行词向量训练; S32:采用如权利要求2所述的过滤方式将两份投标文件中每个章节的停用词、行业专 用词过滤掉,得到的剩下词语,获取词向量取平均值得 到章节内容的向量特征,再计算每个章节特征向量的余弦相似性。 4.根据权利要求1所述的一种基于语义相似分析的围串标智

文档评论(0)

10301556 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档