CN114357159B 事件聚类-脉络构建方法及其相关装置、设备和存储介质 (科大讯飞股份有限公司).docxVIP

CN114357159B 事件聚类-脉络构建方法及其相关装置、设备和存储介质 (科大讯飞股份有限公司).docx

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多

(19)国家知识产权局

(12)发明专利

(10)授权公告号CN114357159B(45)授权公告日2025.07.11

(21)申请号202111509493.8

(22)申请日2021.12.10

(65)同一申请的已公布的文献号申请公布号CN114357159A

(43)申请公布日2022.04.15

(73)专利权人科大讯飞股份有限公司

地址230088安徽省合肥市高新开发区望

江西路666号

(72)发明人赵崇帅代旭东顾成敏周维

李宝善陈志刚

(74)专利代理机构深圳市威世博知识产权代理事务所(普通合伙)44280

专利代理师刘希

(51)Int.CI.

GO6F16/353(2025.01)

GO6F16/36(2019.01)

GO6F40/284(2020.01)

GO6F40/30(2020.01)

(56)对比文件

CN112214993A,2021.01.12CN113449108A,2021.09.28

CN109522410A,2019.03.26CN112329460A,2021.02.05

审查员薛梅

权利要求书4页说明书16页附图5页

(54)发明名称

获取候选文本基于候选文本中词语的结构特征和语义特征分别抽取候选文本的关键词,形成每个候选文本的关键词子图

获取候选文本

基于候选文本中词语的结构特征和语义特征分别抽取候选文本的关键词,形成每个候选文本的关键词子图

基于关键词子图将关键词划分为若干个社区,并根据每个候选文本的关键词分别将候选文本聚类至社区中

在每个社区中,基于关键词子图将描述同一事件的候选文本聚类到同一事件节点中

S11

S12

S13

S14

(57)摘要

CN114357159B本申请公开了一种事件聚类/脉络构建方法及其相关装置、设备和存储介质,其中,事件聚类方法包括:获取候选文本;基于候选文本中词语的结构特征和语义特征分别抽取候选文本的关键词,形成每个候选文本的关键词子图;基于关键词子图将关键词划分为若干个社区,并根据每个候选文本的关键词分别将候选文本聚类至社区中;在每个社区中,基于关键词子图将描述同一事件的候选文本聚类到同一事件节点中。上述方案,

CN114357159B

CN114357159B权利要求书1/4页

2

1.一种事件脉络构建方法,其特征在于,所述方法包括:

获取候选文本;

基于所述候选文本中词语的结构特征和语义特征分别抽取所述候选文本的关键词,形成每个所述候选文本的关键词子图;

基于所述关键词子图将所述关键词划分为若干个社区,以获取若干事件节点;

对所述事件节点进行结构化显示,构建若干个故事树,且包括:

确定所述事件节点的事件时间和事件摘要,形成所述事件节点的简要文本;

依次将所述事件节点作为待分配事件节点,对所述待分配事件节点进行故事聚类,以将每个所述社区下的所述事件节点聚类到不同所述故事树;

在每个所述故事树中,基于所述事件节点的事件时间的时间先后顺序依次将所述事件节点作为所述待分配事件节点;

分别拼接所述待分配事件节点的候选文本和所述故事树中的所述事件节点的候选文本,形成待分配拼接节点和候选拼接节点;

利用相似度判别模型判定所述待分配拼接节点和所述候选拼接节点是否满足融合条件;

若是,则将所述待分配事件节点的所述候选文本及其关键词加入到与所述候选拼接节点对应的所述事件节点中;

若否,则计算所述待分配事件节点与所述故事树中的所述事件节点的连接强度,并将所述连接强度最大的所述事件节点作为所述待分配事件节点的父节点,以将所述待分配事件节点连接在所述父节点之后;

显示所述故事树及其所述事件节点的简要文本,或者重新获取新的事件节点,重新执行所述确定所述事件节点的事件时间和事件摘要,形成所述事件节点的简要文本及其后续步骤,以更新所述故事树。

2.根据权利要求1所述的方法,其特征在于,所述依次将所述事件节点作为待分配事件节点,对所述待分配事件节点进行故事聚类,以将每个所述社区下的所述事件节点聚类到不同所述故事树,包括:

基于所述事件节点的事件时间的时间先后顺序依次将所述事件节点作为所述待分配事件节点;

获取所述待分配事件节点的关键词集合与所述故事树的关键词集合的兼容性是否超过预设兼容值;

若是

您可能关注的文档

文档评论(0)

xm + 关注
实名认证
文档贡献者

专业学习资料,专业文档

1亿VIP精品文档

相关文档