- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
(19)中华人民共和国国家知识产权局
(12)发明专利申请
(10)申请公布号 CN 111444330 A
(43)申请公布日
2020.07.24
(21)申请号 202010156963.6 G06F 40/253(2020.01)
G06F 40/205(2020.01)
(22)申请日 2020.03.09
G06F 40/169(2020.01)
(71)申请人 中国平安人寿保险股份有限公司
地址 518033 广东省深圳市福田区益田路
5033号平安金融中心14、15、16、37、
41、44、45、46层
(72)发明人 唐亚
(74)专利代理机构 北京市京大律师事务所
11321
代理人 刘挽澜
(51)Int.Cl.
G06F 16/335(2019.01)
G06F 16/35(2019.01)
G06F 16/31(2019.01)
G06F 40/289(2020.01)
权利要求书3页 说明书15页 附图4页
(54)发明名称
提取短文本关键词的方法、装置、设备及存
储介质
(57)摘要
本申请涉及人工智能领域,公开了一种提取
短文本关键词的方法、装置、设备及存储介质,提
高短文本关键词提取的准确性。本申请方法包
括:从待处理短文本中获取候选关键词;获取候
选关键词中顺序号为连续性的目标标注信息以
及目标标注信息对应的目标候选关键词,得到待
处理信息;根据待处理信息创建N元语法信息,并
将N元语法信息标注至目标候选关键词,得到标
注关键词;合并标注关键词,得到候选短语;按照
预设短语词性拼接规则对候选短语进行分析,获
得目标候选短语;当分析到目标候选短语存在子
A 字符串关系时,将与子字符串关系对应的目标候
0 选短语删除,得到修正候选短语;将存在交叉字
3
3
4 的修正候选短语进行拼接处理,得到目标关键
4
4
1 词。
1
1
N
C
CN 111444330 A 权 利 要 求 书 1/3 页
1.一种提取短文本关键词的方法,其特征在于,包括:
对待处理短文本进行关键词预提取处理,获得候选关键词;
获取所述候选关键词的目标标注信息以及所述目标标注信息对应的目标候选关键词,
得到待处理信息,所述目标标注信息为顺序号为连续性的标注信息;
根据所述待处理信息创建N元语法信息,并将所述N元语法信息标注至所述目标候选关
键词,得到标注关键词;
根据所述目标标注信息和所述N元语法信息合并所述标注关键词,得到候选短语;
按照预设短语词性拼接规则对所述候选短语进行分析,获得目标候选短语;
当分析到所述目标候选短语存在子字符串关系时,将与所述子字符串关系对应的目标
候选短语删除,得到修正候选短语,所述目标候选短语包括主目标候选短语和/或子目标候
选短语,所述子字符串关系指示所述子目标候选短语由所述主目标候选短语中的字词构
成;
将存在交叉字的所述修正候选短语进行拼接处理,得到目标关键词,所述交叉字指示
在两个所述修正候选短语中一个修正候选短语的末端词与另一个修正候选短语的始端词
相同。
2.根据权利要求1所述的方法,其特征在于,所述根据所述目标标注信息和所述N元语
法信息合并所述标注关键词,得到候选短语,包括:
文档评论(0)