- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
(19)中华人民共和国国家知识产权局
(12)发明专利申请
(10)申请公布号 CN 111444705 A
(43)申请公布日
2020.07.24
(21)申请号 202010162323.6 G06F 40/151(2020.01)
G06F 16/31(2019.01)
(22)申请日 2020.03.10
G06F 16/35(2019.01)
(71)申请人 中国平安人寿保险股份有限公司
地址 518033 广东省深圳市福田区益田路
5033号平安金融中心14、15、16、37、
41、44、45、46层
(72)发明人 曾增烽 刘东煜
(74)专利代理机构 北京市京大律师事务所
11321
代理人 刘挽澜
(51)Int.Cl.
G06F 40/232(2020.01)
G06F 40/289(2020.01)
G06F 40/242(2020.01)
G06F 40/186(2020.01)
权利要求书3页 说明书11页 附图5页
(54)发明名称
纠错方法、装置、设备及可读存储介质
(57)摘要
本发明涉及人工智能技术领域,公开了一种
纠错方法,包括以下步骤:获取待纠错的文本数
据,对所述文本数据进行分词处理,得到待转换
字符,将所述待转换字符转换为拼音序列,根据
所述拼音序列,采用预设的多模匹配算法从纠错
词典中匹配出与所述拼音序列对应的正确字符,
将所述正确字符替换所述文本数据中对应的待
转换字符。本发明还公开了一种纠错装置、设备
及计算机可读存储介质,从而能够实现对于文本
中错误字符的快速纠错,同时在后续使用中,只
需将新文本加入至纠错词典中即可,更新成本
低,便于维护。
A
5
0
7
4
4
4
1
1
1
N
C
CN 111444705 A 权 利 要 求 书 1/3页
1.一种纠错方法,其特征在于,所述纠错方法包括以下步骤:
获取待纠错的文本数据,所述文本数据包括用户输入的文本信息和预设的文本模板;
对所述文本数据进行分词处理,得到待转换字符,其中所述待转换字符为单个中文字、
词组和产品名称中的一种;
将所述待转换字符转换为拼音序列;
根据所述拼音序列,采用预设的多模匹配算法从纠错词典中匹配出与所述拼音序列对
应的正确字符,其中,所述纠错词典为预先通过观察聊天机器人的聊天语料中常出现错误
的字符对应的正确字符的词典;
将所述正确字符替换所述文本数据中对应的待转换字符。
2.如权利要求1所述的纠错方法,其特征在于,所述纠错方法还包括:通过以下方式得
到所述纠错词典:
收集所述聊天机器人中的聊天语料;
提取所述聊天语料中出现错误且被纠正的字符;
将所述字符转换为拼音特征,并建立所述拼音特征与所述字符的映射关系;
根据所述多模匹配算法的匹配原理,对从所述聊天语料中提取到的所有字符对应的拼
音特征进行搜索树的构建,得到所述纠错词典。
3.如权利要求2所述的纠错方法,其特征在于,所述根据所述多模匹配算法的匹配原
理,对从所述聊天语料中提取到的所有字符对应的拼音特征进行搜索树的构建,得到所述
纠错词典的步骤包括:
将所有字符对应的拼音特征进行路径化,得到路径特征;
文档评论(0)