- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
(19)国家知识产权局
(12)发明专利
(10)授权公告号CN112528654B(45)授权公告日2025.07.01
(21)申请号202011479380.3
(22)申请日2020.12.15
(65)同一申请的已公布的文献号申请公布号CN112528654A
(43)申请公布日2021.03.19
(73)专利权人作业帮教育科技(北京)有限公司地址100085北京市海淀区上地信息产业
基地开拓路1号4层4002
(72)发明人吕少科蒋宏飞宋旸邵睿张振
(74)专利代理机构北京清诚知识产权代理有限公司11691
专利代理师宋红艳
GO6F40/30(2020.01)
GO6F40/211(2020.01)
GO6N3/0464(2023.01)
(56)对比文件
CN111914067A,2020.11.10
CN110209774A,2019.09.06
CN112052331A,2020.12.08
CN110457689A,2019.11.15
审查员王艳臣
(51)Int.CI.
GO6F40/289(2020.01)权利要求书2页说明书10页附图6页
(54)发明名称
自然语言处理方法、装置及电子设备
(57)摘要
CN112528654B本发明属于计算机信息处理技术领域,提供一种自然语言处理方法、装置、电子设备及计算机可读介质,该方法包括:对文本数据中的文字进行分词处理以获取文字和/或词汇;将所述文本数据和其对应的领域属性输入文字向量模型中,获取字向量;将所述文本数据和其对应的领域属性输入词汇向量模型中,获取词向量;基于所述文本数据确定所述文字对应的第一权重和/或所述词汇对应的第二权重;通过所述字向量、所述第一权重和/或所述词向量、所述第二权重确定所述文本数据的句子语义向量;基于所述句子语义向量对所述实时文本数据进行自然语言
CN112528654B
S202
S202
对文本数据中的文字进行分词处理以获取文字和/或词汇
S204
将所述文本数据和其对应的领域属性输入文字向量模型中,获取字向量
S206
将所述文本数据和其对应的领域属性输入词汇向量模型中,获取词向量
S208
基于所述文本数据确定所述文字对应的第一权重和/或所述词汇对应的第二权重
S210
通过所述字向量、所述第一权重和/或所述词向量、所述第二权重确定所述
文本数据的句子语义向量
S212
基于所述句子语义向量对所述实时文本数据进行自然语言处理
CN112528654B权利要求书1/2页
2
1.一种自然语言处理方法,其特征在于,包括:
获取分词字典;
基于所述分词字典对实时文本数据进行分词,生成词汇网络,所述词汇网络为有向无环图;
基于动态规划算法确定所述词汇网络中的最大概率路径;包括:先通过词汇网络将所有的分词路径都搜索出来,然后分词的路径就是概率最大的路径,每个路径的概率=该路径所有词的概率乘积;
基于所述最大概率路径确定文字和词汇;基于所述文本数据的内容确定所述文本数据的领域属性;和/或基于所述文本数据的标签确定所述文本数据的领域属性;
将所述文本数据和其对应的领域属性输入文字向量模型中,获取字向量;
将所述文本数据和其对应的领域属性输入词汇向量模型中,获取词向量;
基于所述文本数据确定所述文字对应的第一权重和所述词汇对应的第二权重;
根据所述第一权重和所述字向量生成第一句向量;
根据所述第二权重将和所述词向量生成第二句向量;
将第一句向量和第二句向量进行拼接以生成句子语义向量;
基于所述句子语义向量对所述实时文本数据进行自然语言处理。
2.根据权利要求1所述的自然语言处理方法,其特征在于,还包括:
提取数据库中多个预设文本数据的句子语义向量;
基于所述句子语义向量将所述文本数据和所述多个预设文本数据进行相似度比较;
根据相似度比较结果由所述多个预设文本数据中确定目标文本数据。
3.根据权利要求1所述的自然语言处理方法,其特征在于,还包括:
基于多个带有领域属性的语料对深度神经网络模型进行训练,生成所述文字向量模型;
基于多个带有领域属性的语料对浅层神经网络模型进行训练,生成所述词汇向量模
您可能关注的文档
- CN110625833B 一种用于晶硅的上下料单元及上下料方法 (青岛高测科技股份有限公司).docx
- CN110702764B 一种生物传感器的复合过滤膜及其制备方法 (上海硕创生物医药科技有限公司).docx
- CN110707850B 转子铁磁冲片、转子组件及其制造方法以及液冷泵 (合肥新沪新能源有限公司).docx
- CN110727563B 预设客户的云服务报警方法及装置 (北京百度网讯科技有限公司).docx
- CN110779616B 一种飞行试验声爆信号测量方法 (中国航空工业集团公司沈阳空气动力研究所).docx
- CN110864861B 振动试验台及其工作方法 (广州航海学院).docx
- CN110942135B 提供深度神经网络的权重的平衡修剪的系统和方法 (三星电子株式会社).docx
- CN110970209B 大功率中远距离无线传输的充电线圈及其制备方法 (西安电掣风云智能科技有限公司).docx
- CN110987870B 基于波长调制光谱技术的实时监测气体浓度的系统和方法 (天津同阳科技发展有限公司).docx
- CN110993164B 多功能移动软电缆和制备方法 (安徽太平洋电缆股份有限公司).docx
- CN112748802B 利用脑电波信号生成影像的装置和方法 (现代自动车株式会社).docx
- CN112882061B 人车识别安全防护激光装置及方法 (深圳市砝石激光雷达有限公司).docx
- CN112942343B 一种用于沉桩施工的负压桶式导向架平台及其施工方法 (中铁大桥局集团有限公司).docx
- CN112977405B 混合动力车辆的地形驱动模式控制方法和装置 (现代自动车株式会社).docx
- CN113003017B 一种物料仓、混凝土原料系统及物料破拱方法 (李波).docx
- CN113039579B 一种生成高分辨率高精度点云的系统、设备和方法 (华为技术有限公司).docx
- CN113052078B 空中书写轨迹识别方法、装置、存储介质及电子设备 (Oppo广东移动通信有限公司).docx
- CN113112145B 一种数据处理方法、装置、电子设备及存储介质 (清华大学).docx
- CN113116928B 预防或治疗眼疾的组合物及方法 (佛教慈济医疗财团法人).docx
- CN113118141B 一种多喷头干冰清洁设备及方法 (摩比天线技术(深圳)有限公司).docx
原创力文档


文档评论(0)