- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
(19)国家知识产权局
(12)发明专利申请
(10)申请公布号CN120235162A(43)申请公布日2025.07.01
(21)申请号202510713340.7
(22)申请日2025.05.30
(71)申请人山东浪潮科学研究院有限公司
地址250000山东省济南市高新区浪潮路
1036号S02号楼
(72)发明人张吉臣展恩昊李雪魏子重
(74)专利代理机构北京集佳知识产权代理有限公司11227
专利代理师祁丹
(51)Int.CI.
GO6FGO6F
GO6F
40/30(2020.01)40/295(2020.01)18/241(2023.01)
权利要求书3页说明书14页附图2页
(54)发明名称
一种基于语义密度的文本处理方法及系统
(57)摘要
CN120235162A本申请提供一种基于语义密度的文本处理方法及系统,应用于文本处理技术领域,获取目标文本,并对目标文本进行特征提取,得到目标文本的每个段落的多个文本特征;根据每个段落的文本特征,计算每个段落的语义密度评分;根据各个段落的语义密度评分,对每个段落进行分类,得到每个段落的段落类别;若段落的段落类别为高密度,根据目标文本的文本类型和段落的语义密度评分,对段落进行分块处理,得到段落对应的多个文本分块;若段落的段落类别为低密度,根据目标文本的文本类型、段落及其语义密度评分和各个其他段落及其语义密度评分对段
CN120235162A
性。
获取目标文本,并对目标文本进行特征提取,得到目标文本的每个段落的多个文本特征
根据每个段落的文本特征,计算每个段落的语义密度评分
根据每个段落的语义密度评分对每个段落进行分类,得到每个段落的段落类别
针对每个段落,判断段落的段落类别是否为高密度,或者是否为低密度
段落类别为低密度
段落类别为高密度
根据目标文本的文本类型和段落的语义密度评分,对段落进行分块处理,得到段落对应的多个文本分块
根据目标文本的文本类型、段落及其语义密度评分和各个其他段落及其语义密度评分对段落进行处理,其中,其他段落为除了段落以外的段落
S101
S102
S103
S104
S105
8106
CN120235162A权利要求书1/3页
2
1.一种基于语义密度的文本处理方法,其特征在于,所述方法包括:
获取目标文本,并对所述目标文本进行特征提取,得到所述目标文本的每个段落的多个文本特征;
根据每个所述段落的文本特征,计算每个所述段落的语义密度评分;
根据每个所述段落的语义密度评分对每个所述段落进行分类,得到每个所述段落的段落类别;其中,所述段落类别为高密度,或者为低密度;
若所述段落的段落类别为高密度,根据所述目标文本的文本类型和所述段落的语义密度评分,对所述段落进行分块处理,得到所述段落对应的多个文本分块;
若所述段落的段落类别为低密度,根据所述目标文本的文本类型、所述段落及其语义密度评分和各个其他段落及其语义密度评分对所述段落进行处理;其中,所述其他段落为除了所述段落以外的段落。
2.根据权利要求1所述的方法,其特征在于,所述获取目标文本,并对所述目标文本进行特征提取,得到所述目标文本的每个段落的多个文本特征,包括;
获取待进行处理的目标文本;其中,所述目标文本包括多个段落;
针对每个所述段落,将所述段落输入利用蒸馏后的语言模型,使所述蒸馏后的语言模型通过命名实体识别统计所述段落内的实体数量,并根据所述实体数量计算所述段落的实体密度;通过词频分布计算所述段落的信息熵;统计所述段落内的各个逻辑连接词的出现次数,并根据各个所述逻辑连接词的出现次数计算所述段落的逻辑连接强度;根据预设核心短语识别算法对所述段落进行识别,得到所述段落的多个核心短语,并根据所述段落及其多个核心短语,计算所述段落的核心短语覆盖率;
其中,所述段落的实体密度、信息熵、逻辑连接强度和核心短语覆盖率构成所述段落的多个文本特征。
3.根据权利要求2所述的方法,其特征在于,所述根据每个所述段落的文本特征,计算每个所述段落的语义密度评分,包括:
针对每个所述段落,利用所述蒸馏后的语言模型计算所述段落的每个文本特征的特征值,并根据将每个所述文本特征的特征值映射至[0,1]区间内得到的每个所述文本特征的目标特征值,计算所述段落的语义密度评分。
4.根据权利要求1所述的方法,其特征在于,所述根据每个所述段落的语义密度评分对每个所述
您可能关注的文档
- CN119622869B 一种高桩码头桩基侧向位移预测模型的构建方法 (中交广州航道局有限公司).docx
- CN119635658B 一种微小型机器人运动控制方法和系统 (苏州大学).docx
- CN119638904B 一种无土相水基钻井液用抗温抗盐交联增粘降滤失剂及其制备方法与应用 (中国石油大学(华东)).docx
- CN119697091B 一种基于确定性网络的多路备用多云互联方法、装置和介质 (山东未来网络研究院(紫金山实验室工业互联网创新应用基地)).docx
- CN119721705B 土壤重金属污染的累积性环境风险预警分析方法及系统 (云南大学).docx
- CN119723337B 基于地空融合三维激光点云的树木识别方法及系统 (山东大学).docx
- CN119737166B 狭小空间极限半径盾构隧道智能调控方法 (中国建筑第六工程局有限公司).docx
- CN119760646B8 基于机器视觉的重载大抱具驱动轮多模态损伤检测方法 (杨明川).docx
- CN119763660B 一种基于环境dna和机器学习的水体污染物溯源方法 (同济大学).docx
- CN119783732B 一种基于多源遥感技术的找矿方法、装置、设备及介质 (云南大学).docx
原创力文档


文档评论(0)