一种基于决策树的术语判定方法.pdf

  1. 1、本文档共24页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多

(19)中华人民共和国国家知识产权局

(12)发明专利说明书

(10)申请公布号CN104572621A

(43)申请公布日2015.04.29

(21)申请号CN201510002515.X

(22)申请日2015.01.05

(71)申请人语联网(武汉)信息技术有限公司

地址430073湖北省武汉市东湖开发区光谷软件园一期以西、南湖南路以南、光谷软

件园六期2幢6层206号

(72)发明人江潮张芃

(74)专利代理机构北京康盛知识产权代理有限公司

代理人张宇峰

(51)Int.CI

G06F17/27

权利要求说明书说明书幅图

(54)发明名称

一种基于决策树的术语判定方法

(57)摘要

一种基于决策树的术语判定方法,

包括:对原始语料以语素为单位进行任意

长度的切分,获得若干候选术语,其中,

每个所述候选术语由至少二个语素组成;

确定影响术语判定的多个特征,计算出每

个所述候选术语的每个特征的特征值;以

每个所述候选术语的多个特征值,在用于

术语判定的决策树中,依照所述决策树的

生成顺序进行依次判定;将通过所述决策

树判定成功的所述候选术语作为新术语。

本发明减少了人工处理的工作量,确保得

到的术语可靠性和准确性较高。

法律状态

法律状态公告日法律状态信息法律状态

权利要求说明书

1.一种基于决策树的术语判定方法,其特征在于,包括:

对原始语料以语素为单位进行任意长度的切分,获得若干候选术语,其

中,每个所述候选术语由至少二个语素组成;

确定影响术语判定的多个特征,计算出每个所述候选术语的每个特征的

特征值;

以每个所述候选术语的多个特征值,在用于术语判定的决策树中,依照

所述决策树的生成顺序进行依次判定;

将通过所述决策树判定成功的所述候选术语作为新术语。

2.根据权利要求1所述的术语判定方法,其特征在于,所述确定影响

术语判定的多个特征,包括:

候选术语在原始语料中的词频、候选术语被分割为任意长度的两部分,

所述任意两部分的互信息的最小值、候选术语的左熵和右熵两者中较大值、

候选术语独立成词的概率、候选术语的每个语素在所述历史语

料库中处于词头位置、词中位置和词尾位置的出现概率、以及

候选术语的领域概率。

3.根据权利要求2所述的术语判定方法,其特征在于,在所述以每个

所述候选术语的多个特征值,在用于术语判定的决策树中,依照所述决策树

的生成顺序进行依次判定之前,还包括:

从术语库中随机选取一定数量、且连续的若干个已认定的术语;

根据选取的所述术语,以及所述多个特征,利用ID3算法或C4.5算法

构建所述决策树。

4.根据权利要求3所述的术语判定方法,其特征在于,所述根据选取

的所述术语,以及所述多个特征,利用ID3算法或C4.5算法构建所述决策

树的过程中,包括:

将每个所述特征作为所述决策树上的判定结点,并且根据所述多个特征

的信息增益或信息增益比的大小关系,确定所述决策树的生成顺序;

其中,每个判定结点上具有其对应的特征的、用于形成所述决策树的枝

干的判定阈值。

5.根据权利要求4所述的术语判定方法,其特征在于,所述以每个所

述候选术语的多个特征值,在用于术语判定的决策树中,依照所述决策树的

生成顺序进行依次判定,具体包括:

将所述候选术语的每个特征值,依照所述决策树的生成顺序,与决策树

的判定结点上的判定阈值进行比较;

若在所述决策树上作为叶子结点的判定结点上判定成,则将该候选术语

标记为新术语。

文档评论(0)

各类考试卷精编 + 关注
官方认证
内容提供者

各类考试卷、真题卷

认证主体社旗县兴中文具店(个体工商户)
IP属地河南
统一社会信用代码/组织机构代码
92411327MAD627N96D

1亿VIP精品文档

相关文档