基于词语条件信息量新词发现.docVIP

下载本文档

14
0
约3.4千字
约 8页
2018-08-30 发布于福建
举报
版权申诉

基于词语条件信息量新词发现.doc

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

基于词语条件信息量新词发现

基于词语条件信息量新词发现　　摘要随着互联网用户群体的不断发展，每天都会有海量的文本产生，会产生很多新词，本文提出一种基于词语信息量特征的新词发现方法，使用CRF（条件随机场）进行新词发现的实验，测试中，实验结果表明取得一定的效果。　　【关键词】新词发现条件信息量条件随机场　　1 引言　　目前对于新词发现的研究主要基于三个方向：一种是基于规则的方法,该方法具有很强的领域针对性，在领域中具有很好的准确率，但可移植性差，且规则模板的制定需要耗费大量的人力物力，成本较大。郑家恒等提出建立规则库，通过“互斥性字串”过滤规则和构词规则进行新词的识别工作。第二种方法是基于统计的方法，统计的方法具有很好的适应性，能够灵活的应用于开放的领域，但是需要大规模的语料进行训练且会产生数据稀疏等问题。秦浩伟等提出了一种利用汉字词根的语素生产率的标准(MP)进行新词发现的研究，一个词根的语素生产率越高则表明其派生出新词的机会越大。罗智勇等提出基于多特征的自适应新词识别技术该方法以PAT 一Array 数据结构为基础, 采取自适应训练进行新词提取。第三种方法是规则与统计相结合的方法，聂颂等提出一种基于窗口移动的方法获取候选新词，对于四字未登录词条“W1W2W3W4”利用频率统计的方法得到候选新词，最后利用规则过滤候选新词中的垃圾串得到最终的新词列表。本文在前人的基础上提出一种基于词语信息量的统计特征，然后利用其它一些统计量，通过CRF（条件随机场）进行新词发现的研究。　　2 新词发现的形式化表述　　在获取的候选新词列表中包括我们需要发现的新词和需要过滤掉的垃圾串，所以新词发现的过程可表述为为新词和垃圾串的分类问题，根据信息论的相关原理，可将新词发现用公式表述为　　 (1) 　　其中表示候选新词的特征标记，χ {新词，垃圾串}，表示在给定的候选新词的条件下χ=新词或者χ=垃圾串时最大可能的N取值。表示事件的非平均条件信息量，即在给定候选新词的条件下完全确定事件χ是分类为新词或者垃圾串所必需的信息量即表示给定候选新词的条件下判断属于哪一类（新词，垃圾串）所必需χ的信息量的最大值。公式（1）可以近一步转化为以下形式：　　 (2) 　　候选新词是没有被分类出类别的词语列表，所以候选新词和候选新词特征之间的条件概率是未知的，如果条件概率是已知的，则候选新词就是已经判断出是属于新词还是垃圾串。这里将候选新词用候选新词特征即N表示，所以(2)可以近一步转化为下试：　　(3) 　　综上，把新词发现过程用表述为候选新词统计特征选择的问题，本文在这个模型的基础上提出基于词语条件信息量的统计特征研究新词发现问题。　　3 词语信息量的统计特征　　3.1 条件信息量　　条件信息量的定义为：联合空间{XY，p(xy)}中，事件xX和yY，事件x在事件y给定（已知）时的条件信息量定义为：　　I（x/y）=―log p(x/y)(5) 　　该试表示的含义为在已知事件y的条件下，确定事件x所必需的信息量。在本文的新词发现研究中，χ表示给定的一个字符，y表示在窗口词典中的前面的字符和后面的字符(本文建立一个窗口词典，语料被切分后，新词都会被切分开，会产生一些连续的单字串，比如：这/rzv 件/q 事/n 真是/d 不/d 明/tg 觉/v 厉/ag 的/ude1 恐怖/a ！/wt，这句话中“不明觉厉”就是一个新词，但是在分词时被分成了四个连续的单字串，所以对于分词时出现的连续单字串建立窗口词典，将连续的单字串本身和其前面的一个字符串和后面一个的字符串加入到窗口词典，它们的相对位置都是和切分语料中的位置相同)。　　3.2 窗口词典中词的条件信息量计算　　根据崔世起得出的结论，新词形式可以分为三种类型：　　（1）1+1、1+1+1、1+1+1+1，这种形式在新词中占了61.4%的比例。　　（2）2+1、3+1，这种形式占了31.2%的比例。　　（3）1+2、1+3、2+2等其他形式的新词占的比例很小，只有7.4%。　　根据以上的新词构词形式，选定窗口词典中的窗口为4，即考虑“W1W2W3W4”字符串计算条件信息量，具体算法过程如下所示：　　（1）令x=W1，则y=W2; y=W2W3; y=W2W3W4。根据公式（5）计算I（W1/W2），I（W1/W2W3），I（W1/W2W3W4）；例如：　　(6) 　　以此类推计算W1其他的条件信息量；最后求得：I(W1)= I（W1/W2）+I（W1/W2W3）+I（W1/W2W3W4）；　　（2）令x=W2，则y=W1; y=W3; y=W3W4;然后分别计：I（W2/W1），I（W2/W3），I（W1/W3W4），最后求得W2的条件