基亏核心词汇评估的中文特征信息对比技术.pdfVIP

下载本文档

3
0
约6.9千字
约 2页
2017-07-03 发布于江苏
举报
版权申诉

基亏核心词汇评估的中文特征信息对比技术.pdf

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

基亏核心词汇评估的中文特征信息对比技术

基亏核心词汇评估的中文特征信息对比技术 A Method forValuingandAssessingAttributiveInformation in ChineseBasedontheExtractionofCoreW ords 王永鑫覃正李岱峰王琳 (西安交通大学管理学院西安 710049) 摘要在现有的基于字面词语的相似度计算方法和二元语法无词典分词的基础上，进行了评估流程的改进，引入信息量的统一计算，提出了一种基于核心词汇抽取的中文特征信息评估对比方法，并提供相应的实验结果。关键词中文特征信息核心词汇相似度计算信息熵利用计算机实现大量中文文本特征信息的提取与对比是许无直接联系的字词，例如：我、你、的，一般来说，常用的虚词、人称多信息处理与挖掘方面研究人员所共同关心的课题。而作为汉代词等均属此类情况，在特定领域的应用中也会出现类似的可删语的基本语素单位，中文词语——尤其是大段文本中的核心词汇除字词；依照不同的需求，将这类字词从 P。、P 中剔除，以免影响 — — 承载了所在文本的主要特征信息，基于核心词汇的信息提取后续的对比评估计算结果。与处理方法有着广阔的发展前景。步骤2 生成逻辑词组。设 P P：经过删减后成为P P：。，但是，与此相关的两项重要研究：中文分词、中文相似度计则：算，长期以来处于独立发展，互不连通的境况之中，造成了面向实 a，初始断词。另设 w w：分别为P P：。对应的所有可能分用的完整而又高效的中文特征信息对比技术迟迟不能出现。所割的两个字符的集合：以，需要将整个对比过程通盘考虑，改进信息量的评估方法，提高 W = {l，2，…， }(i=1，2) 对比技术的简洁性和可操作性。 · 其中，为双字长的字符串，对应一个两元组 (wq，t )，uq 1 算法原理表示该字符串的出现次数，up表示该字符串的首字符的出现位置。例如：。西安交通大学对应的字符串集合为。西安、安交、交 1．1 算法要点首先，针对汉语中大多数常用词汇是双字词通、通大、大学。的特点，借鉴现有的二元语法模型的分词思路，建立逻辑词组的 b，逻辑词生成规则。经过实际观察，大多数只出现一次的逻概念：辑词并不包含文段的核心信息或所含有的信息不足以对评估结二元语法模型：设在连续文本中，第 w 个词出现的概率由前果产生足够大的影响，故可予以剔除。接着进行如下逻辑词合并。 W 一1个词决定，当w取2时，这样的语言模型便是二元语法模设和为w 中的两个字符串，则：型。目前，二元语法模型是汉语分词研究中较为常用的无词典切令训 =mlm2，训 =竹l竹2，若竹l=m2或 ml= 竹2，便进分方案，其实用性已得到广泛的认可。行逻辑词判别，过程如下：逻辑词组：根据二元语法模型的原理，经过双字截词后按照当 1 p— pI= 1时，判断 Ⅲ与 w的关系—— 出现次数所合并产生的词组，但并不考虑词组中各