贾俊华语义特征分析思路.docxVIP

下载本文档

3
0
约1.27万字
约 14页
2021-12-08 发布于四川
举报
版权申诉

贾俊华语义特征分析思路.docx

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

L文本语义分类实际上，文本语义分类是一个有监督的机器学习问题：首先要对己知语义类别的文本数据库提取文本语义特征，然后构造分类器，利用己有的标注训练分类器；最后利用这个语义分类器对样本进行分类。整个步骤如下图： 2文本语义特征分析对于文本特征的分析是一个考察特征鉴别力的过程，特征分析的结果为特征选择提供了依据。特征选择是必须的，不仅是因为运算复杂度（从很多的特征集合里选取有限的特征），而且是考虑到在训练一个语义分类器前，要去除信息无关特征，从而在一个标注的文本数据集合上可以避免过训练的问题。而特征选择又可以看作是一个优化问题，其关键是建立一种评价标准来区分哪些特征或特征的组合有助于分类，即哪些特征或特征组合存在冗余性或互补性，选择互补的特征而去除冗余的特征。根据评价函数与分类器的关系，特征选择方法分成封装器（wrapper）和筛选器（filter）两种，其中封装器采用分类器的错误概率作为评价函数，而筛选器的评价函数与分类器无关。特征提取的最终目的是为了对文本进行分类，因此分类的正确性成为考察特征鉴别力最直观的主要指标。能够使分类器分类的错误最小的特征，显然是鉴别力最佳的特征。因此，可以直接从分类的结果来分析文本的特征。但基于分类器的分类效果而进行的特征分析计算量太大，实用性较差，计算分类器的错误概率过于复杂。并且基于分类器的文本特征的分析要依赖分类器的种类，不同的分类器对于相同的文本特征鉴别力的分析可能会有着不同的结果。进行特征选择的目的并非简单地是为了计算不同特征或特征组合的分类错误和选择错误率最小的特征或特征组合，因为这会使特征分析过程依赖于分类器。筛选器的评价函数又可分为距离测度和信息测度等。 3,分等级的文本数据库语义分类每一级的文本数据库分为两类，根据通过训练得到的语义特征进行。如下图 A类/ B类 A类/ B类人这里仅考虑了二类分类，选择SVM作为分类器。之所以没有考虑三类及三类以上的分类，是因为二类分类是所有分类的基础，实现三类及三类以上的方法最简单的可以采用one vs other的方式，分层次地用二类分类实现多类的分类，即把一类文本数据看作是A类，把不属于这一类的文本都认为是B类，再在B类里用前述方法进行二类分类，直至完成所有分类。对分等级的文本数据库进行简单的语义分类，所用方法如下图: 输入文本提取文本的特征客体主体受事客事判断属于成果/与事找出主体中的施事和当事判别属于主体/客体判别属于受事/挥与事▼找出文本中提取文本的特征客体主体受事客事判断属于成果/与事找出主体中的施事和当事判别属于主体 /客体判别属于受事/挥与事 ▼ 找出文本中客事找出文本中与事▼ 找出文本中与事找出文本中成果 4,文本基本处理是构成了语义分析的基础，有很多方面，这里说三个主要的：中文分词、语言模型和Term Weightingo 4. 1中文分词拿到一段文本后，通常情况下，首先要做分词。分词的方法一般有如下几种: 基于字符串匹配的分词方法。此方法按照不同的扫描方式，逐个查找词库进行分词。根据扫描方式可细分为：正向最大匹配，反向最大匹配，双向最大匹配，最小切分（即最短路径）;总之就是各种不同的启发规则。全切分方法。它首先切分出与词库匹配的所有可能的词，再运用统计语言模型决定最优的切分结果。它的优点在于可以解决分词中的歧义问题。下图是一个示例, 对于文本串〃南京市长江大桥〃，首先进行词条检索（一般用Trie存储），找到匹配的所有词条（南京，市，长江，大桥，南京市，长江大桥，市长，江大桥，江大，桥），以词网格（word lattices）形式表示，接着做路径搜索，基于统计语言模型（例如n-gram）找到最优路径，最后可能还需要命名实体识别。下图中〃南京市长江大桥〃的语言模型得分，即P（南京市，长江，大桥）最高，则为最优切分。返市长江大桥/s 室而衰江天莅京而W江大桥/s 示币长江大桥/s—、 I y -■ I I 返市长江大桥/s 室而衰江天莅京而W江大桥/s 示币长江大桥/s —、 I y -■ I I『 :-12. 734082 :-15. 659960 图4.1.1 南京市长江大桥”语言模型得分由字构词的分词方法。可以理解为字的分类问题，也就是自然语言处理中的 sequence labeling问题，通常做法里利用HMM, MAXENT, MEMM, CRF等预测文本串每个字的tag,譬如B,E, LS,这四个tag分别表示:beginning, inside, ending, single,也就是一个词的开始，中间，结束，以及单个字的词。例如〃南京市长江大桥〃的标注结果可能为：〃南(B