数据抽取中文本分类分析和研究.docVIP

下载本文档

9
0
约2.9千字
约 7页
2018-10-09 发布于福建
举报
版权申诉

数据抽取中文本分类分析和研究.doc

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

数据抽取中文本分类分析和研究

数据抽取中文本分类分析和研究　　【摘要】在数据抽取中，主要是对文本的处理。文本分类是文本处理的基本过程。文本分类技术同时还在自然语言处理、信息检索、文本挖掘等领域都有着广泛的应用。经过分类后的文本可以减少用户甄别信息时间，满足不同用户需求，发挥信息自身其最大使用价值。　　【关键词】向量；信息增益；特征项　　0 引言　　Web信息抽取技术可以大大的缩短人们对资料的整理时间，为信息检索提供方便，有利于现实文档的存档管理。而Web信息抽取技术所抽取的内容主要为文本，不断迅速发展的互联网可以被看作是十分巨大的文档库，大量的文档信息通常分散存放在不同网站上，它们具有不同的表现形式。为实现数据抽取，首要任务是需要将文本分类处理。　　1 文本的表示方法　　普通的文本是无结构的，为了让计算机分析它们所属的类别，需要将文本转化成可被处理的结构化形式，目前应用最广泛方法的是向量空间模型，基本思想是把文档表示向量空间中的一个向量。特征项必须具备一定的特性：　　1）特征项要能够准确标识文本内容，表征文本的主题信息；　　2）特征项具有将目标文本与其他文本相区分的能力；　　3）特征项的在数量上不能太多，且出现频率适中；　　4）特征项要容易从文本中分离，具有明确的语义。　　在中文文本类中最常用的是采用词语作为文本的特征项。词语有几个优点：相对于字具有更强的语义信息歧义较少；相对于短语，词更容易从文本中进行切分。词语由于含了多个文字组合，在文本中出现的频率较低，不适合作为特征项。　　文本中关键字出现的频率统计量用x表示，最高关键字出现频率取值为1，其它关键字频率取其与最高关键字出现次数的比值。页面向量空间表达式为：Dt（x1w1，x2w2，…，xnwn），i=1，2，…，n。关键字构成的主题向量Dk=（w1，w2，…，wn）， i=1，2，…，n。网页文本Dt与领域主题Dk之间的内容相关度Sim（Dt，Dk）使用向量夹角余弦值表示：　　sim（D■，D■）=cos？兹=■ 　　=■ 　　选择合适的多个特征词构成特征向量来表征所在的文本主题，使用特征向量作为文档的中间表示形式进行相互比较，降低了文本相似度算法复杂度。　　2 文本特征的选择　　待分类的网页文本中往往包括很多词语，这些词语对分类没有太大帮助，未经筛选特征项集合规模较大，文本特征向量维数较高给计算带来困难。需要提取一个能够很好地概括领域相关网页内容的特征子集，同时该子集要求能很好的区分领域主题。领域关键词是从领域文本集中经过算法选取出来的，能够高度概括和体现领域文本基本内容的词语。本文将这些词语通过特征提取算法选择出来构成空间向量。目前常用的特征选择方法有CHI统计、信息增益和互信息等。　　2.1 CHI统计　　CHI统计方法衡量词语t和文档类别c之间的依赖关系，并假设t和c之间的非独立关系符合具有一阶自由度的x2分布。词条对于某类别的x2统计值越高，表明它们之间的相关性越大，特征词t对类别c表征能力越强。令N表示训练语料中的文档总数，c为某一特定类别，t表示特定的词条，A表示属于类别c且包含t的文档频数，B表示不属于类别c但是包含t的文档频数，C表示属于类别c但不包含t的文档频数，D是既不属于c也不包含t的文档频数。则t对于类别c的CHI值由下列计算：　　x2（t，c）=■ 　　2.2 互信息　　互信息的基本思想：以词条t和类别ci之间的共同出现程度来表示词条t与类别ci的相关程度。词条对于类别的公共概率越大，它们之间的互信息也越大。假设p（t，ci）表示训练集合中既包含特征t又属于类别ci的文本出现的概率，p（t）表示包含特征t的文本在训练集合中出现的概率，p（ci）表示训练集合中属于类别ci的文本的概率，A为包含词语t且属于类别ci的文本数，B为为包含词语t且不属于类别ci的文本数，C为类别Ci中不出现特征t的文本数，N为文本总数，则特征t与类Ci之间的互信息定义为：　　M（t，c■）=log■=log■≈log■ 　　为了衡量一个特征在全局特征选择中的重要性，计算特征提供的关于类别信息的加权平均值。　　2.3 信息增益　　信息增益方法的基本思想是：通过计算某个特征词语存在与否对文档的信息熵的差值来判断该特征词的类别表征能力。具体方法是把训练文档集D看作按某种概念分布的信息源，依靠文档集的信息熵和文档中词语t的条件熵之间信息量的增益关系确定该词语在文本分类中所能提供的信息量。　　3 中文文本分类方法　　文本分类的方法中要有贝叶斯分类、支持向量机、K近邻等方法。　　3.1 朴素贝叶斯文本分类　　贝叶斯分类器其原理是计算文本属于某个类别的概率，将文本分到概率最大的类别中去，计算时，利