文本分类过程教学文案.pptVIP

下载本文档

8
0
约1.73千字
约 18页
2020-06-08 发布于浙江
举报
版权申诉

文本分类过程教学文案.ppt

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

;;;;;;;;现实世界中数据大体上都是不完整，不一致的数据，无法直接进行数据挖掘，或挖掘结果差强人意。为了提高数据挖掘的质量产生了数据预处理技术。　数据预处理有多种方法：数据清理，数据集成，数据变换，数据归约等。这些数据处理技术在数据挖掘之前使用，大大提高了数据挖掘模式的质量，降低实际挖掘所需要的时间。;分词是将文本处理为独立的特征，即切分成词，主要针对东方语言，如：汉语、阿拉伯语等，因为这类语言是整个句子连接在一起的，每个词（特征）之间不是独立的。对于西方语言，如：英语、法语等，这类语言的每个词之间都有空格相互分隔，也就不需要进行分词处理。;文本不能被计算机识别，特征表示是指将实际的文本内容变成机器内部的表示结果。特征表示有两个步骤，即特征表示与特征权重计算。特征表示指特征提取的方式；权重计算指将特征转换为语言相似度的权重值。 ;向量空间模型，在向量空间模型（Vector Space Model，VSM）中，文档的内容被表示为特征空间中的一个向量。每条语料中的每个词对应一个数值，即每条语料对应一组数值，形成一个向量。布尔模型，布尔模型本质上是向量空间模型的一种特殊表示形式，这种表示方式同样也是将文档表示为特征空间中的一个向量，主要区别为：第 i 个特征在文档中是否出现（出现的频率）采用“0”和“1”来代表，“0”代表特征在当前文档中没有出现，“1”代表特征在当前文档中出现。 ;权重计算方法：;特征选择?( Feature Selection )也称特征子集选择( Feature Subset Selection , FSS )?，是指从全部特征中选取一个特征子集，使构造出来的模型更好。在机器学习的实际应用中，特征数量往往较多，其中可能存在不相关的特征，特征之间也可能存在相互依赖，容易导致如下的后果： ?特征个数越多，分析特征、训练模型所需的时间就越长。 ?特征个数越多，容易引起“维度灾难”，模型也会越复杂，其推广能力会下降。特征选择能剔除不相关(irrelevant)或冗余(redundant )的特征，从而达到减少特征个数，提高模型精确度，减少运行时间的目的。另一方面，选取出真正相关的特征简化了模型，使研究人员易于理解数据产生的过程。 ;过滤方法（Filter Approach）：使用某种独立于数据挖掘任务的方法，在数据挖掘算法运行之前进行特征选择，即先过滤特征集产生一个最有价值的特征子集。或者说，过滤方法只使用数据集来评价每个特征的相关性, 它并不直接优化任何特定的分类器, 也就是说特征子集的选择和后续的分类算法无关。? 封装方法（Wrapper Approach）：将学习算法的结果作为特征子集评价准则的一部分，根据算法生成规则的分类精度选择特征子集。该类算法具有使得生成规则分类精度高的优点，但特征选择效率较低。封装方法与过滤方法正好相反, 它直接优化某一特定的分类器, 使用后续分类算法来评价候选特征子集的质量。? 混合方法（Hybrid Approach）：过滤方法和封装方法的结合，先用过滤方法从原始数据集中过滤出一个候选特征子集，然后用封装方法从候选特征子集中得到特征子集。该方法具有过滤方法和封装方法两者的优点，即效率高，效果好。 ;常见的分类算法：朴素贝叶斯分类器(Naive Bayes Classifier,或 NBC)，是基于贝叶斯定理与特征条件独立假设的分类方法。NBC模型所需估计的参数很少，对缺失数据不敏感。 K 近邻算法（K-Nearest Neighbor,KNN），核心思想是如果一个样本在特征空间中的k个最相邻的样本中的大多数属于某一个类别，则该样本也属于这个类别，并具有这个类别上样本的特性。由于KNN方法主要靠周围有限的邻近的样本，因此对于类域的交叉或重叠较多的待分样本集来说，KNN方法较其他方法更为适合。支持向量机（Support Vector Machine，SVM），其分类思想是给定给一个包含正例和反例的样本集合，svm算法的目的是寻找一个超平面来对样本根据正例和反例进行分割。它在解决小样本、非线性及高维模式识别中表现出许多特有的优势。;;感谢观看