- 1
- 0
- 约1.63千字
- 约 12页
- 2015-09-13 发布于江苏
- 举报
ir讲义2010 6 文本分类.ppt
文本分类 给定分类体系,将文本分到某个或者某几个类别中。 分类体系一般人工构造 政治、体育、军事 中美关系、恐怖事件 这里讲的分类主要基于内容 其他分类:文体、态度、风格…… 人工方法 费时费力费钱 难以保证一致性 专家有时候凭空想象 自动方法 快速 一致性好 来源于真实文本,可信度高 自动文本分类的核心问题 文本分类与其它分类一样,其方法可以归结为根据待分类数据的某些特征来进行匹配 当然完全的匹配不太可能 必须根据某种评价标准选择最优的匹配结果 核心问题 用哪些特征表示文本才能准确、快速地分类 对特征的选择主导了不同的文本分分类方法流派 词匹配法、知识工程方法、统计学习法 词匹配法 词匹配法是最早被提出的分类算法 该方法仅根据文档中是否出现了与类名相同的词来判断文档是否属于某个类别 至多再加入同义词的处理 很显然,这种过于简单机械的方法无法带来良好的分类效果。 知识工程方法 后来兴起过一段时间的知识工程的方法 借助于专业人员的帮助,为每个类别定义大量的推理规则,如果一篇文档能满足这些推理规则,则可以判定属于该类别。 这 里与特定规则的匹配程度成为了文本的特征。 由于在系统中加入了人为判断的因素,准确度比词匹配法大为提高。 知识工程方法的缺陷 分类的质量严重 依赖于这些规则的好坏,也就是依赖于制定规则的“人”的好坏 制定规则的人都是专家级别,人力成本大幅上升常常令人难以承
您可能关注的文档
- 2014-2020年中国帐篷市场前景研究与投资潜力研究报告.doc
- 2014-2020年中国廉价航空市场深度调查与未来前景预测报告.doc
- 2014届高三名校语文试题分省分项汇编专题09 扩展、压缩语段和选用、仿用、变换句式(解析版)Word版含解析.doc
- 2014年中国二硫化碳行业前景评估报告.doc
- 2014年夏季普通高中学业考试试题卷.doc
- 2014年河南省普通高中招生考试命题要求及方案.doc
- 2014河北省职称计算机考试详解.doc
- 2015-2020年中国二硫化碳市场分析预测及发展趋势研究报告.doc
- 2015-2020年中国帐篷市场前景研究与投资战略研究报告.doc
- 2015-2020年中国帐篷市场行情动态及投资前景评估报告.doc
最近下载
- 湖北方言调查报告PDF.pptx VIP
- 人脸识别照片拍摄标准.docx VIP
- 变频器技术考试题及答案.docx VIP
- 重症患者的肠内营养护理.pptx VIP
- 输液泵操作评分标准.doc VIP
- 青少年焦虑症护理查房.pptx VIP
- 试析《三国演义》在日本动漫中的传播与接受.pdf VIP
- 从吉川英治《三国志》看《三国演义》在日本的传播与接受The Spread and Reception of the Romance of the “Three Kingdoms” in Japan from the “Three Kingdoms” by Yoshikawa Eiji-来源:现代语言学(第2022002期)-汉斯出版社.pdf VIP
- 与总承包单位协调配合措施方案.docx VIP
- 《清静经》全文及译文.pdf VIP
原创力文档

文档评论(0)