文本表示模型的研究与实现开题报告.docVIP

下载本文档

22
0
约5.31千字
约 7页
2017-09-12 发布于浙江
举报
版权申诉

文本表示模型的研究与实现开题报告.doc

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

开题报告文本表示模型的研究与实现一选题的背景、意义 Internet已被公认为是20世纪末人类科技史的里程碑，它作为一个开放的、分布式的信息空间，近年来得到了飞速发展。随着工nternet上信息量爆炸性的增长，人们很难从大量的信息中迅速有效地提取出所需信息，出现所谓的“信息迷向”的现象。如果计算机能够在信息的辨识和处理方面，对用户提供适当的支持和帮助，那将能够极大地改善目前用户面临的困境和提高信息使用效率。基于这种需求，人们对利用计算机进行智能化信息处理进行了大量研究。根据侧重点不同，大致包括信息检索、信息抽取、文本分类、文本摘要等研究领域，这些研究都旨在帮助用户对工nternet上的大量信息加以辨识、分类，按用户兴趣加以筛选、排序，甚至提炼出要点形成摘录。这些研究成果和搜索引擎相结合，构成智能化搜索引擎，极大地提高了用户搜寻信息的能力。另外，这些技术也应用在电子商务、数据库、web页分类管理、信息过滤、个性化人机界面、个人信函助理等领域，有效地提高了信息服务的质量。在以上应用领域中，文本分类是一个广为关注的课题，这项技术既有潜在的市场应用价值，又具有相当的难度。这里说的“分类”是一个广义的概念包括分类和聚类:如果分类原则是事先通过事例(包括正例和反例)告诉计算机的，则计算机在事例的基础上形成分类机制的过程称为有监督的分类，简称归类或分类;如果事先没有任何示例，全凭信息本身在某种角度上的相似性来分类，这种分类过程就称为无监督的分类，简称聚类。分类和聚类可以在较大程度上方便地为用户准确定位所需的信息，解决网上信息杂乱的现象，因此对文本进行自动分类和聚类成为信息检索过程中具有较大实用价值的关键技术。本文研究和探讨的是第一种分类，即有监督的分类。国外对文本分类的研究始于20世纪50年代末，H.P.Luhn首先将词频统计思想用于分类，在该领域进行了开创性的研究。1960年，Maron在Journal of ASM上发表了有关自动分类的第一篇论文《On relevance, probabilistic indexing and information retrieval)，其后许多学者在这一领域进行了卓有成效的研究工作。从20世纪60年代直到20世纪80年代末，这期间最有效的文本分类系统一直是由专家人工构建的基于知识工程技术的分类系统。其典型应用就是卡内基集团为路透社开发的Construe系统fill，它主要是由专业人员编写了一些分类规则来指导分类，在Reuters的部分语料库上它的效果非常好，平均准确率和召回率大约都可达到90%，但是在其他的应用领域采用Construe系统将会消耗大量的人力和物力。这种自动分类器构造方法的缺点是知识获取瓶颈的存在。它必须要为领域专家获取的知识和知识工程师的知识表示之间架起桥梁，二者缺一不可，如果这种分类器被转到完全不同的领域，工作必须得重新开始。90年代初期，基于机器学习的分类技术开始取代基于知识工程的方法成为文本分类的主流技术。这种算法通过归纳文本集的特征自动创建一个分类器，这些文本集合事先被领域专家人工地分类到类集C-(c1，c2l……，cm)的各个类ci中，分类器可作为一个规则决定文本di是否属于类c;。如果类集C被更新，或者系统要应用于其他不同的领域，只需要重新构造一个人工分类文本集合，通过机器学习，自动地构造一个分类器。显然由于这种分类方法不再需要知识工程师和领域专家的介入，节约了大量的专家人力资源，同时加快了分类系统的建立速度。近年来，研究者们机器学习的技术进行了大胆的探讨，提出了多种分类模型和分类算法，如基于向量空间模型的Rocchio分类算法及其一系列的改进算法，K近邻法(KNN)，决策树(Decision Tree)，朴素贝叶斯(Naive Bayes), 神经网络(Neural network)，支持向量机(Support Vector Machine)等等这些方法在英文以及欧洲语种文本分类上有广泛的研究，均取得了不错的效果。国外很多研究人员对英文文本分类领域的各个问题都有相当深入的研究，对几种流行的方法进行了大量的对比研究。还有一些研究人员研究表明结合不同的分类器能够提高分类的精度。自从文本分类的概念在国内出现以来，该技术在国内得到了长足的发展。然而和国外的发展状况相比，发展水平仍相对滞后。一方面由于国内起步较晚，另一方面则由于国内的工作主要是针对中文文本。由于汉语有许多不同于英语的特点，使得中文文本分类的难度更大。比如，汉语的书面形式是连续书写的，词与词之间没有自然的界限，在进行文本分类之前，首先要对文本进行分词。另外，在不同的语言的研究工作中，句法分析和语义分析所占的比例是不同的。在英语中，句法分析比语义分析的比例要大，而汉语是一种分析型语言，