网站大量收购闲置独家精品文档,联系QQ:2885784924

分类训练语料管理系统的设计与开发-软件工程专业论文.docx

分类训练语料管理系统的设计与开发-软件工程专业论文.docx

  1. 1、本文档共79页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
分类训练语料管理系统的设计与开发-软件工程专业论文

万方数据 万方数据 分类号 密级 UDC 注 1 学 位 论 文 分类训练语料管理系统的设计与开发 (题名和副题名) 谢 熔 (作者姓名) 指导教师 肖鸣宇 副教授 电子科技大学 成 都 万嗣华 高 工 上海杰迈科技发展有限公司 上 海 (姓名、职称、单位名称) 申请学位级别 硕士 专业学位类别 工程硕士 工程领域名称 软 件 工 程 提交论文日期 2012.09 论文答辩日期 2012.11 学位授予单位和日期 电子科技大学 2012 年 12 月 30 日 答辩委员会主席 评阅人 注 1:注明《国际十进分类法 UDC》的类号。 万方数据 万方数据 DESIGN AND DEVELOPMENT ON CLASSIFICATION TRAINING CORPUS MANAGEMENT SYSTEM A Thesis Submitted to University of Electronic Science and Technology of China Major: Software Engineering Author: Xie Rong Advisor: Xiao Mingyu School : School of Computer Science Engineering 万方数据 万方数据 独 创 性 声 明 本人声明所呈交的学位论文是本人在导师指导下进行的研究工 作及取得的研究成果。据我所知,除了文中特别加以标注和致谢的地 方外,论文中不包含其他人已经发表或撰写过的研究成果,也不包含 为获得电子科技大学或其它教育机构的学位或证书而使用过的材料。 与我一同工作的同志对本研究所做的任何贡献均已在论文中作了明 确的说明并表示谢意。 作者签名: 日期: 年 月 日 论文使用授权 本学位论文作者完全了解电子科技大学有关保留、使用学位论文 的规定,有权保留并向国家有关部门或机构送交论文的复印件和磁 盘,允许论文被查阅和借阅。本人授权电子科技大学可以将学位论文 的全部或部分内容编入有关数据库进行检索,可以采用影印、缩印或 扫描等复制手段保存、汇编学位论文。 (保密的学位论文在解密后应遵守此规定) 作者签名: 导师签名: 日期: 年 月 日 万方数据 万方数据 万方数据 万方数据 摘 要 摘 要 随着互联网的普及和应用,其蕴含的信息和内容也越来越多,包括结构化的、 半结构化的和非结构化的信息。因此,为了能应对信息爆炸带来的问题和挑战, 对各式各样的文本信息进行抽取,迫切需要一些技术帮助人们在海量信息中快速 找到自己真正需要的信息。如何运用计算机进行文本的内容自动判别、自动分类 成了许多人的研究方向。 “分类训练语料管理系统”是基于网络爬虫技术的分类语料学习管理系统。 该系统主要包括后台数据库的建立和维护,前端应用程序的开发两方面,该系统 提供了登陆管理、分类管理、添加语料等功能模块。既保证后台数据库的一致性、 完整性、安全性,也保证前端应用程序的易用性、完备性和界面的友好。 系统采用基于 J2EE 开发框架的 Java 开发平台是一组用于建立 Web 服务器应 用程序和 Windows 桌面应用程序的软件组件。系统采用三层的体系结构,数据库 采用 MySQL,编程语言为 Java。采用 B/S 结构,改善了系统的维护性,亦加快了 开发速度。同时本管理系统实现其它三部分功能:第一、语料库转换器可以实现 对特定语料进行转换。第二、实现对语料信息的统计,显示出语料的种类、文档 名称及句子个数。第三、实现基于功能词的索引系统,可查找动词的所在句子, 及显示句子的树型结构,在查找过程中为加快查询速度,建立索引表,并且定义 削除冗余的句子的方法,这样可以减少索引数量。 在本论文中重点介绍了语料管理模块的开发。管理系统,包括数据维护(语 料录入、校对、存储、修改、删除及语料描述信息项目管理)、语料自动加工(分 词、标注、文本分割、合并、语料对齐、标记处理等)、用户服务功能(查询、检 索、统计、打印等)。其中数据维护部分主要涉及汉字字符处理、文本处理、文件 管理等计算机程序设计技术。 关键词:自动分类,分类训练,语料管理,网络爬虫,SVM 分类,MVC 架构 I ABSTRACT ABSTRACT ABSTRACT With the popularity of the Internet and contains information and content, including structured, semi-structured and unstructured information. Therefore, in order to deal with the problems and challenges b

文档评论(0)

peili2018 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档