- 12
- 0
- 约5.65万字
- 约 63页
- 2019-01-09 发布于上海
- 举报
基于bootstrapping方法的校友识别问题研究与应用-计算机软件与理论专业论文
南开大学学
南开大学学 本人郑重声明:所呈交的学位 取得的研究成果。除文中已经注明 含任何他人创作的、已公开发表或
涉及的研究工作做出贡献的其他个人和集体,均已在文中以明确方式标明。本 学位论文原创性声明的法律责任由本人承担。
学位论文作者签名: 塍飞 2011年5月 26 日
非公开学位论文标注说明
(本页表中填写内容须打印) 根据南开大学有关规定,非公开学位论文须经指导教师同意、作者本人申
请和相关部门批准方能标注。未经批准的均为公开学位论文,公开学位论文本
说明为空白。
论文题目
申请密级 口限制(≤2年) 口秘密(4 10年) 口机密(≤20年) 保密期限 20 年 月 日至20 年 月 日
审批表编号 批准日期 20 年 月 日
限制★2年(最长2年,可少于2年) 秘密★lO年(最长5年,可少于5年) 机密★20年(晶长lO年.可少于10年)
摘要摘
摘要
摘
大学校友是高校拥有的巨大潜能的人力资源,是学校的宝贵财富,是学校 良好声誉的创造者,也是学校进一步发展的重要资源,得到了越来越多的重视。 然而目前校友资源的管理手段落后,不能够满足人们对校友资源利用的需求。
互联网中所包含大量由自然语言所表述的信息,其中包含了丰富的校友信 息以及最新动态。然而对于计算机来说处理这些非结构化的信息是困难的,信 息抽取领域中的相关方法提供了将文本内容转换为结构化知识的途径。如何在 大量的信息中正确的识别出校友面临着以下几个问题:互联网中的信息是海量 的且结构复杂,互联网中的实体以及实体之间的关系是复杂的且没有标识。
本文的工作就是要在大量的互联网信息中将正确的校友识别出来。而校友 识别问题就是人和学校关系的抽取,关系抽取作为信息抽取领域的一个方法能 够很好的解决本文中的校友识别问题。
首先,本文将校友识别问题抽象为关系抽取的问题,即对人名和学校名之 间的关系进行抽取。同时采用了关系抽取中的的基于SVM的监督学习的方法和 基于Bootstrapping的半监督学习方法来进行校友的识别。两种方法都能够解决 校友识别的问题,具有比较理想的准确率和召回率。而Bootstrapping方法由于
只需要少量的训练数据,因此比监督学习的方法更加适合处理大数据量的信息。
其次,由于传统的方法对单一的关系比较有效,而校友关系包含了多个子 关系。本文针对这一问题,提出了改进的两阶段Bootstrapping方法来更好的解
决校友识别问题,该方法通过对第一阶段产生的模式进行进一步的筛选,使得
Bootstrapping算法更加适用于复杂关系模式的抽取。然后本文通过在小规模数据 集合和大规模数据集合上验证了两阶段Bootstrapping算法的有效性和优势。
最后,本文将算法应用到校友搜索系统上,构建了校友信息检索与分析系
统。该系统是一个垂直搜索系统,能够提供对互联网中校友的识别以及校友关 系的抽取,且有别与传统搜索引擎的组织方式,以关系网络的形式进行搜索结 果的展示。
关键字:信息抽取校友识别关系抽取半监督Bootstrapping
AbstractAlumlli
Abstract
Alumlli is tlle human resources which the university owned and is the creator of the school reputation,but now it is hard to managed the alumni resources·So more and more universities have begun to develop the system for alumni managing.But the system do not meet the need of the university.
111e worid wide web contains a significant amount of information expressed
using natural language,it contains a variety of latest information of the alumni·While 瑚sffncfTJfed text is often difficult for machines to understand,the field of Information
Ex仃action(IE)offers a way to map textual content into a structured knowledge base· How to identify the alumni in the unstructed text is a challenge f
您可能关注的文档
- 基于abaqus建模的轮胎接地性态分析-机械制造及其自动化专业论文.docx
- 基于6sigma方法的软件开发方法研究-计算机科学与技术专业论文.docx
- 基于fpga的秒表检定仪的设计-电子与通信工程专业论文.docx
- 基于cognos的车险分析系统-软件工程专业论文.docx
- 基于bpr的企业绩效管理系统研究与设计-系统工程专业论文.docx
- 基于flex与web服务的ria系统集成的应用研究-计算机软件与理论专业论文.docx
- 基于arm的手持式振动数据采集系统研究-动力机械及工程专业论文.docx
- 基于flac3d对白云鄂博铁矿主矿南帮边坡稳定性分析及治理措施-矿业工程专业论文.docx
- 基于cuda的可视外壳并行计算方法研究-计算机科学与技术专业论文.docx
- 基于adsp的指纹锁系统设计与实现-信号与信息处理专业论文.docx
- 基于b2c电子商务信任及信任度研究-管理科学与工程专业论文.docx
- 基于bch码改进查找表译码算法的tpc编译码技术研究-通信与信息系统专业论文.docx
- 基于fpga的数字逻辑控制器的设计-控制理论与控制工程专业论文.docx
- 基于abaqus的混凝土高拱坝 三维有限元静动力分析-水工结构工程专业论文.docx
- 基于fpga的红外图像配准技术研究-微电子学与固体电子学专业论文.docx
- 基于3d打印技术的首饰设计研究-工业设计工程专业论文.docx
- 基于choquet积分的风光发电项目群内生关系及投资决策研究-管理科学与工程专业论文.docx
- 基于3g的我国移动电子商务的盈利模式研究-管理科学与工程专业论文.docx
- 基于dm642的多功能滴定仪硬件设计与实现-通信与信息系统专业论文.docx
- 基于dematel的移动电子商务供应链风险评价研究-物流管理专业论文.docx
原创力文档

文档评论(0)