基于bootstrapping方法的校友识别问题研究与应用-计算机软件与理论专业论文.docxVIP

  • 12
  • 0
  • 约5.65万字
  • 约 63页
  • 2019-01-09 发布于上海
  • 举报

基于bootstrapping方法的校友识别问题研究与应用-计算机软件与理论专业论文.docx

基于bootstrapping方法的校友识别问题研究与应用-计算机软件与理论专业论文

南开大学学 南开大学学 本人郑重声明:所呈交的学位 取得的研究成果。除文中已经注明 含任何他人创作的、已公开发表或 涉及的研究工作做出贡献的其他个人和集体,均已在文中以明确方式标明。本 学位论文原创性声明的法律责任由本人承担。 学位论文作者签名: 塍飞 2011年5月 26 日 非公开学位论文标注说明 (本页表中填写内容须打印) 根据南开大学有关规定,非公开学位论文须经指导教师同意、作者本人申 请和相关部门批准方能标注。未经批准的均为公开学位论文,公开学位论文本 说明为空白。 论文题目 申请密级 口限制(≤2年) 口秘密(4 10年) 口机密(≤20年) 保密期限 20 年 月 日至20 年 月 日 审批表编号 批准日期 20 年 月 日 限制★2年(最长2年,可少于2年) 秘密★lO年(最长5年,可少于5年) 机密★20年(晶长lO年.可少于10年) 摘要摘 摘要 摘 大学校友是高校拥有的巨大潜能的人力资源,是学校的宝贵财富,是学校 良好声誉的创造者,也是学校进一步发展的重要资源,得到了越来越多的重视。 然而目前校友资源的管理手段落后,不能够满足人们对校友资源利用的需求。 互联网中所包含大量由自然语言所表述的信息,其中包含了丰富的校友信 息以及最新动态。然而对于计算机来说处理这些非结构化的信息是困难的,信 息抽取领域中的相关方法提供了将文本内容转换为结构化知识的途径。如何在 大量的信息中正确的识别出校友面临着以下几个问题:互联网中的信息是海量 的且结构复杂,互联网中的实体以及实体之间的关系是复杂的且没有标识。 本文的工作就是要在大量的互联网信息中将正确的校友识别出来。而校友 识别问题就是人和学校关系的抽取,关系抽取作为信息抽取领域的一个方法能 够很好的解决本文中的校友识别问题。 首先,本文将校友识别问题抽象为关系抽取的问题,即对人名和学校名之 间的关系进行抽取。同时采用了关系抽取中的的基于SVM的监督学习的方法和 基于Bootstrapping的半监督学习方法来进行校友的识别。两种方法都能够解决 校友识别的问题,具有比较理想的准确率和召回率。而Bootstrapping方法由于 只需要少量的训练数据,因此比监督学习的方法更加适合处理大数据量的信息。 其次,由于传统的方法对单一的关系比较有效,而校友关系包含了多个子 关系。本文针对这一问题,提出了改进的两阶段Bootstrapping方法来更好的解 决校友识别问题,该方法通过对第一阶段产生的模式进行进一步的筛选,使得 Bootstrapping算法更加适用于复杂关系模式的抽取。然后本文通过在小规模数据 集合和大规模数据集合上验证了两阶段Bootstrapping算法的有效性和优势。 最后,本文将算法应用到校友搜索系统上,构建了校友信息检索与分析系 统。该系统是一个垂直搜索系统,能够提供对互联网中校友的识别以及校友关 系的抽取,且有别与传统搜索引擎的组织方式,以关系网络的形式进行搜索结 果的展示。 关键字:信息抽取校友识别关系抽取半监督Bootstrapping AbstractAlumlli Abstract Alumlli is tlle human resources which the university owned and is the creator of the school reputation,but now it is hard to managed the alumni resources·So more and more universities have begun to develop the system for alumni managing.But the system do not meet the need of the university. 111e worid wide web contains a significant amount of information expressed using natural language,it contains a variety of latest information of the alumni·While 瑚sffncfTJfed text is often difficult for machines to understand,the field of Information Ex仃action(IE)offers a way to map textual content into a structured knowledge base· How to identify the alumni in the unstructed text is a challenge f

您可能关注的文档

文档评论(0)

1亿VIP精品文档

相关文档