基于概念模型的中文网页信息抽取技术的研究-计算机软件与理论专业论文.docxVIP

  • 1
  • 0
  • 约5.58万字
  • 约 67页
  • 2019-02-20 发布于上海
  • 举报

基于概念模型的中文网页信息抽取技术的研究-计算机软件与理论专业论文.docx

Thesis of Master Degree of Shanghai Jiao Tong University RESEARCH ON EXTRACTING INFORMATION FROM CHINESE WEB PAGES BASED ON CONCEPTUAL MODEL Author:Chen Xiaoying Specialty:Computer Software and Theory Student No:1040339036 Division:Information Retrieval (Natural Language Processing) Advisor:Prof. Lu Ruzhan Shanghai Jiao Tong University February, 2007 基于概念模型的中文网页信息抽取技术的研究 摘 要 随着计算机应用的普及和近年来因特网的发展,特别是 Web 网的 迅猛发展,信息的增长规模在速度上达到了空前的水平。如何协助用 户更加方便有效地利用现有的网络资源,并且从中获得真正有用的信 息,是计算机研究人员不得不面对的一项重任。 本课题主要就概念检索模型展开研究,提出一套抽取中文网页中 信息的有效解决方案。根据领域概念知识库,该方案构建网页信息, 使网页内容结构化,将来可以和用户需求匹配,实现二次检索。 概念检索是近年来兴起的信息科学领域的一个研究热点。目前有 许多研究者提出了自己的概念检索模型,希望通过语义关系来扩充检 索范围,获得对用户而言有价值的信息。但是,目前为止缺乏实际的 实现框架与研究成果。 本文首先介绍概念及其属性的定义,概念之间关系和概念图等基 本知识。然后,给出基于概念模型的中文信息抽取的总体框架。文中 从资源库的建立和信息抽取两个方面详细论述该框架的具体内容。在 资源获取阶段,着重介绍概念知识库的意义,现有成果及未来发展方 向。在信息抽取方面,介绍在抽取过程中的主要模块,包括文本块过 滤,文本块内容分类和文本块信息抽取。文中定义三种基本信息表达 方式(SearchBox、List 和 PureText),并分别对三种类型的信息抽 取过程进行讨论。 随后,本文论述了实体关系模板的获取技术。确定实体之间的关 系有助于从语义角度理解文本,构建概念体系,从而提高信息检索的 正确率。为此,我们提出一种 Slim Template Getter (STG ) 的 bootstrapping 训练方法。该方法采用生物信息学中的序列比对技术 计算上下文的语义模板,使用一定的评估机制筛选模板,并有效地扩 充元组以提高下一轮训练的质量。实验结果表明,STG 生成的模板不 仅能覆盖大量的元组,而且正确率可达 99%。 最后,本文结合以上两项成果实现了一个中文信息抽取系统 Squib。在实验中,该系统围绕火车票建立概念知识库模型,对 Google 搜索返回的前 50 张网页进行过滤,提取需求概念的属性值,构建网 页信息,并且重新排列其搜索结果。根据测评,该系统不仅能够抽取 出需求概念的一部分属性值,而且从语义角度而言有效地改善了原有 搜索结果的排名。 关键词: 信息抽取,概念模型,文本块,机器学习,bootstrapping RESEARCH ON EXTRACTING INFORMATION FROM CHINESE WEB PAGES BASED ON CONCEPTUAL MODEL ABSTRACT With spread of computer technology, especially the rapid development of WWW network in recent years, the amount of information in Internet has increased dramatically. How to help users gain information and make use of it in a more effective way is a topic that computer scientists have to face with. This thesis mainly focuses on conceptual retrieval model, and puts forward a complete solution to extract information from Chinese web pages. It constructs conceptual relationship according to knowledge base so as to gives a web page a semantic des

您可能关注的文档

文档评论(0)

1亿VIP精品文档

相关文档