结构化信息抽取-半自动化包装器的分析与应用-analysis and application of structured information extraction - semi - automatic wrapper.docxVIP
- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
结构化信息抽取-半自动化包装器的分析与应用-analysis and application of structured information extraction - semi - automatic wrapper
第一章 绪论 硕士研究生学位论文
PAGE 4
优秀毕业论文
精品参考文献资料
第一章 绪论
1.1 结构化信息抽取的发展背景
近年来,随着 Internet/Web 技术的快速普及和迅猛发展,各种信息的展示以非常低的 成本在网络上获得,由于互联网在全球的普及,其中有着难以计算的信息量和数据量,随 着互联网的发展日新月异,电子商务的蓬勃发展也为网络应用提供了强大支持,在 互联网 这个全球最大的数据集合中如何可以发现有用信息,并将这些有用信息提取出来,无疑将 成为数据挖掘研究的热点[1]。
随着以数据仓库、数据库等数据存储技术为基础的信息系统在全球各行各业中的应 用,大量的数据应运而生[3][7]。与此同时,我们遇到这样的问题:如此复杂繁多的数据让 人难以消化,无法仅从表面上看到有用的用户感兴趣的信息,从而无法进行下一步的具体 工作。怎样从海量的网络数据中发掘到用户真正感兴趣的信息成为人们研究的重点,数据 挖掘技术真是在这种情况之下开始崭露头角的[17]。
Web 挖掘作为一个完整的技术体系,在进行挖掘之前的信息获得 IR(Information Retrieval)和信息抽取 IE(Information Extraction)相当重要。信息获得(IR)的目的在于找 到相关 Web 文档,它只是把文档中的数据看成未经排序的词组的集合,而信息抽取(IE) 的目的在于从文档中找到需要的数据项目,它对文档的结构和表达的含义感兴趣,它的一 个重要任务就是对数据进行组织整理并适当建立索引[11][12][13]。信息获得(IR)和信息抽 取(IE)技术的研究已经有很长时间,随着 Web 技术的不断壮大,基于 Web 技术中涉及的 IR 技术、IE 技术更多的为人们所重视。由于 Web 中的数据非常庞大,而且经常地发生 变化,采用纯手工抽取的方法已经很难适应如今的需求,所以现在重点的研究放在了用自 动化、半自动化的方法在 Web 上进行 IR 和 IE。在 Web 环境下既要处理非结构化文档, 又要处理半结构化的数据,最近几年在这两方面都有相应的研究成果和具体应用,特别是 在大型搜索引擎中得到了很好的应用[25]。
信息抽取(IE)作为 web 数据挖掘的重要技术之一,其目的在于从网页的文档中找到目 标数据项目,它对文档的结构和表达的含义感兴趣,它的一个重要任务就是对数据进行组 织整理并适当建立索引。信息抽取的研究已经有一段历史了,随着 Web 技术的不断发展 和壮大,其信息抽取技术也在不断的得到重视,随着 Web 网页中所容纳得信息量的不断 提升和动态变换的特点,手工抽取信息的方法已经不再适用于当今的形势。因此,现在主 要研究的是半自动化、完全自动化方式的抽取。
众所周之,我们在网上浏览到的网页信息是由后台数据库中存储的数据按照某种编码 模式展现出来的。而数据的抽取工作正好是这个的相反过程,即在网页源代码的基础上, 发现其中的模式结构并从中抽取到用户感兴趣的信息[1][2]。
在 Web 信息抽取中有两大处理问题,即从自然语言文本中和网页的结构化数据中抽
取信息[1]。由于当今网络中包含越来越多的结构化信息数据,因此结构化数据抽取在信息 抽取中占有重要的地位,本文研究的正是如何从具有结构化形式数据的网页中抽取到目标 数据。
1.2 国内外研究状况
1.2.1 国外研究状况
Web 信息抽取(Web Information Extraction)的前身是文本理解,最早开始于 20 世纪 60 年代中期,主要是从自然语言文本中获取结构化信息的研究,这被看作是信息抽取技 术的初始研究。从 20 世纪 80 年代末开始,信息抽取研究蓬勃开展起来。近几年,信息 抽取技术的研究与应用更为活跃。主要的而研究成果集中在研究和应用两个方面给[11][12], 在研究方面:主要侧重于以下几方面:利用机器学习技术增强系统的可移植能力、探索深 层理解技术、篇章分析技术[8]、多语言文本处理能力[9]、WEB 信息抽取(Wrapper)以及对 时间信息的处理等等。在应用方面:信息抽取应用的领域更加广泛,除自成系统以外,还 往往与其他文档处理技术结合建立功能强大的信息服务系统。至今,已经有不少以信息抽 取技术产品 为主的公司出现,比较著名的有:Cymfony 公司、Bhasha 公司、Linguamatics 公司、Revsolutions 公司等[18]。
1.2.2 国内研究状况
国内对中文信息提取系统的研究起步较晚,还集中在命名实体识别方面,遵照 MUC 规范的完整的中文信息提取系统目前还处于探索阶段。Intel 中国研究中心在 ACL-000 上 演示了他们开发的一个抽取中文命名实体以及实体间关系的系
您可能关注的文档
- 加减三甲散对肝纤维化大鼠肝组织tgf-β1mrna及α-sma表达的影响-effects of modified sanjiasan on tgf - β 1 mrna and α sma expression in liver tissue of rats with hepatic fibrosis.docx
- 交互式电子白板在通用技术课程中的应用研究——以临夏州康乐一中为例-research on the application of interactive electronic whiteboard in general technology courses - a case study of kangle no.1 middle school in linxia prefecture.docx
- 基于压缩感知理论的有限角度投影重建算法分析-analysis of finite angle projection reconstruction algorithm based on compressed sensing theory.docx
- 基于压缩感知的超分辨率理论与技术分析-theoretical and technical analysis of super-resolution based on compressive sensing.docx
- 基于压缩感知的无线信道信息反馈的分析-analysis of wireless channel information feedback based on compressed sensing.docx
- 健康食品公司管理信息系统的分析与实现-analysis and implementation of management information system of health food company.docx
- 介孔材料mcm-41原粉的吸附性能及固相萃取应用分析-adsorption performance and application analysis of solid phase extraction of mesoporous mcm - 41 raw powder.docx
- 兼容弱连通簇的ad hoc网络分簇算法-clustering algorithm for ad hoc networks compatible with weakly connected clusters.docx
- 交流调速系统自结构模糊神经网络控制算法分析-analysis of self-structured fuzzy neural network control algorithm for ac speed control system.docx
- 基于演化算法的运动模糊图像识别算法分析-analysis of motion blur image recognition algorithm based on evolutionary algorithm.docx
- 交际教学法在轮机英语教学中的应用分析-analysis of the application of communicative approach in marine engineering english teaching.docx
- 降低基础沉降的增强地基刚度方法分析-analysis of strengthening foundation stiffness method to reduce foundation settlement.docx
- 减刑 假释适用之实证研究——以河南省y监狱为视角的考察-an empirical study on the application of commutation and parole —— from the perspective of y prison in henan province.docx
- 加权lorentz空间和qrliczlorentz空间的研究-study on weighted lorentz space and qrliczlorentz space.docx
- 基于压缩感知理论的ir-uwb通信性能研究-research on ir - uwb communication performance based on compressive sensing theory.docx
- 加权复杂网络的病毒传播和免疫策略分析-virus transmission and immune strategy analysis of weighted complex networks.docx
- 金属离子掺杂纳米氧化锌的制备及其光催化性能分析-preparation of metal ion doped nano zinc oxide and its photocatalytic performance analysis.docx
- 基于压缩感知的语音信号建模技术的分析-analysis of voice signal modeling technology based on compressive sensing.docx
- 加味丹栀逍遥散水煎液抗抑郁作用机制的实验分析-experimental analysis of antidepressant mechanism of jiaweidanzhixiaoyao powder decoction.docx
- 间隙连接蛋白cx26,cx43在膀胱癌的表达及意义-expression and significance of connexin 26 and connexin 43 in bladder cancer.docx
文档评论(0)