- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
I
I
摘 要
随着 Internet 和个人计算机的普及,科技文献的数量以指数的速度激增。如何从 科技文献中抽取出有用的信息以供快速、准确地从浩瀚的信息资源中寻找到所需科技 文献是十分有意义的事情。而现有的一些信息抽取方法存在适应性差、维护困难、实 现复杂、抽取效率不高等缺点。
针对以上问题,基于语义的科技文献共享平台-SemreX 的信息抽取系统针对科 技文献的头部信息(标题、作者和摘要)和尾部信息(参考文献的标题、作者、出版 物和年份)的不同特点,提出了基于模板匹配的头部信息抽取算法和基于统计的尾部 信息抽取算法,并通过信息抽取预处理、模板定义与匹配、样式统计、多项式拟合等 措施,提高了信息抽取的抽准率、召回率、F-measure 和正确率。基于模板匹配的头 部信息抽取算法基本思想是:分析头部信息的文本特征;根据文本特征定义相应的模 板并赋予权值;组合各个头部信息的模板形成头部信息的模板库;按照模版匹配算法, 通过有限自动机寻找与待抽取的科技文献头部信息匹配权重最大的模板;根据匹配所 得的模板抽取各个头部信息。基于统计的尾部信息抽取算法基本思想是:统计尾部信 息的样式和各个特殊符号等信息;对统计数据进行多项式拟合,得到概率经验公式; 根据概率经验公式计算各个尾部信息相应的概率并进行比较,从而抽取科技文献尾部 信息;采用自然语言处理技术对所得的尾部信息进行验证、修正和补充。
基于 Windows 操作系统平台,采用 Java、Perl 语言实现了 SemreX 的信息抽取系 统,并且对系统进行了测试。功能测试表明:对于科技文献的头部信息和尾部信息的 抽取功能正常。科技文献头部信息抽取性能测试结果表明:科技文献的标题、作者和 摘要的抽准率分别为 91.9%、86.2% 和 81.5%;召回率分别为 89.1%、84.4%和 80.2%; F-measure 分别为 90.4%、88.5%和 80.8%;正确率分别为 96.3%、80.2%和 88.4%。尾 部信息抽取性能测试结果表明:尾部信息的标题、作者、出版物和年份的抽准率分别 为 89.9%、91.2%、81.9%和 88.3%;召回率分别为 80.3%、87.3%、78.9%和 87.0%;
F-measure 分别为 86.5%、89.1%、80.5%和 86.4%;正确率分别为 84.9%、84.5%、77.9%
和 87.6%。
关键字:信息抽取,模板匹配,有限自动机,多项式拟合,科技文献
II
II
Abstract
With the popularity of Internet and personal computers, the number of scientific literature has been growing exponentially. In order to retrieve literatures quickly and accurately, it becomes more and more important to extract metadata of scientific literature. Howerer, there exist some drawbacks in current information extraction technologies. For example, it is hard to adapt them, and their performances are low.
To address these problems, this paper proposes a template-based literature header information (including title, authors, abstract) extraction algorithm and a statistics-based tailer information (including title, author, source and year of references) extraction algorithm. The proposed algorithms fully take consider on the diverse characteristics of header information and tailer information in the information extraction system of SemreX which is a semantic based literature sharing platform. Moreover, the metrics of pr
您可能关注的文档
- 基于线结构光的单目视觉目标位姿测量研究-机械工程专业论文.docx
- 基于学困生多媒体创设物理情境教学初探-物理教育专业论文.docx
- 基于应变设计管线的环焊缝断裂韧性研究-材料学专业论文.docx
- 基于支持向量机的人员识别及其在井下斜巷轨道交通智能监控系统中的应用-计算机应用技术专业论文.docx
- 基于战略的全面预算管理在公司中的运用-工商管理专业论文.docx
- 基于小波框架的Poisson数据图像去噪算法研究-应用数学专业论文.docx
- 基于照明节点无线网地下管网网络化监控系统-软件工程专业论文.docx
- 基于振动原理的结冰探测技术研究-机械电子工程专业论文.docx
- 基于心理安全的城市公共空间景观研究-风景园林专业论文.docx
- 基于体验传播模式的宜家家居品牌产品包装设计研究-设计艺术学专业论文.docx
- 基于移动平台的多人游戏系统设计-模式识别与智能系统专业论文.docx
- 基于小波变换的指纹图增强方法研究-信号与信息处理专业论文.docx
- 基于双波长综合泵浦的固体激光器可控热管理研究-光电子技术专业论文.docx
- 基于蚁群与神经网络算法的变风量空调末端控制研究-控制理论与控制工程专业论文.docx
- 基于永磁同步电机的EPS控制策略设计与试验研究-车辆工程专业论文.docx
- 基于双联泵供油的CVT液压系统动态特性建模与仿真研究-机械电子工程专业论文.docx
- 基于支持向量机的CDMA多用户检测研究-计算机软件与理论专业论文.docx
- 基于凸多面体描述的不确定大系统的分散鲁棒预测控制研究-数学专业论文.docx
- 基于应力波理论的土石混合材料压实质量评价研究-道路与铁道工程专业论文.docx
- 基于应变统计矩和特征正交振型的结构损伤识别-结构工程专业论文.docx
原创力文档


文档评论(0)