文献自动标引解决方案.docVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
PAGE PAGE 2 TOC \o 1-4 \h \z \u 1 文献自动标引解决方案 2 1.1 方案概述 2 1.2 模块组成 2 1.2.1 文献自动标引模块 2 文本分类 2 主题词标引 3 自动文摘 4 1.3 性能指标 4 1.3.1 准确率和速度 4 1.3.2 扩展性与通用性 5 1.4 效果演示 5 2 智能词语技术 6 2.1 方案概述 6 2.2 模块组成 6 2.2.1 新词语识别 6 2.2.2 词语分类聚类 6 2.2.3 智能分词系统 7 2.3 效果演示 8 3 行业知识门户 8 3.1 方案概述 8 4 联系方式 9 文献自动标引解决方案 方案概述 基于自主研发的中文信息处理技术,以文本内容语义计算、文本内容自动标引为核心,“文献自动标引解决方案”集成文本分类、主题词标引和自动文摘三个子模块,将文献内容以精练准确的形式,如类目、主题词、摘要自动标引出来。 模块组成 文献自动标引模块 应用国际领先的文本挖掘、自然语言处理等核心技术,以自主研发的中文信息处理技术为基础,提供对海量数据进行智能自动分类、主题词自动标引、自动文摘等实用功能。以其为基础可方便地开发应用系统,快速地实现智能信息挖掘,有效地进行知识管理与检索。 文本分类 “基于关键短语的立体文本分类模型”: A、立足于影响文本分类最底层、最根本的因素:文本表示中的特征项,利用表义完整的关键短语,提高特征项的完整独立程度,有效克服了传统分类算法中向量空间模型和贝叶斯假设(特征之间被假定为是相互条件独立的)的缺点,在3万篇测试集上(15大类,4级244小类),大类微平均提高了3.1%,小类微平均提高了15%。 B、立体模型是一个交叉多层级的系统。在纵的方面,是一个层级的系统,采用双向层级小类校正算法分类,一级级分到四层子类。在横的方面,采用兼类多标签分类策略,智能判断文档是否兼类,兼哪几类。大类微平均和宏平均F1值比扁平模型分别提高了1.8和2.7个百分点。 C、扩展性强,用户可以根据自身需要,动态增删或调整分类体系。 支持自动训练,提供新分类体系和相对应的已分类文档之后能够实现新分类体系的文档的自动分类。 交叉多层级立体分类,如,一篇微软新品软件发布的文档既可归为“科技_电脑_软件_操作系统”,也可归为“经济_产经_产业新闻”。 可显示类别间相似度,以分析了解分类体系是否设计合理。 分类方法支持领域知识、统计等多种方法。 主题词标引 针对主题词的领域不均匀性和邻界域两个特征,首创并模拟计算了主题词表征文本主题特征程度的主题度。结合方差和TFIDF原理,设计了形式化的主题词计算模型。以主题词及其主题度为领域知识,结合统计方法,形成了一个知识与统计相结合的主题词自动标引系统。 主要特点: ◆?支持叙词汉字标引(词表选词标引)、辅助标引(自由词标引)、关键词标引(提取文章关键词标引)。 ◆?支持基于专家知识的规则标引或纯粹词语计算的统计标引,用户可选,或者二者相结合。 ◆?标引词的数量可用户自定义,支持定量(3-5个)或根据文章长度动态确定标引词数。 ◆?能够以多级体系的形式生成并管理标引词库,可动态编辑、修改、维护标引词。 ◆?支持自动训练,无需提供训练文档集即可实现新文档的自动标引。 ◆?支持文档多级标引。自动文摘 自动文摘 文摘系统基于词语的主题度计算,自动抽取文献关键性句子形成摘要(原文中约25%的文字,可自定义)。 基本特点: ◆?能够以多级体系的形式生成并管理标引词库,可动态编辑、修改、维护标引词。 ◆?能够利用专业文档语料库进行训练。 ◆?同时支持自动训练,无需提供新摘要文档语料库,即能实现新文档的自动摘要。 ◆?摘要比例可由用户自定义。 ◆?摘要可读性强,能覆盖原文献主题。 性能指标 准确率和速度 A、文本分类:在4级、244个类目的分类体系,3万篇文献的开放测试中,准确率达94%;分类速度10万字/秒 B、主题词标引:500篇文献的测试时间约为5秒,综合平均得分为8.08(共10分)。 C、自动文摘:1000篇文献的测试时间约为10秒,综合平均得分为7.76(共10分)。 扩展性与通用性 完整的应用开发接口:提供.Net组件、COM组件、Java组件接口,并且针对有较高底层开发要求的用户提供完整的二次开发接口。 支持多种编码:提供对?GB2312、BIG5、GBK、GK18030、UNICODE等多种编码的直接支持。 扩展性强:底层词表和概念术语可以自由增加或删除,导入导出;可以根据自身需要,动态增删或调整分类体系;可以根据需要,自由设定主题词抽取个数,自由设定文摘抽取比例。 效果演示

文档评论(0)

559997799 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档