文献自动标引解决方案.docVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
1 文献自动标引解决方案 2 1.1 方案概述 2 1.2 模块组成 2 1.2.1 文献自动标引模块 2 文本分类 2 主题词标引 3 自动文摘 4 1.3 性能指标 4 1.3.1 准确率和速度 4 1.3.2 扩展性与通用性 5 1.4 效果演示 5 2 智能词语技术 6 2.1 方案概述 6 2.2 模块组成 6 2.2.1 新词语识别 6 2.2.2 词语分类聚类 6 2.2.3 智能分词系统 7 2.3 效果演示 8 3 行业知识门户 8 3.1 方案概述 8 4 联系方式 9 文献自动标引解决方案 方案概述 模块特征之间被为是相互条件独立的支持自动训练,提供新分类体系和相对应的已分类文档之后能够实现新分类体系的文档的自动分类。交叉多层级立体分类,如,一篇微软新品软件发布的文档既可归为“科技_电脑_软件_操作系统”,也可归为“经济_产经_产业新闻”。可显示类别间相似度,以分析了解分类体系是否设计合理。分类方法支持领域知识、统计等多种方法。针对的领域不均匀性和邻界域两个特征并模拟计算了表征文本主题特征程度的主题度。设计了形式化的计算模型以及其主题度为领域知识,结合统计方法,成了一个知识与统计相结合的自动标引系统◆?支持叙词汉字标引(词表选词标引)、辅助标引(自由词标引)、关键词标引(提取文章关键词标引)。 ◆?支持基于专家知识的规则标引或纯粹词语计算的统计标引,用户可选,或者二者相结合。 ◆?标引词的数量可用户自定义,支持定量(3-5个)或根据文章长度动态确定标引词数。 ◆?能够以多级体系的形式生成并管理标引词库,可动态编辑、修改、维护标引词。 ◆?支持自动训练,无需提供训练文档集即可实现新文档的自动标引。 ◆?支持文档多级标引。文摘系统基于词语的主题度计算,自动抽取文献关键性句子形成摘要(原文中约25%的文字,可自定义)。 基本特点:◆?能够以多级体系的形式生成并管理标引词库,可动态编辑、修改、维护标引词。◆?能够利用专业文档语料库进行训练。◆?同时支持自动训练,无需提供新摘要文档语料库,即能实现新文档的自动摘要。◆?摘要比例可由用户自定义。◆?摘要可读性强,能覆盖原文献主题。综合平均得分为8.08综合平均得分为.76(共10分)。 扩展性与通用性 完整的应用开发接口提供.Net组件、COM组件、Java组件接口,并且针对有较高底层开发要求的用户提供完整的二次开发接口。支持多种编码提供对?GB2312、BIG5、GBK、GK18030、UNICODE等多种编码的直接支持。效果演示/class_demo.aspx 单机版详细说明参见《帮助文档》。 图1:网络演示版(/class_demo.aspx) 智能词语技术 方案概述 中文智能系统了新词语识别、词语聚类、。新词语识别利用独创技术,结合网页结构分析和,从网络发现新词语,并领域聚类。基本特点:?该方法简单快捷、准确率高(97.18%),对于性能要求较高的后续处理,更是具有复杂算法无法比拟的效率优势。?新词语中命名实体占多数,经济、科技、房产、游戏和汽车等领域术语的新词率高。?同时快速完成新词语发现和新词语的领域聚类。词语聚类以领域特征明显的词和短语作为聚类对象,在分类系统的大规模层级分类语料库中,利用独创的文本分类的特征提取算法进行词语的领域聚类,通过控制词语频率的影响,分别获取领域通用词和领域专类词。分类词表总共15大类,22个三级小类,如“房产”、“汽车”、“科技_数码_视频_数字电视”、“房产_家居家装_家具”。 领域 正确词数 抽取到的总词数 准确率 经济 962 1000 96.2% 1916 2000 95.8% 2870 3000 95.6% 3814 4000 95.3% 4737 5000 94.7% ?“汽车”类前40词语 对所有10万个网页中文档频数大于20的每一关键词聚类后得到000个关键词的聚类词语表。 关键词是事先为文档自动标柱的主题词,如“智能手机”、“实木地板”、“奥迪A6”。?“汽车”类“轮胎”关键词聚类前50词语(文本数196) 轮胎、胎压、爆胎、磨损、胎面、米其林、普利司通、气压、磨耗、鼓包、帘布、轮辋、R28、屈挠、前轮、佳安、四轮定位、气门嘴、必比登、回力、辛烷值、省油、子午线、补胎、跑偏、固特异、行驶、爱车、驾驶盘、轮胎橡胶、备胎、轮圈、宽胎、普利斯通、凸缘、耗油量、车轮、车胎、子午胎、气胎、轮毂、斜交、外倾、急救法、黏度、换胎、倍耐力、拱度、内径、外胎智能分词系统中文智能分词系统综合了新词语识别、词语领域聚类、歧异消解等等方面研究成果,并由各专业专家整理基本词汇、专业词汇和常用短语等资源,精心开发而成。 基本特点:?可选基本词表(8万)切分和固定短语词语表(35万)的切分。?结合多

文档评论(0)

baihuamei + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档