维思比自然语言处理工具技术白皮书.pdfVIP

维思比自然语言处理工具技术白皮书.pdf

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
维思比自然语言处理工具技术白皮书.pdf

维思比自然语言处理工具技术白皮书 维思比自然语言处理工具技术白皮书 一、产品描述 维思比自然语言处理工具是维思比科技(北京)有限公司(以下简称“维思比”)为信 息处理而研发的软件产品。信息处理是信息采集之后的另一个重要环节,能否对已经获取的 海量信息进行有效整理,制约着信息应用的最终效果。维思比自然语言处理工具涵盖了维思 比的多项中文信息处理技术,包括十大独立功能模块:文本分类、文本聚类、相似性检索、 自动摘要、自动分词、信息抽取、敏感信息过滤、用户倾向分析、拼音检索、相关短语检 索。所有模块都支持多语种,目前可支持中、日、韩、俄、英、西、阿等十几种语言。 维思比自然语言处理工具可以广泛应用于不同领域:搜索引擎、全文检索、知识管理、 情报分析、信息监控、信息过滤、数字图书、电子商务等。可以满足用户的不同应用需求: 文档归类、专题汇总、知识地图、趋势分析、关联分析、热点发现、主题追踪、排查重稿、 数据抽取等。 二、模块详述 文本分类 文本分类是指按照一定的分类标准或者分类参考,进行有指导的自动学习,将需要处理 的文本自动划归到不同类目的信息处理方式。 文本分类模块提供两种分类方式对文本内容进行分类:基于统计的文本分类和基于规则 体系的文本分类。基于统计的文本分类方式,用户可以加载语料库,模块进行分类训练自动 学习。基于规则体系的文本分类方式,用户可以编写分类规则,模块根据用户自定义规则进 行自动分类。两种文本分类方式可以结合使用,提高分类的准确性。 文本分类模块支持循环训练,用户可以根据应用的情况随时提交反馈,即时修改补充语 料库和规则库,模块可以自动循环训练、持续学习,不断提高文本分类的应用效果。 文本分类模块支持多级分类,用户可以根据需要设定分类层级,设置多级分类体系。 文本分类模块支持复分,同一文本可以同时归入不同类别,应用灵活。 文本分类模块支持基于语义分析的向量空间模型,用户可以建立知识词典,模块自动调 用知识库资源,进一步提高分类的精确度。 文本分类准确率一般在 85% 以上,速度为每秒800-1000 篇之间,符合工程化应用需求, 可以节省人工判断时间,提高工作效率。 文本聚类 文本聚类是指在没有类目体系的情况下,按照一定的要求,将相近、相似或者相同特征 的文本聚合在一起的信息处理方式。 文本聚类模块建立在相似性计算基础之上,对同一层级的文本根据相似性进行自动聚 合。 1 维思比自然语言处理工具技术白皮书 文本聚类模块支持多级分类,可以聚合成多层的类目体系。 文本聚类模块应用统计方法,利用向量空间模型对文本的特征空间进行自动判断。 文本聚类模块自动提取命名参考。对同类文本自动提取主题词和摘要,作为类别特征, 为用户最终确定主题名称提供参考依据。 文本聚类模块支持基于语义分析的向量空间模型,用户可以建立知识词典,模块自动调 用知识库资源,进一步提高自动聚类的精确度。 文本聚类准确率一般在 85% 以上,速度为每秒800-1000 篇之间,符合工程化应用需求, 可以节省人工判断时间,提高工作效率。 相似性检索 相似性检索是指利用文本的内在特征信息进行智能分析,判断文本间的相似性与重复 性,自动进行相似性判断及重复信息排除的信息处理方式。 相似性检索模块支持基于文本内容的相似性判断,用户可以自定义相似度阈值,实现不 同程度的内容相似性判断或排重。 相似性检索模块还支持基于标题或线索词的文本相似性判断,更加灵活。 同时,相似性检索模块支持基于网页信息指纹的相似性判断,可以自动提取网页摘要、 关键词和主题词等特征,自动生成唯一序列,自动判断信息指纹是否相等,进而假定网页内 容相似,在网页检索时更高效便捷。 自动排重的速度为每秒170-270 篇左右。 自动摘要 自动摘要是指运用语言规则,智能分析文本内容,自动提取关键词生成主题词,自动提 取中心句形成内容摘要的信息处理方式。 自动摘要模块支持基于语义分析的向量空间模型,用户可以建立知识词典,模块自动调 用知识库资源,分析语义的相关性,提高主题词和摘要的质量。 自动摘要模块支持线索词

文档评论(0)

docindoc + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档