- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
维思比自然语言处理工具技术白皮书.pdf
维思比自然语言处理工具技术白皮书
维思比自然语言处理工具技术白皮书
一、产品描述
维思比自然语言处理工具是维思比科技(北京)有限公司(以下简称“维思比”)为信
息处理而研发的软件产品。信息处理是信息采集之后的另一个重要环节,能否对已经获取的
海量信息进行有效整理,制约着信息应用的最终效果。维思比自然语言处理工具涵盖了维思
比的多项中文信息处理技术,包括十大独立功能模块:文本分类、文本聚类、相似性检索、
自动摘要、自动分词、信息抽取、敏感信息过滤、用户倾向分析、拼音检索、相关短语检
索。所有模块都支持多语种,目前可支持中、日、韩、俄、英、西、阿等十几种语言。
维思比自然语言处理工具可以广泛应用于不同领域:搜索引擎、全文检索、知识管理、
情报分析、信息监控、信息过滤、数字图书、电子商务等。可以满足用户的不同应用需求:
文档归类、专题汇总、知识地图、趋势分析、关联分析、热点发现、主题追踪、排查重稿、
数据抽取等。
二、模块详述
文本分类
文本分类是指按照一定的分类标准或者分类参考,进行有指导的自动学习,将需要处理
的文本自动划归到不同类目的信息处理方式。
文本分类模块提供两种分类方式对文本内容进行分类:基于统计的文本分类和基于规则
体系的文本分类。基于统计的文本分类方式,用户可以加载语料库,模块进行分类训练自动
学习。基于规则体系的文本分类方式,用户可以编写分类规则,模块根据用户自定义规则进
行自动分类。两种文本分类方式可以结合使用,提高分类的准确性。
文本分类模块支持循环训练,用户可以根据应用的情况随时提交反馈,即时修改补充语
料库和规则库,模块可以自动循环训练、持续学习,不断提高文本分类的应用效果。
文本分类模块支持多级分类,用户可以根据需要设定分类层级,设置多级分类体系。
文本分类模块支持复分,同一文本可以同时归入不同类别,应用灵活。
文本分类模块支持基于语义分析的向量空间模型,用户可以建立知识词典,模块自动调
用知识库资源,进一步提高分类的精确度。
文本分类准确率一般在 85% 以上,速度为每秒800-1000 篇之间,符合工程化应用需求,
可以节省人工判断时间,提高工作效率。
文本聚类
文本聚类是指在没有类目体系的情况下,按照一定的要求,将相近、相似或者相同特征
的文本聚合在一起的信息处理方式。
文本聚类模块建立在相似性计算基础之上,对同一层级的文本根据相似性进行自动聚
合。
1
维思比自然语言处理工具技术白皮书
文本聚类模块支持多级分类,可以聚合成多层的类目体系。
文本聚类模块应用统计方法,利用向量空间模型对文本的特征空间进行自动判断。
文本聚类模块自动提取命名参考。对同类文本自动提取主题词和摘要,作为类别特征,
为用户最终确定主题名称提供参考依据。
文本聚类模块支持基于语义分析的向量空间模型,用户可以建立知识词典,模块自动调
用知识库资源,进一步提高自动聚类的精确度。
文本聚类准确率一般在 85% 以上,速度为每秒800-1000 篇之间,符合工程化应用需求,
可以节省人工判断时间,提高工作效率。
相似性检索
相似性检索是指利用文本的内在特征信息进行智能分析,判断文本间的相似性与重复
性,自动进行相似性判断及重复信息排除的信息处理方式。
相似性检索模块支持基于文本内容的相似性判断,用户可以自定义相似度阈值,实现不
同程度的内容相似性判断或排重。
相似性检索模块还支持基于标题或线索词的文本相似性判断,更加灵活。
同时,相似性检索模块支持基于网页信息指纹的相似性判断,可以自动提取网页摘要、
关键词和主题词等特征,自动生成唯一序列,自动判断信息指纹是否相等,进而假定网页内
容相似,在网页检索时更高效便捷。
自动排重的速度为每秒170-270 篇左右。
自动摘要
自动摘要是指运用语言规则,智能分析文本内容,自动提取关键词生成主题词,自动提
取中心句形成内容摘要的信息处理方式。
自动摘要模块支持基于语义分析的向量空间模型,用户可以建立知识词典,模块自动调
用知识库资源,分析语义的相关性,提高主题词和摘要的质量。
自动摘要模块支持线索词
文档评论(0)