维思比自然语言处理工具技术白皮书.pdfVIP

下载本文档

12
0
约3.57千字
约 3页
2017-08-12 发布于重庆
举报
版权申诉

维思比自然语言处理工具技术白皮书.pdf

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

维思比自然语言处理工具技术白皮书.pdf

维思比自然语言处理工具技术白皮书维思比自然语言处理工具技术白皮书一、产品描述维思比自然语言处理工具是维思比科技（北京）有限公司（以下简称“维思比”）为信息处理而研发的软件产品。信息处理是信息采集之后的另一个重要环节，能否对已经获取的海量信息进行有效整理，制约着信息应用的最终效果。维思比自然语言处理工具涵盖了维思比的多项中文信息处理技术，包括十大独立功能模块：文本分类、文本聚类、相似性检索、自动摘要、自动分词、信息抽取、敏感信息过滤、用户倾向分析、拼音检索、相关短语检索。所有模块都支持多语种，目前可支持中、日、韩、俄、英、西、阿等十几种语言。维思比自然语言处理工具可以广泛应用于不同领域：搜索引擎、全文检索、知识管理、情报分析、信息监控、信息过滤、数字图书、电子商务等。可以满足用户的不同应用需求：文档归类、专题汇总、知识地图、趋势分析、关联分析、热点发现、主题追踪、排查重稿、数据抽取等。二、模块详述文本分类文本分类是指按照一定的分类标准或者分类参考，进行有指导的自动学习，将需要处理的文本自动划归到不同类目的信息处理方式。文本分类模块提供两种分类方式对文本内容进行分类：基于统计的文本分类和基于规则体系的文本分类。基于统计的文本分类方式，用户可以加载语料库，模块进行分类训练自动学习。基于规则体系的文本分类方式，用户可以编写分类规则，模块根据用户自定义规则进行自动分类。两种文本分类方式可以结合使用，提高分类的准确性。文本分类模块支持循环训练，用户可以根据应用的情况随时提交反馈，即时修改补充语料库和规则库，模块可以自动循环训练、持续学习，不断提高文本分类的应用效果。文本分类模块支持多级分类，用户可以根据需要设定分类层级，设置多级分类体系。文本分类模块支持复分，同一文本可以同时归入不同类别，应用灵活。文本分类模块支持基于语义分析的向量空间模型，用户可以建立知识词典，模块自动调用知识库资源，进一步提高分类的精确度。文本分类准确率一般在 85% 以上，速度为每秒800-1000 篇之间，符合工程化应用需求，可以节省人工判断时间，提高工作效率。文本聚类文本聚类是指在没有类目体系的情况下，按照一定的要求，将相近、相似或者相同特征的文本聚合在一起的信息处理方式。文本聚类模块建立在相似性计算基础之上，对同一层级的文本根据相似性进行自动聚合。 1 维思比自然语言处理工具技术白皮书文本聚类模块支持多级分类，可以聚合成多层的类目体系。文本聚类模块应用统计方法，利用向量空间模型对文本的特征空间进行自动判断。文本聚类模块自动提取命名参考。对同类文本自动提取主题词和摘要，作为类别特征，为用户最终确定主题名称提供参考依据。文本聚类模块支持基于语义分析的向量空间模型，用户可以建立知识词典，模块自动调用知识库资源，进一步提高自动聚类的精确度。文本聚类准确率一般在 85% 以上，速度为每秒800-1000 篇之间，符合工程化应用需求，可以节省人工判断时间，提高工作效率。相似性检索相似性检索是指利用文本的内在特征信息进行智能分析，判断文本间的相似性与重复性，自动进行相似性判断及重复信息排除的信息处理方式。相似性检索模块支持基于文本内容的相似性判断，用户可以自定义相似度阈值，实现不同程度的内容相似性判断或排重。相似性检索模块还支持基于标题或线索词的文本相似性判断，更加灵活。同时，相似性检索模块支持基于网页信息指纹的相似性判断，可以自动提取网页摘要、关键词和主题词等特征，自动生成唯一序列，自动判断信息指纹是否相等，进而假定网页内容相似，在网页检索时更高效便捷。自动排重的速度为每秒170-270 篇左右。自动摘要自动摘要是指运用语言规则，智能分析文本内容，自动提取关键词生成主题词，自动提取中心句形成内容摘要的信息处理方式。自动摘要模块支持基于语义分析的向量空间模型，用户可以建立知识词典，模块自动调用知识库资源，分析语义的相关性，提高主题词和摘要的质量。自动摘要模块支持线索词