网站大量收购闲置独家精品文档,联系QQ:2885784924

LJParser内容搜索与挖掘开发平台.doc

  1. 1、本文档共17页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
LJParser内容搜索与挖掘开发平台

LJParser内容搜索与挖掘开发平台 LJParser Text Search Text Mining Development Platform 用户手册 Manual Tuesday, May 4, 2010 Document Information Document ID LINGJOIN-LJPARSER -MANUAL Version V1.0 Security level Status Creation and first draft for comment Author Date May 4, 2010 Publisher / Approved by Version History Note:The first version is”v0.1”. Each subsequent version will add 0.1 to the exiting version. The version number should be updated only when there are significant changes, for example, changes made to reflect reviews. The first figure in the version 1.x denotes current review status by. 1. x denotes review process has passed round 1 etc .Anyone who create, review or modify the document should describe his action. Version Author/Reviewer Date Description V1.0 2009-12-26 Creation and first draft for comment. 目 录 一、LJParser内容搜索与挖掘开发平台简介 3 二、LJParser开发平台可视化软件操作指南 4 2.1:全文精准检索 4 2.2:新词发现 5 2.3:导入用户词典,对语料进行分词及词性标注 6 2.4:词频统计及翻译 8 2.5:文本聚类及热点内容分析 11 2.6:分类过滤 11 2.7:文本摘要与关键词提取 14 2.8:文档去重 15 2.9:HTML正文解析 16 三、关于灵玖软件 16 3.1 灵玖软件介绍 16 3.2 联系我们 17 一、LJParser内容搜索与挖掘开发平台简介 LJParser内容搜索与挖掘开发平台针对互联网内容处理的需要,融合了自然语言理解、网络搜索和文本挖掘的技术,提供了用于技术二次开发的基础工具集。开发平台由多个中间件组成,各个中间件API可以无缝地融合到客户的各类复杂应用系统之中,可兼容Windows,Linux, Android,Maemo5, FreeBSD等不同操作系统平台,可以供Java,C,C#等各类开发语言使用。 LJParser是一套专门针对原始文本集进行处理和加工的软件,提供了中间件处理效果的可视化展示,也可以作为小规模数据的处理加工工具。用户可以使用该软件对自己的数据进行处理。 LJParser内容搜索与挖掘开发平台的十大功能: 1. 全文精准检索 支持文本、数字、日期、字符串等各种数据类型,多字段的高效搜索,支持AND/OR/NOT以及NEAR邻近等查询语法,支持维语、藏语、蒙语、阿拉伯、韩语等多种少数民族语言的检索。可以无缝地与现有文本处理系统与数据库系统融合。 2. 新词发现: 从文件集合中挖掘出内涵的新词语列表,可以用于用户专业词典的编撰;还可以进一步编辑标注,导入分词词典中,从而提高分词系统的准确度,并适应新的语言变化。 3. 分词标注: 对原始语料进行分词、自动识别人名地名机构名等未登录词、新词标注以及词性标注。并可在分析过程中,导入用户定义的词典。 4. 统计分析与术语翻译 针对切分标注结果,系统可以自动地进行一元词频统计、二元词语转移概率统计(统计两个词左右连接的频次即概率)。针对常用的术语,会自动给出相应的英文解释。 5. 文本聚类及热点分析 能够从大规模数据中自动分析出热点事件,并提供事件话题的关键特征描述。同时适用于长文本和短信、微博等短文本的热点分析。 6. 分类过滤 针对事先指定的规则和示例样本,系统自动从海量文档中筛选出符合需求的样本。 7. 自动摘要 能够对单篇或多篇文章,自动提炼出内容的精华,方便用户快速浏览文本内容。 8. 关键词提取 能够对单篇文章或文章集合,提取出若干个代表文章中心思想的词汇或短语,可用于精化阅读、语义查询和快

您可能关注的文档

文档评论(0)

yan698698 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档