技术文档 - 澜科语言科技:智能文本内容计算,以自然语言处理服务于.doc

技术文档 - 澜科语言科技:智能文本内容计算,以自然语言处理服务于.doc

  1. 1、本文档共8页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
技术文档 - 澜科语言科技:智能文本内容计算,以自然语言处理服务于

文献情报自动标引 一、 训练篇 1 词表管理(可选,如果没有新词就忽略此步) 1 训练集 2 训练 2 二、 应用篇 4 参数设置 4 分类体系 4 重新读入分类资源(可选) 5 类别比较 5 标引 6 三、 测试篇 7 操作说明 7 训练篇 词表管理(可选,如果没有新词就忽略此步) 如果需要在原有分词词表中加入新词语,如叙词、自由词、关键词等,可参照如下方法进行: 1、单击“资源—词表管理” 2、在文本框中输入新词语及是否叙词标志(1是,0否),格式:新词语+制表符+1/0,回车,再输入下一条。单击“加入”按钮,即可,程序会将之加入到原词表中,并判断有几条是新词语。 训练集 请提供“.txt”格式文本文件。 每一三级类是一个文件夹,文件夹名即为类名,如“a”(注意不是“03_A_a”),里面存放该类文本文件。每一二级类是一文件夹,名为类名,如“A”,里面放有该类的所有三级类的文件夹。一级类也如此。如果某一二级类或一级类只有一个下级类,那就不设三级类。 训练 单击“工具—分类训练” 在系统询问对话框单击确定。选择结果存储路径,并输入文件名,确定。 在系统询问对话框单击确定。在打开对话框中找到训练集所在文件夹,确定,等待训练完成。注意应该是单击树节点,直到各大类的上位文件夹,如txt文件下放有“03、30、12、07”四个大类文件夹,哪么点到txt,再单击确定。 对18443篇文献文章训练(每篇文章约8000字,共4大类,80个三级类),系统训练过程约需6分钟。 应用篇 参数设置 1、系统第一次启动时,会询问您设置参数,每一参数都有详细说明,将鼠标放在参数上,会有显示。 在任何时候,您都可以更改参数设置,非常自由灵活。方法是单击“工具—参数设置”: 在系统界面的右上角会显示最新设置的参数: 分类体系 1、单击“资源—分类体系” 2、查看分类体系树,单击树节点即可。注意,体系树是自由生成的,不是固定某一领域的,也就是说,对于其他领域也可以。 3、单击节点的同时,还会显示该类聚类的词语及其权重,如上图。 4、添加新类:考虑到分类训练的基本原理是通过比较不同类之间的词语来进行的,而且训练的速度比较快,因此,添加新类时,直接将新类(可包含层级类)的文件夹(含文本文件)置入原有训练文档集的恰当位置,重新训练即可。 5、删除类别:在程序启动文件夹下打开result文件夹,删除类别文件或文件夹即可,如需删除30类,则删除文件夹30和30.txt即可;如需删除02_B_D类,则只需删除02_B_D.txt即可。 重新读入分类资源(可选) 如果有多个分类模型,请重新读入分类资源。 单击“工具—更改资源” 在打开对话框中找到新的分类资源所在文件夹,确定即可。 类别比较 单击“工具—类别比较” 输入需要比较两个以上的类名的相似度, 在上面文本框中输入待比较的类名,类名之间用“|”隔开,单击按钮“计算上面文本框中的类别之间的相似度”: 标引 单篇标引:在下面的文本框中输入待处理的文本,单击“标引—单篇综合标引”即可。类目和主题词显示在上面的文本框中,摘要会显示在下面那个文本框中。 多篇标引: 单击“标引—多篇综合标引”,在系统询问对话框单击确定。选择结果存储路径,并输入文件名,确定。打开待处理的文件夹,单击确定即可。标引结果保存在:自定义保存路径+文件名中,按原来文件的类名分类存放,文件名就是原来的文件名,文件中首行是程序分的类名,次行是程序标引的主题词,第三行开始是摘要。 多篇摘要: 单击“标引—多篇自动文摘”,在系统询问对话框单击确定。选择结果存储路径,并输入文件名,确定。打开待处理的文件夹,单击确定即可。标引结果保存在:自定义保存路径+文件名中,按原来文件的类名分类存放,文件名就是原来的文件名,文件内容即摘要。 多篇分类: 单击“标引—多篇自动分类”,在系统询问对话框单击确定。选择结果存储路径,并输入文件名,确定。打开待处理的文件夹,单击确定即可。标引结果保存在:自定义保存路径+文件名的文本文件中,格式为:文件名 + 制表符 + 类名。 多篇标主题词: 单击“标引—多篇标主题词”,在系统询问对话框单击确定。选择结果存储路径,并输入文件名,确定。打开待处理的文件夹,单击确定即可。标引结果保存在:自定义保存路径+文件名的文本文件中,格式为:文件名 + 制表符 + 主题词。 快捷栏 类似office的快捷按钮的工具栏,将菜单栏的功能快捷到图标,鼠标移到图标即显示工具提示。 测试篇 操作说明 单击“工具—分类测试”按钮 打开待测试文件夹,请确保每一文本文件名是如下格式:30_A_B_1145,30_A_342,30_2343,最后面的数字是文本文件原来的文件名,前面的部分即类名,如30_A_B。 单击确定即可。

文档评论(0)

pangzilva + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档