- 1、本文档共8页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
技术文档 - 澜科语言科技:智能文本内容计算,以自然语言处理服务于
文献情报自动标引
一、 训练篇 1
词表管理(可选,如果没有新词就忽略此步) 1
训练集 2
训练 2
二、 应用篇 4
参数设置 4
分类体系 4
重新读入分类资源(可选) 5
类别比较 5
标引 6
三、 测试篇 7
操作说明 7
训练篇
词表管理(可选,如果没有新词就忽略此步)
如果需要在原有分词词表中加入新词语,如叙词、自由词、关键词等,可参照如下方法进行:
1、单击“资源—词表管理”
2、在文本框中输入新词语及是否叙词标志(1是,0否),格式:新词语+制表符+1/0,回车,再输入下一条。单击“加入”按钮,即可,程序会将之加入到原词表中,并判断有几条是新词语。
训练集
请提供“.txt”格式文本文件。
每一三级类是一个文件夹,文件夹名即为类名,如“a”(注意不是“03_A_a”),里面存放该类文本文件。每一二级类是一文件夹,名为类名,如“A”,里面放有该类的所有三级类的文件夹。一级类也如此。如果某一二级类或一级类只有一个下级类,那就不设三级类。
训练
单击“工具—分类训练”
在系统询问对话框单击确定。选择结果存储路径,并输入文件名,确定。
在系统询问对话框单击确定。在打开对话框中找到训练集所在文件夹,确定,等待训练完成。注意应该是单击树节点,直到各大类的上位文件夹,如txt文件下放有“03、30、12、07”四个大类文件夹,哪么点到txt,再单击确定。
对18443篇文献文章训练(每篇文章约8000字,共4大类,80个三级类),系统训练过程约需6分钟。
应用篇
参数设置
1、系统第一次启动时,会询问您设置参数,每一参数都有详细说明,将鼠标放在参数上,会有显示。
在任何时候,您都可以更改参数设置,非常自由灵活。方法是单击“工具—参数设置”:
在系统界面的右上角会显示最新设置的参数:
分类体系
1、单击“资源—分类体系”
2、查看分类体系树,单击树节点即可。注意,体系树是自由生成的,不是固定某一领域的,也就是说,对于其他领域也可以。
3、单击节点的同时,还会显示该类聚类的词语及其权重,如上图。
4、添加新类:考虑到分类训练的基本原理是通过比较不同类之间的词语来进行的,而且训练的速度比较快,因此,添加新类时,直接将新类(可包含层级类)的文件夹(含文本文件)置入原有训练文档集的恰当位置,重新训练即可。
5、删除类别:在程序启动文件夹下打开result文件夹,删除类别文件或文件夹即可,如需删除30类,则删除文件夹30和30.txt即可;如需删除02_B_D类,则只需删除02_B_D.txt即可。
重新读入分类资源(可选)
如果有多个分类模型,请重新读入分类资源。
单击“工具—更改资源”
在打开对话框中找到新的分类资源所在文件夹,确定即可。
类别比较
单击“工具—类别比较”
输入需要比较两个以上的类名的相似度, 在上面文本框中输入待比较的类名,类名之间用“|”隔开,单击按钮“计算上面文本框中的类别之间的相似度”:
标引
单篇标引:在下面的文本框中输入待处理的文本,单击“标引—单篇综合标引”即可。类目和主题词显示在上面的文本框中,摘要会显示在下面那个文本框中。
多篇标引:
单击“标引—多篇综合标引”,在系统询问对话框单击确定。选择结果存储路径,并输入文件名,确定。打开待处理的文件夹,单击确定即可。标引结果保存在:自定义保存路径+文件名中,按原来文件的类名分类存放,文件名就是原来的文件名,文件中首行是程序分的类名,次行是程序标引的主题词,第三行开始是摘要。
多篇摘要:
单击“标引—多篇自动文摘”,在系统询问对话框单击确定。选择结果存储路径,并输入文件名,确定。打开待处理的文件夹,单击确定即可。标引结果保存在:自定义保存路径+文件名中,按原来文件的类名分类存放,文件名就是原来的文件名,文件内容即摘要。
多篇分类:
单击“标引—多篇自动分类”,在系统询问对话框单击确定。选择结果存储路径,并输入文件名,确定。打开待处理的文件夹,单击确定即可。标引结果保存在:自定义保存路径+文件名的文本文件中,格式为:文件名 + 制表符 + 类名。
多篇标主题词:
单击“标引—多篇标主题词”,在系统询问对话框单击确定。选择结果存储路径,并输入文件名,确定。打开待处理的文件夹,单击确定即可。标引结果保存在:自定义保存路径+文件名的文本文件中,格式为:文件名 + 制表符 + 主题词。
快捷栏
类似office的快捷按钮的工具栏,将菜单栏的功能快捷到图标,鼠标移到图标即显示工具提示。
测试篇
操作说明
单击“工具—分类测试”按钮
打开待测试文件夹,请确保每一文本文件名是如下格式:30_A_B_1145,30_A_342,30_2343,最后面的数字是文本文件原来的文件名,前面的部分即类名,如30_A_B。
单击确定即可。
您可能关注的文档
- 所以,PLK1的siRNA具有抵抗癌细胞的增殖作.ppt
- 手太阴肺经腧穴重点演示文稿.ppt
- 手工插件基本知识培训.ppt
- 手太阳小肠经重点腧穴.ppt
- 手把手教你vmware安装oracle10g.doc
- 手把手教你做四喜蒸饺.doc
- 手把手教你到美国网站选购电脑资料指南.doc
- 手把手教你把Acegi应用到实际项目中.doc
- 手把手教你用NERO刻录VCD光盘.doc
- 手把手教你薪酬设计.doc
- 初中语文经典古文教学的有效性分析教学研究开题报告教学研究课题报告.docx
- 初中语文筛选与分析课文的方法探讨教学研究课题报告.docx
- 高中生物课程改革的挑战与对策教学研究课题报告.docx
- 高中生创造性思维训练的途径教学研究课题报告.docx
- 高中生科学实验报告写作的指导方法教学研究课题报告.docx
- 高中物理教学中概念图的应用实证研究教学研究课题报告.docx
- 教师情绪管理对教学效果的影响研究教学研究课题报告.docx
- 教师在课堂观察中的有效反馈机制研究教学研究课题报告.docx
- 初中生学习方式的变迁与教育应对教学研究课题报告.docx
- 初中生自我管理能力培养的研究教学研究课题报告.docx
文档评论(0)