文本挖掘软件PPT.ppt

文本挖掘软件PPT

数据清理之DWPI 自动清理 Derwent数据的自动清理工具 预制的清理数据脚本,规范数据,生成(DWPI only): Assignee (cleaned); Inventor ( Cleaned); IPC (Cleaned); Derwent Class (Cleaned) 针对本课题需要清理的数据 专利权人 自然语词(标题、摘要、) 专利权国家、地区 IPC、Manual Code 数据清理之: List Cleanup TDA 可以将同义词/等同词等加以区分; 当使用List Cleanup工具时, 您在使用文件名后缀为 .fuz 的文件对数据进行清理. 最常用的模糊匹配文献包括: 机构(Affiliation ) - 可用于公司/机构字段,忽略常用的机构标志词 (e.g. Corp, AG, KK, Ltd) 作者(Author )-用于作者字段; 发明人(Inventor )-用于发明人字段; 一般(General )-可用于所有的文本字段, e.g. cleaning NLP text fields 利用List Clean up清理数据 相同专利权人的合并 (光标拖动放在相应名称下即可) 将不应该归并的数据从组中去除(选中数据并采用右键) 恢复继续清理 将清理结果保存为叙词,用于今后数据清理 使用叙词帮助信息清理 数据清理之: Thesaurus--

您可能关注的文档

文档评论(0)

1亿VIP精品文档

相关文档