面向论文相似性检测的数据预处理研究.docVIP

  • 6
  • 0
  • 约1.89万字
  • 约 15页
  • 2017-02-08 发布于重庆
  • 举报

面向论文相似性检测的数据预处理研究.doc

面向论文相似性检测的数据预处理研究

面向论文相似性检测的数据预处理研究 刘伙玉1,3 王东波2 1(南京大学信息管理学院 江苏南京 210023) 2(南京农业大学信息科学技术学院 江苏南京 210095) 3(江苏省数据工程与知识服务重点实验室 江苏南京 210023) 摘要:【目的】探究论文相似性检测中数据预处理的数据问题及相关方法。【方法】对数据预处理中的数据清洗、数据集成、数据变换和数据归约进行概述;对数据进行了细致的分析,采用基于规则的方法、基于统计的方法、基于语义的方法进行预处理。【结果】揭示了论文相似性检测中原始数据存在的数据质量问题,并在此基础上给出了数据预处理模型。【结论】 数据预处理有助于提高论文相似性检测结果的准确性;有效结合基于规则、统计、语义的三种方法有助于提高数据预处理效果。 关键词:相似性检测;抄袭检测;数据预处理;数据质量;数据清洗 分类号:TP311.13 Research and Implementation of Data Preprocessing Oriented to Paper Similarity Detection LIU Huoyu1,3 WANG Dongbo2 1(School of Information Management, Nanjing University, Nanjing 210023, China) 2(College of Informat

您可能关注的文档

文档评论(0)

1亿VIP精品文档

相关文档