- 6
- 0
- 约1.89万字
- 约 15页
- 2017-02-08 发布于重庆
- 举报
面向论文相似性检测的数据预处理研究
面向论文相似性检测的数据预处理研究
刘伙玉1,3 王东波2
1(南京大学信息管理学院 江苏南京 210023)
2(南京农业大学信息科学技术学院 江苏南京 210095)
3(江苏省数据工程与知识服务重点实验室 江苏南京 210023)
摘要:【目的】探究论文相似性检测中数据预处理的数据问题及相关方法。【方法】对数据预处理中的数据清洗、数据集成、数据变换和数据归约进行概述;对数据进行了细致的分析,采用基于规则的方法、基于统计的方法、基于语义的方法进行预处理。【结果】揭示了论文相似性检测中原始数据存在的数据质量问题,并在此基础上给出了数据预处理模型。【结论】
数据预处理有助于提高论文相似性检测结果的准确性;有效结合基于规则、统计、语义的三种方法有助于提高数据预处理效果。
关键词:相似性检测;抄袭检测;数据预处理;数据质量;数据清洗
分类号:TP311.13
Research and Implementation of Data Preprocessing Oriented to Paper Similarity Detection
LIU Huoyu1,3 WANG Dongbo2
1(School of Information Management, Nanjing University, Nanjing 210023, China)
2(College of Informat
您可能关注的文档
- 防水专项施工方案-保利中汇花园.doc
- 防洪墙基础处理施工方案.doc
- 阅卷人教你4小时突破申论(2015联考省考版).doc
- 防止锅炉发生炉膛爆燃事故的技术措施.doc
- 防突考试复习题.doc
- 阶段质量检测(三)思想方法与创新意识.doc
- 陈四楼矿煤矿瓦斯抽采管网监控系统技术规格书(最新).doc
- 附录方法论及其案例.doc
- 附录I-3数据库设计报告.doc
- 防灾安全监控系统操作手册.doc
- CN118228103B 基于网络模式和元路径的双视图范式的异构图神经网络节点分类方法 (华南理工大学).docx
- CN118207835B 一种联合火箭锚与植桩技术的堤防决口快速封堵方法 (大连理工大学).docx
- CN118211675B 基于机器学习消除冗余约束的机组组合加速寻优方法及系统 (中国电力科学研究院有限公司).docx
- CN118297473B 电力系统电压安全评估及优化方法、系统、设备和介质 (国网经济技术研究院有限公司).docx
- CN117997906B 节点计算资源分配方法、网络交换子系统及智能计算平台 (广东琴智科技研究院有限公司).docx
- CN118298536B 一种基于智慧社区监控系统的门禁授权认证方法及系统 (广州市西迈信息科技有限公司).docx
- CN118225438B 大功率霍尔推进器在轨健康状态监测方法 (哈尔滨工业大学).docx
- CN118052938B 一种基于多源数据融合的建筑物多细节层次模型重建方法 (北京市测绘设计研究院).docx
- CN117964706B 一种十五元环缩肽类化合物及其制备方法与应用 (广西中医药大学).docx
- CN118081766B 一种面向协调类任务的双臂机器人主从统一导纳控制方法 (南京航空航天大学).docx
最近下载
- 2026年铁岭卫生职业学院单招职业倾向性考试题库附答案详解(完整版).docx VIP
- 贵州喀斯特石漠化地区高速公路绿色建造(每日一练).pdf VIP
- 论夫妻婚前个人财产婚后收益的归属:法理辨析与实践审视.docx VIP
- 2026山东日照银行校园150人招聘参考笔试题库附答案解析.docx VIP
- (高清版)DB32∕T 4853-2024 堤坝道路工程技术规范.pdf VIP
- 儿童绘本图书《活了100万次的猫》.pdf VIP
- 电气倒闸操作票格式.doc VIP
- ABB SACE HF空气断路器.pdf VIP
- 2026年最新管理学原理中级考试题及答案.doc VIP
- 2025_2026学年广东省广州市从化区九年级上册语文期末试卷(文字版,含答案).docx VIP
原创力文档

文档评论(0)