《基于python的重复文档搜索与删除功能系统的实现》9300字.docx

《基于python的重复文档搜索与删除功能系统的实现》9300字.docx

PAGEIII

基于python的重复文档搜索与删除功能系统的实现

摘要

随着社会的不断进步和信息化的逐步扩大,我们使用计算机的频率越来越高。然而,由于长期使用计算机,就不可避免地会产生各种无用重复的文档。我们经常见到的文档有以下这四种:PDF、Word、网页文本和纯文本,这四种文档的扩展名分别为PDF、DOC、HTL或HTML和TXT。在我们的计算机磁盘中有一部分是重复文档,如果我们不及时去整理,会导致更多重复的文档和资料占用大量不必要的计算机空间资源。这重复的文档毫无疑问的会直接影响到互联网数据的质量,同时也影响着信息传播的效率。如果我们手动将计算机里每个磁盘上的文档对比发现有重

您可能关注的文档

文档评论(0)

1亿VIP精品文档

相关文档