Продвинутый поиск дубликатов файлов на ПК

**Negation** · 17 марта, 2014

Перепробовал несколько программ по поиску дубликатов, у всех есть свои плюсы и минусы потому прошу помочь в поиске эталона или хотя бы заточенного варианта, тем более что их сейчас вагон разных, а после теста 5-6 наименований это надоедает.

Требования:

1. Система Smart Marker позволяющая выбирать дубликаты по заданным критериям (типа дата, каталог, имя и прочие) наиболее удобна реализация была в Reasonable NoClone

1.1. еще в Duplicate Cleaner была интересная опция - выбрать все найденные дубликаты файлов что являются дубликатами -для этого конкретного файла, -для этого конкретного каталога.

2. Система предпросмотра результатов (относится к изображениям) удобна реализация была в Reasonable NoClone или AntiDupl.net

3. Поиск файлов по типам (необходимые расширение можно забивать вручную типа *.rar; *.gif;), дате, размеру, идентичному имени (функция сейчас наверно уже во всех таких программах предусмотрена, кроме совсем уж однокнопочных для дурака).

4. Наиболее широкая настройка поиска и критериев, удобная реализация была в DupKiller

5. Поиск по -мастер файлу, -мастер папке - когда файл или все файлы из одной папки сравниваются со всеми файлами в заданном диапазоне каталогов.

6. Поиск по похожему имени, как реализовано в DupKiller, но с возможностью задать минимальное-максимальное количество символов и какие символы и/или слова игнорировать.

Пример по пункту 5: Есть скачанный пак или галерея, но ранее некоторые картинки сохранялись по 1-2-5-... штук вразброс по разным дискам и папкам.

Их нужно вычистить. Искать дубликаты сразу на всем массиве данных - часов 8 займет. А вот поиск по мастерфайлу-папке это хороший способ по кусочку одолеть гору и упорядочить сначала хотя бы часть.

Пример по пункту 6: Есть куча архивов с комиксами и журналами, как пример:

"Порногодзила_возвращается_1-5_выпуск_(www.matumba.org).zip" вес 10 мб,

"Порногодзила_возвращается_1-5.rar" вес 9 мб,

"[gbgtnr]Порногодзила-возвращается-vol.1-8.7z" вес 20 мб,

По сути это дубликаты, но это только человек способен определить, от софта нужно хотя бы найти похожие названия (как это делает DupKiller)

Однако у этой программы нет игнора и настроек похожести (в одной из программ этого типа было "сравнивать файлы, имена которых меньше-больше Х символов"):

файл "01.jpg" и файл "02.jpg" имеют 50% похожести в имени и понятно что использовать такой поиск в файлах с именем в 2-4 символа глупая затея.

аналогично:

рок(www.matumba.org).zip

гад(www.matumba.org).zip

мат(www.matumba.org).zip

тоже имеют высокую схожесть, хотя по смыслу разные

**Valery** · 17 марта, 2014

Для изображений могу порекомендовать http://soft.softodrom.ru/ap/Awesome-Duplicate-Photo-Finder-Portable-p12972 Awesome duplicate photo finder. Бесплатная, портативная. У нее алгоритм поиска получше, находит копии ранее не найденные Antidupl. Да и интерфейс поудобнее.

Насчет остального ничего не могу сказать.

**Negation** · 17 марта, 2014

Awesome duplicate photo finder.

пользовался, по правде интерфейс для меня не особо удобен. С AntiDupl.net надо с настройками поиграться, тогда получше выдает результат, хотя и глаза с руками не заменит. Алгоритм там насколько я знаю схожий, картинка обесцвечивается и сжимается до 32х32, 64х64, или 128х128 после чего по базе сравнивается или по хешу.

Идеальных сравнивателей похожих по содержанию пока нет, но эти программы все равно значительно помогают. Сейчас многие сайты любят прилеплять вотермарки и это усугубляет ситуацию.

Но поиск похожих картинок это уже последняя стадия разгребания, сначала бы разобраться с идентичными, потом с архивами, а потом уж с похожими.

**kvazimoda** · 17 марта, 2014

В принципе, можно накатать скрипт, который будет считать MD5 сумму каждого файла и скидывать её вместе с путём до файла в отдельный файлик. Каждую последующую посчитанную MD5 сумму сравнивать с существующими в файле и если находится такая же, то дописывать в строку путь до похожего файла. Если же не находится такой же MD5 суммы, то дописывать в конец, как и первую посчитанную сумму.

Потом, для надёжности, можно сравнить побайтно файлы с одинаковыми MD5 суммами, т.к. теоретически возможно существование двух разных файлов с одинаковыми MD5.

Конечно, работать такая хрень будет довольно долго, если нужно проверить большой объём информации, но зато просто.

P.S.: Можно во время подсчёта не сравнивать MD5, а после окончания запустить сортировку в по этим суммам. Потом будет не очень сложно выделить участки с одинаковыми MD5 суммами :)

**Negation** · 17 марта, 2014

В принципе, можно накатать скрипт, который будет считать MD5 сумму каждого файла и скидывать её вместе с путём до файла в отдельный файлик. Каждую последующую посчитанную MD5 сумму сравнивать с существующими в файле и если находится такая же, то дописывать в строку путь до похожего файла. Если же не находится такой же MD5 суммы, то дописывать в конец, как и первую посчитанную сумму.

Потом, для надёжности, можно сравнить побайтно файлы с одинаковыми MD5 суммами, т.к. теоретически возможно существование двух разных файлов с одинаковыми MD5.

Конечно, работать такая хрень будет довольно долго, если нужно проверить большой объём информации, но зато просто.

P.S.: Можно во время подсчёта не сравнивать MD5, а после окончания запустить сортировку в по этим суммам. Потом будет не очень сложно выделить участки с одинаковыми MD5 суммами :)

А разве существующий софт работает не на тех же принципах? Мне попадались алгоритмы сравнения еще и помимо побайтового и МД5, навскидку не вспомню, софт установлен на домашнем ПК, когда доберусь, могу точнее перечислить.

**kvazimoda** · 17 марта, 2014

А разве существующий софт работает не на тех же принципах? Мне попадались алгоритмы сравнения еще и помимо побайтового и МД5, навскидку не вспомню, софт установлен на домашнем ПК, когда доберусь, могу точнее перечислить.

Я думаю, что многие программы так и работают. Просто, вы что-то ищете, а можно не искать и довольно быстро набросать скрипт с желаемыми возможностями. Как вариант, если преобладают файлы большого объёма, то можно считать MD5 сумму не всего файла, а только его части, например, первых пяти мегабайт, или ещё меньше кусок взять. Это существенно уменьшит время работы.

**Negation** · 17 марта, 2014

Я ж не грамотный :smiles20(14):

"Хорошо быть программистом... вот нужен например фотошоп, взял и написал!"

**kvazimoda** · 17 марта, 2014

Я ж не грамотный :smiles20(14):
"Хорошо быть программистом... вот нужен например фотошоп, взял и написал!"

Ну, это вы уже преувеличиваете. Да, чтобы написать скрипт, нужны некоторые знания, но не такие большие, как для написания фотошопа. Да и сколько времени вы тратите на тесты каких-то программ, давно бы уже изучили бы что-нибудь простенькое и накидали бы скрипт. Там писать то десяток-два строчек...

Войти

Продвинутый поиск дубликатов файлов на ПК

Рекомендуемые сообщения

Negation

Ссылка на комментарий

Поделиться на другие сайты

Valery

Ссылка на комментарий

Поделиться на другие сайты

Negation

Ссылка на комментарий

Поделиться на другие сайты

kvazimoda

Ссылка на комментарий

Поделиться на другие сайты

Negation

Ссылка на комментарий

Поделиться на другие сайты

kvazimoda

Ссылка на комментарий

Поделиться на другие сайты

Negation

Ссылка на комментарий

Поделиться на другие сайты

kvazimoda

Ссылка на комментарий

Поделиться на другие сайты

Для публикации сообщений создайте учётную запись или авторизуйтесь

Создать учетную запись

Войти

Последние посетители 0 пользователей онлайн

Обзор

Активность