Negation Опубликовано 17 марта, 2014 Жалоба Поделиться Опубликовано 17 марта, 2014 Перепробовал несколько программ по поиску дубликатов, у всех есть свои плюсы и минусы потому прошу помочь в поиске эталона или хотя бы заточенного варианта, тем более что их сейчас вагон разных, а после теста 5-6 наименований это надоедает. Требования: 1. Система Smart Marker позволяющая выбирать дубликаты по заданным критериям (типа дата, каталог, имя и прочие) наиболее удобна реализация была в Reasonable NoClone 1.1. еще в Duplicate Cleaner была интересная опция - выбрать все найденные дубликаты файлов что являются дубликатами -для этого конкретного файла, -для этого конкретного каталога. 2. Система предпросмотра результатов (относится к изображениям) удобна реализация была в Reasonable NoClone или AntiDupl.net 3. Поиск файлов по типам (необходимые расширение можно забивать вручную типа *.rar; *.gif;), дате, размеру, идентичному имени (функция сейчас наверно уже во всех таких программах предусмотрена, кроме совсем уж однокнопочных для дурака). 4. Наиболее широкая настройка поиска и критериев, удобная реализация была в DupKiller 5. Поиск по -мастер файлу, -мастер папке - когда файл или все файлы из одной папки сравниваются со всеми файлами в заданном диапазоне каталогов. 6. Поиск по похожему имени, как реализовано в DupKiller, но с возможностью задать минимальное-максимальное количество символов и какие символы и/или слова игнорировать. Пример по пункту 5: Есть скачанный пак или галерея, но ранее некоторые картинки сохранялись по 1-2-5-... штук вразброс по разным дискам и папкам. Их нужно вычистить. Искать дубликаты сразу на всем массиве данных - часов 8 займет. А вот поиск по мастерфайлу-папке это хороший способ по кусочку одолеть гору и упорядочить сначала хотя бы часть. Пример по пункту 6: Есть куча архивов с комиксами и журналами, как пример: "Порногодзила_возвращается_1-5_выпуск_(www.matumba.org).zip" вес 10 мб, "Порногодзила_возвращается_1-5.rar" вес 9 мб, "[gbgtnr]Порногодзила-возвращается-vol.1-8.7z" вес 20 мб, По сути это дубликаты, но это только человек способен определить, от софта нужно хотя бы найти похожие названия (как это делает DupKiller) Однако у этой программы нет игнора и настроек похожести (в одной из программ этого типа было "сравнивать файлы, имена которых меньше-больше Х символов"): файл "01.jpg" и файл "02.jpg" имеют 50% похожести в имени и понятно что использовать такой поиск в файлах с именем в 2-4 символа глупая затея. аналогично: рок(www.matumba.org).zip гад(www.matumba.org).zip мат(www.matumba.org).zip тоже имеют высокую схожесть, хотя по смыслу разные Ссылка на комментарий Поделиться на другие сайты Поделиться
Valery Опубликовано 17 марта, 2014 Жалоба Поделиться Опубликовано 17 марта, 2014 Для изображений могу порекомендовать http://soft.softodrom.ru/ap/Awesome-Duplicate-Photo-Finder-Portable-p12972 Awesome duplicate photo finder. Бесплатная, портативная. У нее алгоритм поиска получше, находит копии ранее не найденные Antidupl. Да и интерфейс поудобнее. Насчет остального ничего не могу сказать. Ссылка на комментарий Поделиться на другие сайты Поделиться
Negation Опубликовано 17 марта, 2014 Автор Жалоба Поделиться Опубликовано 17 марта, 2014 Awesome duplicate photo finder. пользовался, по правде интерфейс для меня не особо удобен. С AntiDupl.net надо с настройками поиграться, тогда получше выдает результат, хотя и глаза с руками не заменит. Алгоритм там насколько я знаю схожий, картинка обесцвечивается и сжимается до 32х32, 64х64, или 128х128 после чего по базе сравнивается или по хешу. Идеальных сравнивателей похожих по содержанию пока нет, но эти программы все равно значительно помогают. Сейчас многие сайты любят прилеплять вотермарки и это усугубляет ситуацию. Но поиск похожих картинок это уже последняя стадия разгребания, сначала бы разобраться с идентичными, потом с архивами, а потом уж с похожими. Ссылка на комментарий Поделиться на другие сайты Поделиться
kvazimoda Опубликовано 17 марта, 2014 Жалоба Поделиться Опубликовано 17 марта, 2014 В принципе, можно накатать скрипт, который будет считать MD5 сумму каждого файла и скидывать её вместе с путём до файла в отдельный файлик. Каждую последующую посчитанную MD5 сумму сравнивать с существующими в файле и если находится такая же, то дописывать в строку путь до похожего файла. Если же не находится такой же MD5 суммы, то дописывать в конец, как и первую посчитанную сумму. Потом, для надёжности, можно сравнить побайтно файлы с одинаковыми MD5 суммами, т.к. теоретически возможно существование двух разных файлов с одинаковыми MD5. Конечно, работать такая хрень будет довольно долго, если нужно проверить большой объём информации, но зато просто. P.S.: Можно во время подсчёта не сравнивать MD5, а после окончания запустить сортировку в по этим суммам. Потом будет не очень сложно выделить участки с одинаковыми MD5 суммами :) Ссылка на комментарий Поделиться на другие сайты Поделиться
Negation Опубликовано 17 марта, 2014 Автор Жалоба Поделиться Опубликовано 17 марта, 2014 В принципе, можно накатать скрипт, который будет считать MD5 сумму каждого файла и скидывать её вместе с путём до файла в отдельный файлик. Каждую последующую посчитанную MD5 сумму сравнивать с существующими в файле и если находится такая же, то дописывать в строку путь до похожего файла. Если же не находится такой же MD5 суммы, то дописывать в конец, как и первую посчитанную сумму. Потом, для надёжности, можно сравнить побайтно файлы с одинаковыми MD5 суммами, т.к. теоретически возможно существование двух разных файлов с одинаковыми MD5. Конечно, работать такая хрень будет довольно долго, если нужно проверить большой объём информации, но зато просто. P.S.: Можно во время подсчёта не сравнивать MD5, а после окончания запустить сортировку в по этим суммам. Потом будет не очень сложно выделить участки с одинаковыми MD5 суммами :) А разве существующий софт работает не на тех же принципах? Мне попадались алгоритмы сравнения еще и помимо побайтового и МД5, навскидку не вспомню, софт установлен на домашнем ПК, когда доберусь, могу точнее перечислить. Ссылка на комментарий Поделиться на другие сайты Поделиться
kvazimoda Опубликовано 17 марта, 2014 Жалоба Поделиться Опубликовано 17 марта, 2014 А разве существующий софт работает не на тех же принципах? Мне попадались алгоритмы сравнения еще и помимо побайтового и МД5, навскидку не вспомню, софт установлен на домашнем ПК, когда доберусь, могу точнее перечислить. Я думаю, что многие программы так и работают. Просто, вы что-то ищете, а можно не искать и довольно быстро набросать скрипт с желаемыми возможностями. Как вариант, если преобладают файлы большого объёма, то можно считать MD5 сумму не всего файла, а только его части, например, первых пяти мегабайт, или ещё меньше кусок взять. Это существенно уменьшит время работы. Ссылка на комментарий Поделиться на другие сайты Поделиться
Negation Опубликовано 17 марта, 2014 Автор Жалоба Поделиться Опубликовано 17 марта, 2014 Я ж не грамотный :smiles20(14): "Хорошо быть программистом... вот нужен например фотошоп, взял и написал!" Ссылка на комментарий Поделиться на другие сайты Поделиться
kvazimoda Опубликовано 17 марта, 2014 Жалоба Поделиться Опубликовано 17 марта, 2014 Я ж не грамотный :smiles20(14):"Хорошо быть программистом... вот нужен например фотошоп, взял и написал!" Ну, это вы уже преувеличиваете. Да, чтобы написать скрипт, нужны некоторые знания, но не такие большие, как для написания фотошопа. Да и сколько времени вы тратите на тесты каких-то программ, давно бы уже изучили бы что-нибудь простенькое и накидали бы скрипт. Там писать то десяток-два строчек... Ссылка на комментарий Поделиться на другие сайты Поделиться
Рекомендуемые сообщения
Для публикации сообщений создайте учётную запись или авторизуйтесь
Вы должны быть пользователем, чтобы оставить комментарий
Создать учетную запись
Зарегистрируйте новую учётную запись в нашем сообществе. Это очень просто!
Регистрация нового пользователяВойти
Уже есть аккаунт? Войти в систему.
Войти