Text Duplicate Killer — Программа для работы со словарями

Ленко Форензика

Text Duplicate Killer – программа, предназначенная для удаления из текста повторяющихся строк(не обязательно смежных). В результате создается новый текстовый файл, в котором каждая строка встречается только один раз.

Инструкция как найти дубликаты

1. У Вас должен быть готов файл формата ASCII, содержащий текст, в котором Вы хотите удалить дублирующиеся строки. Если Вам нужно обработать текст из файлов DOC или RTF, то экспортируйте его в ASCII.
2. После запуска утилиты tdk.exe выберите пункт меню Файл|Открыть исходный файл и укажите файл, в котором необходимо удалить дубликаты.
3. Затем с помощью пункта меню Файл|Задать целевой файл укажите имя нового файла. В этот файл утилита поместит обработанный текст, который уже не будет содержать дубликатов. Вы можете автоматически создать новое имя. Для этого нажмите кнопку с “волшебной палочкой”.
4. Для запуска процесса поиска и удаления дубликатов выберите пункт меню Операции|Убрать дубликаты!. В любой момент Вы можете прервать работу, нажав на кнопку Стоп, находящуюся в правом нижнем углу. При большом объеме текста обработка может занять некоторое время.
Имя целевого файла

Имя целевого файла можно создать автоматически, нажав на кнопку “волшебная палочка”. В автоматически созданном имени кодируются некоторые настройки.

Ниже приведены примеры:
Имя исходного файла: test.txt

Варианты автоматически создаваемого имени целевого файла:
test.txt.no_dupes_w_i.txt – конец строки формата Windows (CR/LF), игнорировать регистр
test.txt.no_dupes_u_i.txt – конец строки формата Unix (LF), игнорировать регистр
test.txt.no_dupes_w.txt – конец строки формата Windows (CR/LF), не игнорировать регистр
test.txt.no_dupes_u.txt – конец строки формата Unix (LF), не игнорировать регистр

Внимание! В случае, если файл с целевым именем уже существует, он перезапишется без запроса.
Допустимые форматы файлов

Text Duplicate Killer корректно обрабатывает только текстовые файлы формата ASCII.

Чтобы обработать документы Microsoft Word и прочие файлы, имеющие сложную структуру, необходимо экспортировать их в формат ASCII.

Обработка любых двоичных файлов также недопустима.
Параметры командной строки

Формат параметров командной строки:

tdk.exe [/teol=w|u] [/ic+|-] [/ios+|-] [/h=1|2|3|4|5|6] [/so=desc|asc] [/s=none|char|len|loc] [/in=] [/out=] | [/?]

Описание параметров:

/teol=w – установить для целевого файла конец строки в Windows-формате (#13#10)
/teol=u – установить для целевого файла конец строки в Unix-формате (#10)

/ic+ – игнорировать регистр (только для латинских букв!)
/ic- – учитывать регистр (только для латинских букв!)

/ios+ — игнорировать обрамляющие пробелы
/ios- – учитывать обрамляющие пробелы

/h=X – установить “степень” хеширования равной X символам. X = 1..6

/so=desc – установить для сортировки обратный порядок/по убыванию
/so=asc – установить для сортировки прямой порядок/по возрастанию

/s=none – без сортировки целевого текста
/s=loc – сортировка по национальному алфавиту
/s=char – сортировка по кодам символов
/s=len – сортировка по длине строки

/in= – имя исходного файла (ASCII)
/out= – имя нового файла. TDK создает этот файл на основе source, исключая повторяющиеся строки

/? — вывести справку по программе

Примеры:

tdk /in=file1.txt /out=file2.txt – удалить дубликаты из файла file1.txt и записать уникальные строки в файл file2.txt, используя текущие настройки программы.

tdk /ic+ /ios+ /so=asc /s=char /in=file1.txt /out=file2.txt

Примечания:

При запуске с параметрами
— если какой-либо параметр не указан, то используется его интерфейсная установка (см. файл tdk.ini)
— утилита автоматически начнет обработку и запись нового текста, а по завершении работы – закроется
— если исходный файл слишком большой, то найденные дубликаты не отображаются

Параметры нечувствительны к регистру.
Параметры должны отделяться друг от друга как минимум одним пробелом!
Не используйте пробелы в именах файлов
Настройки, установленные с помощью параметров командной строки, запоминаются.
Меню

Меню / Файл
Открыть исходный файл – Позволяет выбрать исходный файл (формата ASCII).
Задать целевой файл – Позволяет указать имя целевого файла, в который будут записываться уникальные строки из исходного файла. Тип конца строки (Unix/Windows) в целевом файле можно указать в опциях.

Меню / Вид
Хэш-данные – Эта опция позволяет включить отображение специфических сведений, например, скорость обработки.
Найденные дубликаты – Данная опция позволяет включить отображение окна с экземплярами найденных дубликатов. Например, если в тексте будет найдено 10 дубликатов одной строки, то каждый экземпляр добавиться в это окно. При обработке больших текстов рекомендуется отключать отображение этого окна, поскольку найденные дубликаты могут переполнить оперативную память.

Меню / Опции
Целевой EOL = CR/LF (Windows) – Установить в целевом файле конец строки как CR/LF.
Целевой EOL = LF (Unix) – Установить в целевом файле конец строки как LF.

Игнорировать регистр (латиница) – Данная опция указывает, что регистр латинских букв не учитывается. В этом случае, например, строки String, string и STRING будут рассматриваться как дубликаты.
Игнорировать ведущие и конечные пробелы – При сравнении строк не учитываются “обрамляющие” пробелы. Например, при включенной опции, строки “текст” и ” текст ” будут считаться дубликатами. Внимание: в целевом тексте пробелы не отсекаются!

Без сортировки целевого текста – Строки целевого текста не сортируются.
Сортировка по национальному алфавиту – Сортировка национальных символов происходит с учетом настроек языка в операционной системе Windows.
Сортировка по кодам символов — Сортировка основана на кодах символов (Latin-1, т.е. расширенный 8-битный ASCII-код).
Сортировка по длине строки – Строки сортируются по длине (включая пробелы).

Сортировать в прямом порядке/по возрастанию – В зависимости от выбранного типа сортировки опция указывает либо на прямой алфавитный порядок, либо на возрастающий порядок кодов или длины строки.
Сортировать в обратном порядке/по убыванию – Аналогично предыдущей опции.

Хэшировать по N символов — Сколько первых символов использовать для хэширования. Данная настройка важна только в том случае, если вы обрабатываете очень большие файлы, не помещающиеся в оперативную память. Хэш-индекс основан на ASCII-коде, поэтому при хэшировании по одному символу максимальное количество сегментов равно 255. При использовании двух символов количество сегментов становится равным 65536. Так как программа “скидывает” сегменты на жесткий диск, то увеличение количества сегментов может существенно снизить требования к оперативной памяти, хотя нагрузка на дисковую систему увелчивается (и скорость работы соответственно). Если вам понадобилось изменить эту настройку, то определить нужное значение можно экспериментально, но учтите, что для разных текстов эффективность обработки может сильно различаться. По умолчанию установлено 3 символа – это некий компромисс между скоростью работы и требованиями к ОЗУ.

Установить первоначальные настройки – Команда устанавливает “заводские” настройки (в том числе положение и размер формы).

Автор: _rusdocs.com
Совместимость с Windows 7: Да
Язык интерфейса: Русский
Пароль на архив: www.spy-soft.net

Скачать бесплатно
Text Duplicate Killer