Не уверен, что нужно отдельно останавливаться на работе FineReader, инструкций в интернете огромное количество, перечислю только важные моменты.
В настройках меняем язык, вместо «Русский и английский» указываем только «Русский», таким образом мы предотвращаем ситуации, когда фамилии, имена или отчества частично набраны кириллицей, частично латиницей. «Иванов» и «Ивaнoв» выглядят одинаково, но в поиске второго Иванова найти не получится.
Необходимо запустить анализ документа и проверить корректность автоматически определенных областей на каждой странице. Сканы содержат большое количество мусора, из-за этого текстовые области программа может определить, как изображение, или обрезать часть текстовой области.
Только после этих настроек запускаем процесс распознавания. Сканы имеют множественные дефекты: повреждения символов (из-за некорректной бинаризации), искажение символов (в результате геометрической коррекции) и мусор в виде точек. Как следствие, по первому тому Книги Памяти Удмуртии в среднем 1% символов помечен, как неуверенно распознанные.
Дальше начинается самый трудоемкий этап - проверка неуверенно распознанных символов и несловарных слов. Обращу внимание на два момента:
- Если попадается некорректное определение абзацев, необходимо прервать проверку и исправить форматирование
- Если ошибки повторяются, их можно исправить автозаменой, в моем случае «Приззан в Сов. Армию» или «Призван в Сок. Армию» встречались на каждом 5 листе. Но автозаменами необходимо пользоваться очень осторожно. На основе собственного неудачного опыта настоятельно рекомендую не использовать автозамены для исправления имен, фамилий и наименований географических объектов.
Результат экспортируем в два файла: pdf и txt. pdf позднее будем использовать как оригинал, по которому будем сверять потенциальные ошибки. Из txt можно сразу скопировать текст в таблицу Excel.