Буквы из разных языков
Можно неожиданно столкнуться с тем, что из-за ошибок распознавания текста в слове оказываются буквы из разных языков. И ещё более скверно, если это похожие визуально буквы: о р е х а у с A B C E H K O M P T X. Глазом это не различить, но расхождения в кодах будут причиной, что не будет работать поиск в PDF-файле.
Данная программа позволяет найти такие случаи.
Я против автоматической смены кодировки похожих букв. Намного надёжнее сначала посмотреть, а потом принять решение.
Иногда надо просмотреть именно латинские слова в русском тексте, и частная задача — проверить такие слова, начинающиеся с прописной буквы. Собственно, этот скрипт и появился, когда обнаружилось, что в материале, полученном после распознавания русско-английского текста, были случаи, когда начинавшееся с прописной слово, которое предполагалось иметь написанным русскими буквами, оказывалось полностью на латинице. Ну и стали смотреть внимательно и латинское слова тоже. Эта ситуация стала причиной добавления двух последних радиокнопок.
Поиск выполняется в выделенной области. Кнопки [ > ] и [ < ] для перехода по результатам поиска. Число найденных совпадений и номер отображаемого на экране совпадения можно узнать во всплывающей подсказке к кнопке [ ? ].
Циклов просмотра текста может быть несколько, и требуется средство пропускать при новом поиске просмотренные ранее слова. Тут такое средство — флажок [ Ц ], когда он установлен, буквы показываемых кнопками [ > ] и [ < ] слов будут окрашены зелёным цветом и при новом поиске предлагаться к просмотру не будут. Сразу окрашивать все найденные слова зелёным цветом смысла не имеет, т.к. окрашивание — это цветной маркер, что пользователь данное слово проверил.
Текущую цветную разметку можно как сохранить при закрытии окна программы, так и удалить её. Это определяется состоянием флажка [ Ц ] в момент нажатия на красный крестик в шапке окна. Если флажок остался установленным, то будет сообщение, что цветное выделение сохранено.
(обновлено 18.05.2024)