
В данной статье пойдёт речь о том, как распознать кириллицу и латиницу. Для чего это нужно? Дело в том, что некоторые буквы кириллицы и латиницы визуально отличить не возможно, к примеру буквы в латинице: Aa, Ee, T, H, Oo, Pp, K, Xx, B, M, теперь кириллица то же самое: Аа, Ее, Т, Н, Оо, Рр, К, Хх, В, М. Разницы визуальной в буквах нет, если конечно не использовать какие-либо дополнительные шрифты, имеющие различие между кириллицей и латиницей.

В принципе для читателя разницы нет, если по тексту заменят букву, этим и пользуются не порядочные рерайтеры, которые добиваются уникальности текста, благодаря замены букв другой раскладкой. Но… для машины буквы латиницы и кириллицы являются совершенно разными символами, к тому же с разной кодировкой.
Каждому символу присваивается двоичный восьмиразрядный код. Последовательность символов и их кодов формируется в кодировочную таблицу в порядке возрастания чисел и алфавитном порядке расположения букв.
Конкретно в моём случае я часто провожу распознание букв при проверке VIN номера, который набираю не руками, а копирую из CRM, куда коллеги переносят руками и кому как заблагорассудится, тот так и запишет, кто-то полностью пишет в кириллице, кто-то частично, а по факту сверки VIN номера автомобиля, не получается найти данные транспортного средства в базе данных.
Самое простое распознание, это использование различных онлайн сервисов, их очень много, но в моём случае ложку дёгтя добавили наши IT специалисты, которые постоянно борются со злом (вирусами), практически все онлайн сервисы были заблокированы ими и недоступны для использования. Я для себя нашёл выход из положения, использование стандартных функций Microsoft Office, а именно Word.
Для тестирования этой функции, я скопировал перечень букв из текущего выше текста в Word. Далее для распознания латиницы необходимо нажать на клавиатуре комбинацию клавиш [ CTRL ] [ H ]. Для уточнения пишу, это не буква “эн”, а буква “аш”, в английской раскладке 😉 Во вкладке “Найти” нужно прописать: [A-Za-z], чуть ниже выбрать из выпадающего списка “Выделение при чтении” – выделить всё и ещё ниже поставить чек бокс напротив: “Подстановочные знаки“. Всё что прописано в латинице подсветится. Мы дольше расписывали процесс, чем это можно сделать 🙂

Добавить комментарий