Учёные научили ИИ распознавать рукописные слова без языкового контекста

Новая технология особенно актуальна для использования в системах, обрабатывающих официальные документы.
Российские исследователи представили нейросетевой алгоритм, способный с высокой точностью распознавать сложные рукописные слова без опоры на языковой контекст. Разработку, призванную повысить надёжность систем обработки документов, представила компания Smart Engines.
В отличие от традиционных систем, использующих знание языка для интерпретации текста, новая модель анализирует исключительно визуальные особенности соединения букв на изображении. Такой подход позволяет избежать подмены редких слов на более распространённые аналоги, что часто происходит при работе систем с языковой моделью, особенно в случаях с небрежным почерком.
Тестовым примером для обучения и демонстрации эффективности ИИ стало слово «шиншилла» — намеренно выбранное как своего рода «капкан» для распознавания. В кириллической письменности строчные буквы «ш», «и», «н», «л» часто схожи по очертаниям при ручном написании. Это делает подобные слова трудными для анализа даже для продвинутых систем, особенно без поддержки словарного контекста.
Для обучения нейросети было создано более 1,2 миллиона строк синтетического рукописного текста, с равномерным распределением сочетаний букв. Такой подход позволил алгоритму охватить широкий спектр почерков и нестандартных написаний. Главной задачей было не просто распознать буквы, а исключить так называемые "галлюцинации" — ошибки, при которых система предлагает слова, которых на изображении нет, ориентируясь на собственные предположения.
По словам генерального директора Smart Engines, доктора технических наук Владимира Арлазарова, новая технология особенно актуальна для использования в системах, обрабатывающих официальные документы: паспорта, визы, справки, штампы, регистрационные отметки. В таких случаях точность важнее предположений, поскольку даже незначительное искажение может повлиять на юридическую значимость документа или результаты автоматических проверок.