Девятиклассница из Владикавказа начала переводить сканы осетинских книг в цифровые данные для обучения нейросетей — это может решить проблему нехватки качественных текстов на языке. Об этом сообщили в IT-кубе.
Ученица IT-куба Милана Плиева провела исследование существующих OCR-систем, чтобы определить, какая из них лучше всего распознаёт осетинские тексты и может быть дообучена.
«Я решила выбрать лучшую OCR-систему, которая хорошо распознаёт осетинский текст. В дальнейшем я планирую автоматизировать процесс оценки результатов системы».
Работа принесла ей победу в секции «Большие данные, искусственный интеллект и безопасность» регионального этапа всероссийского конкурса «Большие вызовы».
OCR-системы позволяют распознавать текст на изображениях и переводить его в редактируемый формат. Для осетинского языка это особенно актуально, поскольку большая часть материалов до сих пор существует в виде сканов, фотографий и других нередактируемых файлов.
Из-за этого такие данные практически невозможно использовать для обучения нейросетей и разработки цифровых сервисов.
Исследование школьницы направлено на создание инструмента, который позволит эффективно оцифровывать тексты — от книг до архивных документов.
В перспективе это даст возможность сформировать качественную цифровую базу на осетинском языке и использовать её для обучения нейросетей, создания переводчиков и других технологических решений.