Школьница из Владикавказа создаёт базу данных для нейросетей на осетинском языке

21:00 04.04.2026

Девятиклассница из Владикавказа начала переводить сканы осетинских книг в цифровые данные для обучения нейросетей — это может решить проблему нехватки качественных текстов на языке. Об этом сообщили в IT-кубе.

Ученица IT-куба Милана Плиева провела исследование существующих OCR-систем, чтобы определить, какая из них лучше всего распознаёт осетинские тексты и может быть дообучена.

«Я решила выбрать лучшую OCR-систему, которая хорошо распознаёт осетинский текст. В дальнейшем я планирую автоматизировать процесс оценки результатов системы».

Работа принесла ей победу в секции «Большие данные, искусственный интеллект и безопасность» регионального этапа всероссийского конкурса «Большие вызовы».

OCR-системы позволяют распознавать текст на изображениях и переводить его в редактируемый формат. Для осетинского языка это особенно актуально, поскольку большая часть материалов до сих пор существует в виде сканов, фотографий и других нередактируемых файлов.

Из-за этого такие данные практически невозможно использовать для обучения нейросетей и разработки цифровых сервисов.

Исследование школьницы направлено на создание инструмента, который позволит эффективно оцифровывать тексты — от книг до архивных документов.

В перспективе это даст возможность сформировать качественную цифровую базу на осетинском языке и использовать её для обучения нейросетей, создания переводчиков и других технологических решений.