В Астане представители Международного общества «Қазақ тілі» и компании OpenAI подвели первые итоги сотрудничества, направленного на расширение возможностей казахского языка в цифровой среде, передает Vestnik19.kz со ссылкой на пресс-службу Международного общества «Қазақ тілі».
Экспертам были представлены ключевые разработки проекта: текстовый корпус казахского языка объемом более 10 миллиардов токенов, аудиокорпус, включающий свыше 10 тысяч часов записей живой речи, а также система оценки больших языковых моделей AI Evaluation Benchmark Suite.
Соглашение о партнерстве между сторонами было подписано в ноябре 2025 года в Вашингтоне. Его цель — создание качественной языковой базы для совершенствования технологий искусственного интеллекта на казахском языке.
Текстовый корпус охватывает различные этапы развития языка, включая материалы казахской диаспоры за рубежом. В него вошли данные из сфер образования, науки, технологий, экономики, права, медицины, истории, этнографии и медиа. Все материалы прошли многоэтапную обработку, очистку и обезличивание данных.
В ходе презентации также были продемонстрированы достижения в области цифровизации. Точность системы оптического распознавания казахских текстов достигла 99%, аналогичный показатель зафиксирован у инструмента анализа сложных макетов документов.
Для оценки качества языковых моделей разработан специализированный бенчмарк, учитывающий особенности казахского языка и культуры. Он проверяет понимание текста, грамматику, использование пословиц и устойчивых выражений, качество перевода, а также другие параметры. Первые результаты показали высокие показатели в переводческих задачах — от 85 до 89 процентов.
Особое внимание уделяется развитию технологий распознавания речи. На сегодняшний день собрано и обработано 10 810 часов аудиоданных, включая тысячу часов вручную проверенных записей. Точность распознавания казахской речи уже превышает 92%, а в перспективе разработчики планируют довести этот показатель до 99%.
По мнению участников встречи, созданные текстовые и аудиоресурсы станут важной основой для дальнейшего развития казахского языка в эпоху искусственного интеллекта и расширения его присутствия в глобальном цифровом пространстве.

Telegram

