Цифровизация и ИИ – драйверы развития казахского языка
2026 ж. 23 маусым
79
0
В условиях глобализации и повсеместной цифровизации, информатизации любой язык, чтобы выжить и развиваться, должен войти в компьютерные технологии, программы как язык хранения, обработки и передачи информации, стать языком коммуникации в мировой компьютерной сети, доступной информации, необходимой для работы, обучения, науки, экономики, политики, решения различных задач, без излишних сложностей и барьеров.
КАЗАХСКИЙ ЯЗЫК – БЫСТРОРАСТУЩИЙ В ChatGPT
В последние годы цифровизация, глобализация и искусственный интеллект (нейросети) выступают главными катализаторами развития языков. Технологии ускоряют адаптацию языков к новым реалиям, способствуя обогащению лексики, стандартизации языковых единиц и даже созданию гибридных форм общения (например, цифрового сленга).
Цифровизация и искусственный интеллект стали мощнейшими драйверами развития государственного языка. Мы являемся свидетелями, как новейшие технологии ускоряют интеграцию языка в глобальное информационное пространство, развивают его, делая его удобным и востребованным в повседневной жизни, образовании и бизнесе.
В эпоху быстрого развития ИИ интеграция новых технологий на национальном языке способствует сохранению культурной идентичности и ускорению инноваций. Самое главное, подобные языковые нововведения могут стать катализатором для роста цифровой грамотности населения и укрепления позиций страны в международном технологическом пространстве. К тому же ИИ, обладая огромной информационной базой, нередко выдает разнообразные ответы на определенный вопрос, в том числе с позиции этнической истории, национальных особенностей. По мере развития генеративного ИИ в Казахстане (чему способствует подписанный Закон «Об искусственном интеллекте») технологии будут лучше улавливать культурный контекст, лексические отличия и специфику казахской фонетики.
Этому способствуют государственные стратегии развития цифровизации и искусственного интеллекта, Государственная концепция развития языковой политики на 2023–2029 годы, что активно влияют на развитие казахского языка: ускоряется создание программ для автоматического перевода и распознавания речи (NLP-технологии), разрабатываются цифровые образовательные платформы и электронные словари, интегрируются передовые термины из сферы IT и науки и расширяются эти сферы, модернизируется медиаконтент и др.
Эти новейшие цифровые факторы стремительно превращают язык из традиционного в современный глобальный инструмент – государство совместно с мировыми IT-гигантами (включая работу с OpenAI) реализует проекты по полноценному внедрению казахского языка в ChatGPT и системы машинного обучения.
В декабре 2025 года Google объявила о запуске своей передовой модели искусственного интеллекта Gemini на казахском языке, что сделало передовые технологии доступными на государственном языке. Самое интересное – казахский вошел в число 23 новых языков, добавленных в поколение Gemini 3, и это событие стало частью глобального расширения языковой поддержки. Таким образом, казахстанские пользователи получили возможность взаимодействовать с одной из самых продвинутых ИИ-систем на родном языке, наравне с ведущими мировыми языками.
В настоящее время правительством уделяется большое внимание созданию национального корпуса казахского языка и развитию казахского как языка науки. Постепенно решается одна из главных языковых проблем – курс на трансформацию казахского языка в современный язык техники и науки, адаптацию терминологической базы, что со временем сделает казахский языком науки и технологий.
В целом информация должна быть представлена в понятной форме и легко доступна для всех, кому она необходима. И сегодня концепция цифровой доступности затрагивает практически все сферы – от образования и трудоустройства до социальных взаимодействий и развлечений.
Раз идет тенденция к расширению сферы применения государственного языка, то надо изучить все проблемы, которые мешают ей, и по мере возможностей разрешать их, в том числе в плане цифровизации и компьютерных технологий. Искусственный интеллект стал мощным катализатором возрождения и цифровизации казахского языка. И для развития языка есть мощная база, созданная лингвистами и специалистами профильных ведомств в последние годы, – казахский язык признан одним из самых быстрорастущих по использованию в ChatGPT, что стимулирует разработчиков создавать новые ИИ-решения на национальном языке.
Казахскоязычный сегмент интернета демонстрирует взрывной рост, становясь неотъемлемой частью повседневной жизни молодежи: доля казахоязычного онлайн-контента в медиапространстве достигла 78%, а около 60% отечественных интернет-ресурсов функционируют на государственном языке. Благодаря усилиям общественности и профильных ведомств, на казахский язык дублируются топовые мировые кинопремьеры. По данным Министерства культуры и информации РК, более 70% отечественной телепродукции выходит в эфир на казахском языке.
Действительно, благодаря интеграции передовых ИИ-моделей (таких как GPT), казахский язык стал одним из самых быстрорастущих языков. В результате разрабатываются национальные языковые модели, адаптируются базы данных для нейросетей и внедряются государственные программы. Характерно, что казахский язык стремительно интегрируется в технологии в рамках Года цифровизации и ИИ.
Поэтому будущее казахского языка тесно связано с его полной трансформацией в доминирующий государственный язык, главный инструмент межэтнического общения в Казахстане и язык современных технологий. Согласно Государственной концепции развития языковой политики, роль языка кардинально усиливается во всех сферах жизни общества.
С позиции социальной лингвистики, в последние годы появились базовые основы для изучения государственного языка: сформирована языковая среда, сфера обслуживания сегодня почти везде на государственном языке. Создана языковая инфраструктура: во всех регионах Казахстана в том или ином формате действуют бесплатные и коммерческие клубы разговорного казахского или специальные курсы.
Сформирована методическая база: появилось немало неплохих учебников, пособий по изучению казахского, в том числе электронные ресурсы, где можно бесплатно, не выходя из дома, обучаться языку. Эти несомненные достижения дают возможности для обучения.
ДЛЯ ИИ ТРЕБУЮТСЯ 40 МЛРД ТОКЕНОВ ИНФОРМАЦИИ
Искусственный интеллект стал мощным катализатором возрождения и цифровизации казахского языка. Благодаря интеграции в нейросети, казахский язык вошел в число самых быстрорастущих по динамике освоения языковых моделей, а государство и частные IT-компании активно развивают экосистему умных помощников, где ИИ выводит язык на новый уровень. Это заметно и по взрывному росту в нейросетях: аналитика разработчиков языковых моделей фиксирует рекордное увеличение объёма запросов и генерации текстов на казахском языке.
В этом отношении активная работа ведётся «Национальным научно-практическим центром «Тіл-Қазына» имени Ш. Шаяхметова», где разрабатываются разнообразные проекты и исследования, в частности по развитию казахского языка в цифровом пространстве, внедрению искусственного интеллекта во все сферы жизнедеятельности и др.
Как сообщил в 2023 году официальный информационный ресурс Премьер-министра РК, около 170 тысяч пользователей прошли обучение на отечественных языковых онлайн-платформах «Тіл құрал» (5-ти уровневая система) и «Бала тілі» (ориентирована на детей до 9 лет). Еще одно новшество – платформа «Termincom.kz», которая уже насчитывает около 400 тысяч терминов. Портал представляет собой базу для их систематизации.
В данную работу вовлечены специалисты соответствующих отраслей, которые ведут большую работу по юридической терминологии на казахском языке. Основная задача – унифицировать термины при составлении нормативно-правовых актов и в делопроизводстве, и работа над унификацией казахской юридической терминологии требует строгого соблюдения нормотворческой техники и единых стандартов. Для устранения разночтений, двусмысленности и ошибок при составлении нормативно-правовых актов и ведении делопроизводства необходимо опираться на утвержденные государственные стандарты – это официальные источники и словари, а также Termincom.KZ – это главная база данных Республиканской терминологической комиссии, где утверждены и стандартизированы все официальные отраслевые термины.
Базовые принципы унификации общеизвестны в науке – это идентичность понятий: в казахском тексте один и тот же термин должен переводить только один русский эквивалент на протяжении всего документа. Не допускается использование синонимов (например, акт и құжат) для одного и того же юридического действия. А также необходим отказ от калек – буквальный перевод с русского языка (калькирование) часто искажает правовой смысл. И термин должен адаптироваться с учетом норм казахского юридического языка.
IT-проекты и различные платформы развития казахского языка разработаны в центре «Тіл-Қазына», как «Emle.kz», «Termincom.kz», «Sozdikqor.kz», «Qazcorpora.kz», которые удобны в использовании в повседневной работе различных специалистов, журналистов, а также Telegram боте на казахском языке Speech to Text & Text to Speach.
Национальный центр «Тіл-Қазына» создал ИИ-модель для обучения казахскому языку, которая анализирует семантику, морфологию и генерирует тексты для различных уровней. Например, интерактивная платформа «Казахский с ИИ» содержит модули грамматики с функцией «Урок с ИИ», чат-боты для диалогов на разных уровнях сложности и базу из 1700 слов для запоминания. А тренажер «Janymda» на базе ИИ был запущен для того, чтобы помочь жителям Казахстана легко и эффективно осваивать разговорный казахский язык.
Генеральный директор республиканского национально-научно-практического центра «Тіл-Қазына» Макпал Жумабай рассказала, что для обучения искусственного интеллекта нужно большое количество данных. Тогда он сможет правильно использовать казахский язык. В общей сложности требуются как минимум 40 миллиардов токенов информации – то есть 40 миллиардов случаев, когда слова используются в разных контекстах.
Макпал Жумабай заявила: «За год мы собрали около 2 миллиардов. Это хороший старт для Казахстана, но по мировым меркам мало. Чтобы улучшить ситуацию, важно создавать больше контента на казахском: писать книги, выпускать статьи, добавлять любые качественные данные в общий банк знаний.
Уже собрали материалы за последние 30 лет: книги, научные статьи, телевизионные программы, газеты, журналы, методические пособия и диссертации. Обработали все доступные данные, которые не относятся к государственным секретам. Мы завершили анализ текстов XX века и сейчас по собственной инициативе начинаем работать с текстами XIX века» (Почему важно развивать технический казахский язык? Мнение экспертов. https://digitalbusiness.kz/2024-11-22/pochemu-vazhno-razvivat-tehnicheskiy-kazahskiy-yazik-mnenie-ekspertov/).
Министерство науки совместно с Министерством цифровизации создало крупный консорциум, в который вошли Казахский национальный университет имени аль-Фараби и Евразийский национальный университет имени Л.Н. Гумилева, а также организация «Тіл-Қазына».
Сейчас формируется база на казахском языке, включающая 48 тысяч шаблонов документов: заявления, жалобы, автобиографии. На их основе обучат языковые модели, чтобы в будущем они могли без ошибок справляться с запросами пользователей. Над этим работают лингвисты, привлекаются узкие специалисты, которые могут разъяснить нюансы и применение терминов.
Институт умных систем и искусственного интеллекта (ISSAI) при Назарбаев Университете Институт Умных Систем и Искусственного Интеллекта в настоящее время выступает одним из главных национальных драйверов развития технологий ИИ About Institute – ISSAI. Институт разрабатывает передовые мультимодальные модели, которые работают с текстом, аудио и визуальным контентом на казахском, русском и английском языках Oylan – модели плавно анализируют текст, изображения (диаграммы, схемы) и аудио Oylan, они обучаются на крупнейших национальных наборах данных (более 10 млн изображений и 50 млн вопросно-ответных пар), учитывающих культурный и исторический контекст Казахстана.
Ещё в 2024 году Институт умных систем и искусственного интеллекта (ISSAI) при Назарбаев университете представил первое многофункциональное казахстанское приложение Soyle App, которое можно использовать для распознавания речи, синтеза голоса и перевода текста и речи на четырех языках.
ЛУЧШЕЕ РЕШЕНИЕ – ГИБРИДНЫЙ ПОДХОД
Искусственный интеллект кардинально изменил лингвистический ландшафт, перейдя от роли инструмента к статусу полноценного соавтора. Нейросети ускоряют анализ данных, автоматизируют переводы и персонализируют обучение, но их активное использование формирует новые, стандартизированные языковые привычки, что требует осознанного подхода к развитию речи.
Однако правильнее называть ИИ не столько «заменителем» ученых, сколько мощнейшим инструментом в их руках. Человек задает гипотезы, проектирует эксперименты и отсеивает ложные результаты, которые может выдавать нейросеть.
ИИ действительно совершил прорыв в обработке казахского языка. Благодаря глобальным массивам данных нейросети смогли обойти некоторые академические институты в скорости перевода, адаптации текстов и создании обучающих систем.
Например, с помощью цифровых образовательных платформ изучение языка стало доступным и бесплатным через специализированные порталы, такие как Abai.institute, Tilqural.kz, Soyle.kz и Balatili.kz.
С помощью ИИ организовали «Умное образование», когда разрабатываются специализированные приложения на базе нейросетей, которые глубоко анализируют грамматику и адаптируются под персональные ошибки. ИИ также постепенно интегрируется в систему образования, включая инициативы по внедрению нейросетей в учебные процессы.
Для интерактивной адаптивной проработки словарного запаса пользователи часто применяют приложения наподобие Duolingo или Memrise. При всей технологичности искусственного интеллекта живое человеческое общение остается незаменимым элементом для глубокого культурного погружения и полного освоения языковых нюансов. И лучшим решением сегодня считается гибридный подход, где искусственный интеллект берет на себя рутинную практику, а человек через живое общение – вдохновение и тонкие аспекты языка.
ИИ плодотворно используется и в киноиндустрии – дублирование мировых блокбастеров и детских фильмов (Disney, Pixar, Sony) на казахский язык вышло на новый уровень, делая контент интересным для широкой аудитории по всей стране.
У нас уделяется большое внимание усилению контроля за качественным казахоязычным контентом, чистотой речи и развитием отечественного кинематографа. Например, кыргызский депутат Нуржигит Кадырбеков посетовал на то, что его дочери начали разговаривать на казахском языке. Об этом он сказал в 2022 году на заседании Жогорку Кенеша. По его словам, дочери смотрят казахский канал «Балапан», который вещает только на казахском языке, поэтому они быстро его выучили.
КАК ВСЁ ОБЩЕСТВО РАЗВИВАЕТ ЯЗЫК
Необходимо помнить, что развитие казахского языка с помощью искусственного интеллекта не происходит автоматически – ИИ берёт информацию из интернета, которую подготовили лингвисты, писатели, журналисты, специалисты, пользователи сети. Иными словами, развитие нейросетей работает так: модели (LLM) не обладают собственным сознанием, а «учатся» на основе гигантских массивов данных (датасетов). Поэтому присутствие казахского языка в цифровой среде полностью зависит от того, сколько качественного контента создадут сами люди.
И когда на правительственном уровне говорят о необходимости решения ряда задач, направленных на повышение качества и конкурентоспособности казахоязычного контента, то имеется в виду работу не только лингвистов, писателей, журналистов, редакторов, учёных, но и чиновников, делопроизводителей, простых пользователей социальных сетей и др. – ведь в итоге большая информация из интернета попадает в массив данных ИИ.
В частности, поручено усилить контроль за соблюдением языковых норм при прокате отечественной кинопродукции, а также уделить особое внимание чистоте языка, культуре стиля и требованиям языкового этикета в средствах массовой информации. Государственные органы, научные институты и IT-сообщество Казахстана уделяют этому стратегическое внимание.
Понятно, что чистота языка искусственного интеллекта напрямую связана с деятельностью человеческого сообщества. Правительство реализует совместную инициативу с разработчиками ChatGPT по наполнению языковой модели качественным контентом на казахском языке. В числе ключевых проектов по обеспечению нейросетей качественными данными имеется проект с OpenAI. Институт интеллектуальных систем при Назарбаев Университете разрабатывает открытые большие языковые модели (ISSAI KAZ-LLM), способные генерировать тексты и сохранять культурный контекст, а Национальный центр «Тіл-Қазына» разработал и внедряет модель Tilqazyna, которая помогает в изучении языка, исправлении грамматики и анализе текстов на платформе Hugging Face.
Для пополнения корпусов языковых моделей разработаны платформы, где специалисты IT и открытых данных могут загружать тексты различных жанров. Чтобы искусственный интеллект точнее понимал лексику, морфологию (например, систему аффиксов) и контекст, ему нужны миллионы правильно размеченных страниц.
В этом процессе важен вклад каждого пользователя, специалиста и автора. Вы можете внести свой вклад, создавая уникальные материалы, статьи или базы данных на казахском языке в сети. Искусственный интеллект даёт уникальную возможность всем знатокам казахского языка участвовать в его развитии!
Как сказал Гумбольдт, «язык есть живая деятельность человеческого духа». Надо возрождать дух казахского народа, развивать художественную, научную, историческую, социальную, сетевую и другую литературу! Пусть общество предложит варианты развития языка, пусть народ подключится к словотворчеству, в том числе оригинальных текстов, новых словосочетаний, слов и терминов. Создайте гонорарный фонд для писателей, ученых, исследователей для создания терминов, обозначений, новых слов, интеллектуального информационного продукта на казахском языке.
Казахский язык – один из древнейших и богатейших языков мира. И это словарное богатство надо возродить на благо развития казахского языка.
Создание и введение новых казахских слов и терминов вместо русских слов – это начало масштабной реформы языка. И в этот процесс должны включиться не только лингвисты, но и ученые разных отраслей, писатели, поэты, журналисты и др. Надо понимать, что «словесная» реформа языка – это дело всего общества, потому что каждый знаток языка может внести свою лепту в зарождении новых слов, словосочетаний, оригинальных текстов и терминов, возрождений «позабытых», старых слов и выражений.
Дастан ЕЛДЕС