vapress.kz
Вечерний Алматы
Vecher.kz
  • Общество

    Представлена «Модель обучения казахскому языку «Tilqazyna» на основе ИИ

    
                    Представлена «Модель обучения казахскому языку «Tilqazyna» на основе ИИ
    Фото: facebook.com/TILQAZYNA/

    Модель способна выполнять задачи в таких областях казахского языка, как лексика, морфология, семантика, сообщает Vecher.kz.

    Национальный научно-практический центр «Тіл-Қазына» при Комитете языковой политики Министерства науки и высшего образования представил первые результаты «Модели обучения казахскому языку «Tilqazyna» на основе искусственного интеллекта.

    На данный момент модель способна выполнять задачи в таких областях казахского языка, как лексика, морфология, семантика и др. В частности, она может генерировать текст на казахском языке, создавать перифразы, работать с контекстом, сокращать тексты, исправлять грамматические и пунктуационные ошибки, раскрывать значения фразеологизмов, а также переводить термины.

    Эта отраслевая LLM модель уже загружена на платформу Hugging Face и доступна всем пользователям. Использование данной модели позволит разрабатывать множество IT-продуктов на казахском языке с помощью искусственного интеллекта. Это соответствует Посланию Президента Касым-Жомарта Токаева, в котором подчеркивалась важность превращения Казахстана в страну, широко использующую искусственный интеллект и развивающую цифровые технологии.

    При разработке модели эксперты центра «Тіл-Қазына» применяли алгоритмы обработки естественного языка и целенаправленно анализировали большие объемы данных. В частности:

    • для проверки слов использовались 684 876 лексических единиц;
    • для улучшения системы проверки словосочетаний было использовано 20 212 правильных и ошибочных вариантов;
    • для исправления пунктуационных ошибок проанализировано 5 558 текстов;
    • для коррекции структуры текста было подготовлено 3 000 правильных и неправильных версий текстов;
    • для функции сокращения предложений создана база из 6 000 полных и сокращенных предложений;
    • для функции перифраза собрано 14 790 синонимических рядов;
    • общий объем обработанного корпуса казахского языка составил 35 ГБ.

    В этом году в модель будет добавлена функция голосового общения, и будет разработан удобный интерфейс для пользователей. Также проект будет способен обучать казахскому языку на уровнях A1, A2 и B1, а к 2026 году – на уровнях B2 и C1.

    Конечным результатом проекта станет голосовой помощник, способный создавать индивидуальную программу обучения казахскому языку в зависимости от уровня знания языка пользователя. Он будет представлен в виде мобильного приложения для систем IOS и Android.

    Ранее Главе государства были представлены отечественные разработки в сфере искусственного интеллекта.