Яндекс и исследователи из МГУ разработали метод обучения ИИ сложным правилам русского языка - «Новости мира Интернет» » Новости мира Интернет
Хардкорный шутер Road to Vostok о выживании на границе Финляндии и России скоро ворвётся в ранний доступ Steam — дата выхода и новый трейлер - «Новости сети»
Хардкорный шутер Road to Vostok о выживании на границе Финляндии и России скоро ворвётся в ранний доступ Steam — дата выхода и новый трейлер - «Новости сети»
Google переполошила геймдев: выход ИИ-генератора миров Project Genie уронил акции крупнейших разработчиков - «Новости сети»
Google переполошила геймдев: выход ИИ-генератора миров Project Genie уронил акции крупнейших разработчиков - «Новости сети»
Уже три компании из Китая пробились в топ-20 крупнейших поставщиков оборудования для выпуска чипов - «Новости сети»
Уже три компании из Китая пробились в топ-20 крупнейших поставщиков оборудования для выпуска чипов - «Новости сети»
Качественные изображения Samsung Galaxy S26 и S26+ слили в Сеть до анонса - «Новости сети»
Качественные изображения Samsung Galaxy S26 и S26+ слили в Сеть до анонса - «Новости сети»
Финны начали варить пиво «на песке» — местная пивоварня установила песочный теплоаккумулятор - «Новости сети»
Финны начали варить пиво «на песке» — местная пивоварня установила песочный теплоаккумулятор - «Новости сети»
Gemini стал доступен в «Google картах» по всему миру для пеших и велосипедных прогулок - «Новости сети»
Gemini стал доступен в «Google картах» по всему миру для пеших и велосипедных прогулок - «Новости сети»
Капитализация Microsoft рухнула на $357 млрд после успешного отчёта и заявления гендира о популярности Copilot - «Новости сети»
Капитализация Microsoft рухнула на $357 млрд после успешного отчёта и заявления гендира о популярности Copilot - «Новости сети»
Чтобы не отвлекаться на чтение субтитров: для Stellar Blade вышла профессиональная русская озвучка - «Новости сети»
Чтобы не отвлекаться на чтение субтитров: для Stellar Blade вышла профессиональная русская озвучка - «Новости сети»
«Руки не держат, ноги дрожат»: атмосферный симулятор альпиниста Cairn оставил игроков и критиков в полном восторге - «Новости сети»
«Руки не держат, ноги дрожат»: атмосферный симулятор альпиниста Cairn оставил игроков и критиков в полном восторге - «Новости сети»
Выручка Apple взлетела почти на 16 % — iPhone принесли рекордные $85 млрд, несмотря на дефицит чипов - «Новости сети»
Выручка Apple взлетела почти на 16 % — iPhone принесли рекордные $85 млрд, несмотря на дефицит чипов - «Новости сети»
Новости мира Интернет » Новости интернета » Яндекс и исследователи из МГУ разработали метод обучения ИИ сложным правилам русского языка - «Новости мира Интернет»

Исследователи из Института ИИ МГУ и Яндекса создали первый открытый набор данных LORuGEC с примерами нарушений сложных правил русского языка. Также они представили метод, помогающий обучить нейросети исправлять грамматические, пунктуационные и орфографические ошибки при генерации текстов. Датасет и метод обучения выложили в открытый доступ – об этом рассказали в блоге Яндекса.



На данный момент ИИ-модели пишут тексты на хорошем уровне, но часто ошибаются в грамматике, пунктуации и орфографии русского языка. Чтобы исправить это, был разработан датасет LORuGEC, включающий 48 правил русского языка, в т. ч. те, знание которых проверяют на ЕГЭ и олимпиадах. В нем приведены почти 1000 примеров по каждой языковой норме, включая неверную пунктуацию в сложноподчиненных предложениях, ошибки в слитном и раздельном написании слов с «не», а также в согласовании сказуемого и подлежащего в сложных предложениях.



А чтобы не пришлось переобучать нейросеть на новом датасете, исследователи предложили новый метод Retrieval-Augmented Generation (в переводе с английского «генерация, усиленная поиском»). При ее использовании возможно избегать лишних исправлений и менять только часть с неточностью, а не все предложение. Как отметил Алексей Сорокин, старший научный сотрудник Института ИИ МГУ и разработчик в отделе Поиска Яндекса, при создании датасета использовали помощь студентов-лингвистов, а также справочную литературу.



Яндекс уже протестировал новый метод на собственных моделях YandexGPT 5 Lite и YandexGPT 5 Pro. Заявлено, что точность исправлений сложных ошибок выросла на 5-10% по метрике F0,5 – это международный стандарт оценки грамматической коррекции. По итогу, точность YandexGPT 5 Pro достигла 83%, а YandexGPT 5 Lite составила 71%.


Исследователи из Института ИИ МГУ и Яндекса создали первый открытый набор данных LORuGEC с примерами нарушений сложных правил русского языка. Также они представили метод, помогающий обучить нейросети исправлять грамматические, пунктуационные и орфографические ошибки при генерации текстов. Датасет и метод обучения выложили в открытый доступ – об этом рассказали в блоге Яндекса. На данный момент ИИ-модели пишут тексты на хорошем уровне, но часто ошибаются в грамматике, пунктуации и орфографии русского языка. Чтобы исправить это, был разработан датасет LORuGEC, включающий 48 правил русского языка, в т. ч. те, знание которых проверяют на ЕГЭ и олимпиадах. В нем приведены почти 1000 примеров по каждой языковой норме, включая неверную пунктуацию в сложноподчиненных предложениях, ошибки в слитном и раздельном написании слов с «не», а также в согласовании сказуемого и подлежащего в сложных предложениях. А чтобы не пришлось переобучать нейросеть на новом датасете, исследователи предложили новый метод Retrieval-Augmented Generation (в переводе с английского «генерация, усиленная поиском»). При ее использовании возможно избегать лишних исправлений и менять только часть с неточностью, а не все предложение. Как отметил Алексей Сорокин, старший научный сотрудник Института ИИ МГУ и разработчик в отделе Поиска Яндекса, при создании датасета использовали помощь студентов-лингвистов, а также справочную литературу. Яндекс уже протестировал новый метод на собственных моделях YandexGPT 5 Lite и YandexGPT 5 Pro. Заявлено, что точность исправлений сложных ошибок выросла на 5-10% по метрике F0,5 – это международный стандарт оценки грамматической коррекции. По итогу, точность YandexGPT 5 Pro достигла 83%, а YandexGPT 5 Lite составила 71%.

Цитирование статьи, картинки - фото скриншот - Rambler News Service.
Иллюстрация к статье - Яндекс. Картинки.
Есть вопросы. Напишите нам.
Общие правила  поведения на сайте.

запостил(а)
Durham
Вернуться назад
0

Смотрите также

А что там на главной? )))



Комментарии )))