Яндекс и исследователи из МГУ разработали метод обучения ИИ сложным правилам русского языка - «Новости мира Интернет» » Новости мира Интернет
«Mass Effect, которую мы заслужили»: геймплей грандиозного ролевого боевика Exodus от ветеранов BioWare впечатлил игроков - «Новости сети»
«Mass Effect, которую мы заслужили»: геймплей грандиозного ролевого боевика Exodus от ветеранов BioWare впечатлил игроков - «Новости сети»
Google «перестал кормить» сайты — трафик из поиска обрушился, а ИИ даёт меньше 1 % переходов - «Новости сети»
Google «перестал кормить» сайты — трафик из поиска обрушился, а ИИ даёт меньше 1 % переходов - «Новости сети»
Роскомнадзор снова заявил, что Telegram не исполняет российское законодательство - «Новости сети»
Роскомнадзор снова заявил, что Telegram не исполняет российское законодательство - «Новости сети»
SpaceX впервые провела огневые испытания новейшей версии ускорителя Super Heavy — такой долетит даже до Луны - «Новости сети»
SpaceX впервые провела огневые испытания новейшей версии ускорителя Super Heavy — такой долетит даже до Луны - «Новости сети»
Авторы «невзламываемого» шифрования на основе квантовой физики получили премию Тьюринга - «Новости сети»
Авторы «невзламываемого» шифрования на основе квантовой физики получили премию Тьюринга - «Новости сети»
Pixelpaw Labs представила Phase – мышь, которая превращается в геймпад - «Новости мира Интернет»
Pixelpaw Labs представила Phase – мышь, которая превращается в геймпад - «Новости мира Интернет»
12 лет неприступности: инженерный гений против безопасности Xbox One – представлен первый аппаратный взлом - «Новости мира Интернет»
12 лет неприступности: инженерный гений против безопасности Xbox One – представлен первый аппаратный взлом - «Новости мира Интернет»
Adobe добавила в Photoshop функцию для преобразования двухмерных объектов в 3D-модели - «Новости мира Интернет»
Adobe добавила в Photoshop функцию для преобразования двухмерных объектов в 3D-модели - «Новости мира Интернет»
Apple представила второе поколение полноразмерных наушников AirPods Max 2 - «Новости мира Интернет»
Apple представила второе поколение полноразмерных наушников AirPods Max 2 - «Новости мира Интернет»
Новая консоль Xbox Project Helix объединит игры для ПК и приставки - «Новости мира Интернет»
Новая консоль Xbox Project Helix объединит игры для ПК и приставки - «Новости мира Интернет»
Новости мира Интернет » Новости интернета » Яндекс и исследователи из МГУ разработали метод обучения ИИ сложным правилам русского языка - «Новости мира Интернет»

Исследователи из Института ИИ МГУ и Яндекса создали первый открытый набор данных LORuGEC с примерами нарушений сложных правил русского языка. Также они представили метод, помогающий обучить нейросети исправлять грамматические, пунктуационные и орфографические ошибки при генерации текстов. Датасет и метод обучения выложили в открытый доступ – об этом рассказали в блоге Яндекса.



На данный момент ИИ-модели пишут тексты на хорошем уровне, но часто ошибаются в грамматике, пунктуации и орфографии русского языка. Чтобы исправить это, был разработан датасет LORuGEC, включающий 48 правил русского языка, в т. ч. те, знание которых проверяют на ЕГЭ и олимпиадах. В нем приведены почти 1000 примеров по каждой языковой норме, включая неверную пунктуацию в сложноподчиненных предложениях, ошибки в слитном и раздельном написании слов с «не», а также в согласовании сказуемого и подлежащего в сложных предложениях.



А чтобы не пришлось переобучать нейросеть на новом датасете, исследователи предложили новый метод Retrieval-Augmented Generation (в переводе с английского «генерация, усиленная поиском»). При ее использовании возможно избегать лишних исправлений и менять только часть с неточностью, а не все предложение. Как отметил Алексей Сорокин, старший научный сотрудник Института ИИ МГУ и разработчик в отделе Поиска Яндекса, при создании датасета использовали помощь студентов-лингвистов, а также справочную литературу.



Яндекс уже протестировал новый метод на собственных моделях YandexGPT 5 Lite и YandexGPT 5 Pro. Заявлено, что точность исправлений сложных ошибок выросла на 5-10% по метрике F0,5 – это международный стандарт оценки грамматической коррекции. По итогу, точность YandexGPT 5 Pro достигла 83%, а YandexGPT 5 Lite составила 71%.


Исследователи из Института ИИ МГУ и Яндекса создали первый открытый набор данных LORuGEC с примерами нарушений сложных правил русского языка. Также они представили метод, помогающий обучить нейросети исправлять грамматические, пунктуационные и орфографические ошибки при генерации текстов. Датасет и метод обучения выложили в открытый доступ – об этом рассказали в блоге Яндекса. На данный момент ИИ-модели пишут тексты на хорошем уровне, но часто ошибаются в грамматике, пунктуации и орфографии русского языка. Чтобы исправить это, был разработан датасет LORuGEC, включающий 48 правил русского языка, в т. ч. те, знание которых проверяют на ЕГЭ и олимпиадах. В нем приведены почти 1000 примеров по каждой языковой норме, включая неверную пунктуацию в сложноподчиненных предложениях, ошибки в слитном и раздельном написании слов с «не», а также в согласовании сказуемого и подлежащего в сложных предложениях. А чтобы не пришлось переобучать нейросеть на новом датасете, исследователи предложили новый метод Retrieval-Augmented Generation (в переводе с английского «генерация, усиленная поиском»). При ее использовании возможно избегать лишних исправлений и менять только часть с неточностью, а не все предложение. Как отметил Алексей Сорокин, старший научный сотрудник Института ИИ МГУ и разработчик в отделе Поиска Яндекса, при создании датасета использовали помощь студентов-лингвистов, а также справочную литературу. Яндекс уже протестировал новый метод на собственных моделях YandexGPT 5 Lite и YandexGPT 5 Pro. Заявлено, что точность исправлений сложных ошибок выросла на 5-10% по метрике F0,5 – это международный стандарт оценки грамматической коррекции. По итогу, точность YandexGPT 5 Pro достигла 83%, а YandexGPT 5 Lite составила 71%.

Цитирование статьи, картинки - фото скриншот - Rambler News Service.
Иллюстрация к статье - Яндекс. Картинки.
Есть вопросы. Напишите нам.
Общие правила  поведения на сайте.

запостил(а)
Durham
Вернуться назад
0

Смотрите также

А что там на главной? )))



Комментарии )))