Яндекс и исследователи из МГУ разработали метод обучения ИИ сложным правилам русского языка - «Новости мира Интернет» » Новости мира Интернет
Стартап NextAxis Design выпустил эргономичную мышь-яйцо - «Новости мира Интернет»
Стартап NextAxis Design выпустил эргономичную мышь-яйцо - «Новости мира Интернет»
В Windows 11 добавят возможность перемещения панели задач в разные края экрана - «Новости мира Интернет»
В Windows 11 добавят возможность перемещения панели задач в разные края экрана - «Новости мира Интернет»
Asus выпустила AR-очки для геймеров с частотой 240 Гц - «Новости мира Интернет»
Asus выпустила AR-очки для геймеров с частотой 240 Гц - «Новости мира Интернет»
Google запустила редизайн иконок своих сервисов - «Новости мира Интернет»
Google запустила редизайн иконок своих сервисов - «Новости мира Интернет»
Хотите, чтобы клиенты выбирали вас в Поиске? Подключите «Баллы за отзывы» в Яндекс Вебмастере! — «Блог для вебмастеров»
Хотите, чтобы клиенты выбирали вас в Поиске? Подключите «Баллы за отзывы» в Яндекс Вебмастере! — «Блог для вебмастеров»
Что нового показали на презентации The Android Show - «Новости мира Интернет»
Что нового показали на презентации The Android Show - «Новости мира Интернет»
Яндекс рассказал о новых функциях в обновленном Мастере отчетов - «Новости мира Интернет»
Яндекс рассказал о новых функциях в обновленном Мастере отчетов - «Новости мира Интернет»
Garmin представила смарт-часы Forerunner 70 и 170 Music для начинающих спортсменов - «Новости мира Интернет»
Garmin представила смарт-часы Forerunner 70 и 170 Music для начинающих спортсменов - «Новости мира Интернет»
Что происходит на рынке ссылок: цены растут, слабые площадки теряют позиции – исследование Sape - «Новости мира Интернет» Google DeepMind представила курсор, который понимает объекты на экране - «Новости мира Интернет»
Google DeepMind представила курсор, который понимает объекты на экране - «Новости мира Интернет»
Новости мира Интернет » Новости интернета » Яндекс и исследователи из МГУ разработали метод обучения ИИ сложным правилам русского языка - «Новости мира Интернет»

Исследователи из Института ИИ МГУ и Яндекса создали первый открытый набор данных LORuGEC с примерами нарушений сложных правил русского языка. Также они представили метод, помогающий обучить нейросети исправлять грамматические, пунктуационные и орфографические ошибки при генерации текстов. Датасет и метод обучения выложили в открытый доступ – об этом рассказали в блоге Яндекса.



На данный момент ИИ-модели пишут тексты на хорошем уровне, но часто ошибаются в грамматике, пунктуации и орфографии русского языка. Чтобы исправить это, был разработан датасет LORuGEC, включающий 48 правил русского языка, в т. ч. те, знание которых проверяют на ЕГЭ и олимпиадах. В нем приведены почти 1000 примеров по каждой языковой норме, включая неверную пунктуацию в сложноподчиненных предложениях, ошибки в слитном и раздельном написании слов с «не», а также в согласовании сказуемого и подлежащего в сложных предложениях.



А чтобы не пришлось переобучать нейросеть на новом датасете, исследователи предложили новый метод Retrieval-Augmented Generation (в переводе с английского «генерация, усиленная поиском»). При ее использовании возможно избегать лишних исправлений и менять только часть с неточностью, а не все предложение. Как отметил Алексей Сорокин, старший научный сотрудник Института ИИ МГУ и разработчик в отделе Поиска Яндекса, при создании датасета использовали помощь студентов-лингвистов, а также справочную литературу.



Яндекс уже протестировал новый метод на собственных моделях YandexGPT 5 Lite и YandexGPT 5 Pro. Заявлено, что точность исправлений сложных ошибок выросла на 5-10% по метрике F0,5 – это международный стандарт оценки грамматической коррекции. По итогу, точность YandexGPT 5 Pro достигла 83%, а YandexGPT 5 Lite составила 71%.


Исследователи из Института ИИ МГУ и Яндекса создали первый открытый набор данных LORuGEC с примерами нарушений сложных правил русского языка. Также они представили метод, помогающий обучить нейросети исправлять грамматические, пунктуационные и орфографические ошибки при генерации текстов. Датасет и метод обучения выложили в открытый доступ – об этом рассказали в блоге Яндекса. На данный момент ИИ-модели пишут тексты на хорошем уровне, но часто ошибаются в грамматике, пунктуации и орфографии русского языка. Чтобы исправить это, был разработан датасет LORuGEC, включающий 48 правил русского языка, в т. ч. те, знание которых проверяют на ЕГЭ и олимпиадах. В нем приведены почти 1000 примеров по каждой языковой норме, включая неверную пунктуацию в сложноподчиненных предложениях, ошибки в слитном и раздельном написании слов с «не», а также в согласовании сказуемого и подлежащего в сложных предложениях. А чтобы не пришлось переобучать нейросеть на новом датасете, исследователи предложили новый метод Retrieval-Augmented Generation (в переводе с английского «генерация, усиленная поиском»). При ее использовании возможно избегать лишних исправлений и менять только часть с неточностью, а не все предложение. Как отметил Алексей Сорокин, старший научный сотрудник Института ИИ МГУ и разработчик в отделе Поиска Яндекса, при создании датасета использовали помощь студентов-лингвистов, а также справочную литературу. Яндекс уже протестировал новый метод на собственных моделях YandexGPT 5 Lite и YandexGPT 5 Pro. Заявлено, что точность исправлений сложных ошибок выросла на 5-10% по метрике F0,5 – это международный стандарт оценки грамматической коррекции. По итогу, точность YandexGPT 5 Pro достигла 83%, а YandexGPT 5 Lite составила 71%.

Цитирование статьи, картинки - фото скриншот - Rambler News Service.
Иллюстрация к статье - Яндекс. Картинки.
Есть вопросы. Напишите нам.
Общие правила  поведения на сайте.

запостил(а)
Durham
Вернуться назад
0

Смотрите также

А что там на главной? )))



Комментарии )))