Яндекс и исследователи из МГУ разработали метод обучения ИИ сложным правилам русского языка - «Новости мира Интернет» » Новости мира Интернет
Apple назвала лучшие приложения и игры 2025 года в App Store - «Новости мира Интернет»
Apple назвала лучшие приложения и игры 2025 года в App Store - «Новости мира Интернет»
Яндекс представил AI Search – технологию веб-поиска для корпоративных ИИ-агентов - «Новости мира Интернет»
Яндекс представил AI Search – технологию веб-поиска для корпоративных ИИ-агентов - «Новости мира Интернет»
В Android тестируют Call Reason – функцию для маркировки срочных звонков - «Новости мира Интернет»
В Android тестируют Call Reason – функцию для маркировки срочных звонков - «Новости мира Интернет»
Дайджест обновлений Яндекс Рекламы для специалистов по продвижению - «Новости мира Интернет»
Дайджест обновлений Яндекс Рекламы для специалистов по продвижению - «Новости мира Интернет»
Пользователь Reddit составил рейтинг наушников на основе отзывов - «Новости мира Интернет»
Пользователь Reddit составил рейтинг наушников на основе отзывов - «Новости мира Интернет»
Telegram объявил о конкурсе на дизайн Telegram Nodes - «Новости мира Интернет»
Telegram объявил о конкурсе на дизайн Telegram Nodes - «Новости мира Интернет»
DeepSeek выпустила обновленные модели V3.2 и V3.2-Speciale с упором на продвинутые рассуждения - «Новости мира Интернет»
DeepSeek выпустила обновленные модели V3.2 и V3.2-Speciale с упором на продвинутые рассуждения - «Новости мира Интернет»
Microsoft представила коллекцию «уродливых» рождественских свитеров 2025 года - «Новости мира Интернет»
Microsoft представила коллекцию «уродливых» рождественских свитеров 2025 года - «Новости мира Интернет»
Что такое мониторинг работы сотрудников
Что такое мониторинг работы сотрудников
В Блокноте на Windows 11 добавили новые функции, в том числе поддержку таблиц - «Новости мира Интернет»
В Блокноте на Windows 11 добавили новые функции, в том числе поддержку таблиц - «Новости мира Интернет»
Новости мира Интернет » Новости интернета » Яндекс и исследователи из МГУ разработали метод обучения ИИ сложным правилам русского языка - «Новости мира Интернет»

Исследователи из Института ИИ МГУ и Яндекса создали первый открытый набор данных LORuGEC с примерами нарушений сложных правил русского языка. Также они представили метод, помогающий обучить нейросети исправлять грамматические, пунктуационные и орфографические ошибки при генерации текстов. Датасет и метод обучения выложили в открытый доступ – об этом рассказали в блоге Яндекса.



На данный момент ИИ-модели пишут тексты на хорошем уровне, но часто ошибаются в грамматике, пунктуации и орфографии русского языка. Чтобы исправить это, был разработан датасет LORuGEC, включающий 48 правил русского языка, в т. ч. те, знание которых проверяют на ЕГЭ и олимпиадах. В нем приведены почти 1000 примеров по каждой языковой норме, включая неверную пунктуацию в сложноподчиненных предложениях, ошибки в слитном и раздельном написании слов с «не», а также в согласовании сказуемого и подлежащего в сложных предложениях.



А чтобы не пришлось переобучать нейросеть на новом датасете, исследователи предложили новый метод Retrieval-Augmented Generation (в переводе с английского «генерация, усиленная поиском»). При ее использовании возможно избегать лишних исправлений и менять только часть с неточностью, а не все предложение. Как отметил Алексей Сорокин, старший научный сотрудник Института ИИ МГУ и разработчик в отделе Поиска Яндекса, при создании датасета использовали помощь студентов-лингвистов, а также справочную литературу.



Яндекс уже протестировал новый метод на собственных моделях YandexGPT 5 Lite и YandexGPT 5 Pro. Заявлено, что точность исправлений сложных ошибок выросла на 5-10% по метрике F0,5 – это международный стандарт оценки грамматической коррекции. По итогу, точность YandexGPT 5 Pro достигла 83%, а YandexGPT 5 Lite составила 71%.

Цитирование статьи, картинки - фото скриншот - Rambler News Service.
Иллюстрация к статье - Яндекс. Картинки.
Есть вопросы. Напишите нам.
Общие правила  поведения на сайте.

Исследователи из Института ИИ МГУ и Яндекса создали первый открытый набор данных LORuGEC с примерами нарушений сложных правил русского языка. Также они представили метод, помогающий обучить нейросети исправлять грамматические, пунктуационные и орфографические ошибки при генерации текстов. Датасет и метод обучения выложили в открытый доступ – об этом рассказали в блоге Яндекса. На данный момент ИИ-модели пишут тексты на хорошем уровне, но часто ошибаются в грамматике, пунктуации и орфографии русского языка. Чтобы исправить это, был разработан датасет LORuGEC, включающий 48 правил русского языка, в т. ч. те, знание которых проверяют на ЕГЭ и олимпиадах. В нем приведены почти 1000 примеров по каждой языковой норме, включая неверную пунктуацию в сложноподчиненных предложениях, ошибки в слитном и раздельном написании слов с «не», а также в согласовании сказуемого и подлежащего в сложных предложениях. А чтобы не пришлось переобучать нейросеть на новом датасете, исследователи предложили новый метод Retrieval-Augmented Generation (в переводе с английского «генерация, усиленная поиском»). При ее использовании возможно избегать лишних исправлений и менять только часть с неточностью, а не все предложение. Как отметил Алексей Сорокин, старший научный сотрудник Института ИИ МГУ и разработчик в отделе Поиска Яндекса, при создании датасета использовали помощь студентов-лингвистов, а также справочную литературу. Яндекс уже протестировал новый метод на собственных моделях YandexGPT 5 Lite и YandexGPT 5 Pro. Заявлено, что точность исправлений сложных ошибок выросла на 5-10% по метрике F0,5 – это международный стандарт оценки грамматической коррекции. По итогу, точность YandexGPT 5 Pro достигла 83%, а YandexGPT 5 Lite составила 71%.

запостил(а)
Durham
Вернуться назад
0

Смотрите также

А что там на главной? )))



Комментарии )))