Яндекс и исследователи из МГУ разработали метод обучения ИИ сложным правилам русского языка - «Новости мира Интернет» » Новости мира Интернет
Heroes of Might & Magic: Olden Era вышла в раннем доступе Steam — фанаты ждали этого 11 лет - «Новости сети»
Heroes of Might & Magic: Olden Era вышла в раннем доступе Steam — фанаты ждали этого 11 лет - «Новости сети»
Epic Games Store устроил раздачу Hogwarts Legacy в честь 25-летия кинофраншизы «Гарри Поттер» — россиян оставили без подарка - «Новости сети»
Epic Games Store устроил раздачу Hogwarts Legacy в честь 25-летия кинофраншизы «Гарри Поттер» — россиян оставили без подарка - «Новости сети»
«Сделано в Германии»: Volla представила защищённый смартфон Phone Plinius со съёмной батареей и парой ОС на выбор - «Новости сети»
«Сделано в Германии»: Volla представила защищённый смартфон Phone Plinius со съёмной батареей и парой ОС на выбор - «Новости сети»
Noctua объяснила, почему чёрные вентиляторы выходят позже стандартных бежево-коричневых - «Новости сети»
Noctua объяснила, почему чёрные вентиляторы выходят позже стандартных бежево-коричневых - «Новости сети»
Учёные близки к разгадке тайны «маленьких красных точек» в глубинах Вселенной — «Уэбб» засёк у одной из них признаки чёрной дыры - «Новости сети»
Учёные близки к разгадке тайны «маленьких красных точек» в глубинах Вселенной — «Уэбб» засёк у одной из них признаки чёрной дыры - «Новости сети»
Подтверждение прав в Яндекс Вебмастере стало ещё проще: теперь через Яндекс Тег Менеджер и GTM — «Блог для вебмастеров»
Подтверждение прав в Яндекс Вебмастере стало ещё проще: теперь через Яндекс Тег Менеджер и GTM — «Блог для вебмастеров»
Сбер представил Kandinsky 6.0 Image: флагманскую модель, которая умеет профессионально редактировать фото - «Новости мира Интернет»
Сбер представил Kandinsky 6.0 Image: флагманскую модель, которая умеет профессионально редактировать фото - «Новости мира Интернет»
Resident Evil Requiem продаётся так хорошо, что Capcom пришлось повысить прогноз по выручке за год - «Новости сети»
Resident Evil Requiem продаётся так хорошо, что Capcom пришлось повысить прогноз по выручке за год - «Новости сети»
Microsoft запускает K2 — экстренный план по спасению репутации Windows 11 - «Новости сети»
Microsoft запускает K2 — экстренный план по спасению репутации Windows 11 - «Новости сети»
Steam Controller оказалось легко разобрать и отремонтировать - «Новости сети»
Steam Controller оказалось легко разобрать и отремонтировать - «Новости сети»
Новости мира Интернет » Новости интернета » Яндекс и исследователи из МГУ разработали метод обучения ИИ сложным правилам русского языка - «Новости мира Интернет»

Исследователи из Института ИИ МГУ и Яндекса создали первый открытый набор данных LORuGEC с примерами нарушений сложных правил русского языка. Также они представили метод, помогающий обучить нейросети исправлять грамматические, пунктуационные и орфографические ошибки при генерации текстов. Датасет и метод обучения выложили в открытый доступ – об этом рассказали в блоге Яндекса.



На данный момент ИИ-модели пишут тексты на хорошем уровне, но часто ошибаются в грамматике, пунктуации и орфографии русского языка. Чтобы исправить это, был разработан датасет LORuGEC, включающий 48 правил русского языка, в т. ч. те, знание которых проверяют на ЕГЭ и олимпиадах. В нем приведены почти 1000 примеров по каждой языковой норме, включая неверную пунктуацию в сложноподчиненных предложениях, ошибки в слитном и раздельном написании слов с «не», а также в согласовании сказуемого и подлежащего в сложных предложениях.



А чтобы не пришлось переобучать нейросеть на новом датасете, исследователи предложили новый метод Retrieval-Augmented Generation (в переводе с английского «генерация, усиленная поиском»). При ее использовании возможно избегать лишних исправлений и менять только часть с неточностью, а не все предложение. Как отметил Алексей Сорокин, старший научный сотрудник Института ИИ МГУ и разработчик в отделе Поиска Яндекса, при создании датасета использовали помощь студентов-лингвистов, а также справочную литературу.



Яндекс уже протестировал новый метод на собственных моделях YandexGPT 5 Lite и YandexGPT 5 Pro. Заявлено, что точность исправлений сложных ошибок выросла на 5-10% по метрике F0,5 – это международный стандарт оценки грамматической коррекции. По итогу, точность YandexGPT 5 Pro достигла 83%, а YandexGPT 5 Lite составила 71%.


Исследователи из Института ИИ МГУ и Яндекса создали первый открытый набор данных LORuGEC с примерами нарушений сложных правил русского языка. Также они представили метод, помогающий обучить нейросети исправлять грамматические, пунктуационные и орфографические ошибки при генерации текстов. Датасет и метод обучения выложили в открытый доступ – об этом рассказали в блоге Яндекса. На данный момент ИИ-модели пишут тексты на хорошем уровне, но часто ошибаются в грамматике, пунктуации и орфографии русского языка. Чтобы исправить это, был разработан датасет LORuGEC, включающий 48 правил русского языка, в т. ч. те, знание которых проверяют на ЕГЭ и олимпиадах. В нем приведены почти 1000 примеров по каждой языковой норме, включая неверную пунктуацию в сложноподчиненных предложениях, ошибки в слитном и раздельном написании слов с «не», а также в согласовании сказуемого и подлежащего в сложных предложениях. А чтобы не пришлось переобучать нейросеть на новом датасете, исследователи предложили новый метод Retrieval-Augmented Generation (в переводе с английского «генерация, усиленная поиском»). При ее использовании возможно избегать лишних исправлений и менять только часть с неточностью, а не все предложение. Как отметил Алексей Сорокин, старший научный сотрудник Института ИИ МГУ и разработчик в отделе Поиска Яндекса, при создании датасета использовали помощь студентов-лингвистов, а также справочную литературу. Яндекс уже протестировал новый метод на собственных моделях YandexGPT 5 Lite и YandexGPT 5 Pro. Заявлено, что точность исправлений сложных ошибок выросла на 5-10% по метрике F0,5 – это международный стандарт оценки грамматической коррекции. По итогу, точность YandexGPT 5 Pro достигла 83%, а YandexGPT 5 Lite составила 71%.

Цитирование статьи, картинки - фото скриншот - Rambler News Service.
Иллюстрация к статье - Яндекс. Картинки.
Есть вопросы. Напишите нам.
Общие правила  поведения на сайте.

запостил(а)
Durham
Вернуться назад
0

Смотрите также

А что там на главной? )))



Комментарии )))