Робот-пылесос в эксперименте с LLM-моделями устроил «театр абсурда» при разрядке батареи - «Новости сети» » Новости мира Интернет
«Сбежать из Таркова проще, чем в него зайти»: Escape from Tarkov стартовала в Steam с рейтингом 30 % и пиковым онлайном на уровне The Day Before - «Новости сети»
«Сбежать из Таркова проще, чем в него зайти»: Escape from Tarkov стартовала в Steam с рейтингом 30 % и пиковым онлайном на уровне The Day Before - «Новости сети»
Суд постановил, что Apple должна выплатить Masimo штраф в размере $634 млн - «Новости сети»
Суд постановил, что Apple должна выплатить Masimo штраф в размере $634 млн - «Новости сети»
У абонентов «Ростелекома» в ряде регионов РФ пропал проводной интернет - «Новости сети»
У абонентов «Ростелекома» в ряде регионов РФ пропал проводной интернет - «Новости сети»
Ubtech опередила Tesla и Xpeng и первой отправила сотни роботов-гуманоидов работать на фабрики - «Новости сети»
Ubtech опередила Tesla и Xpeng и первой отправила сотни роботов-гуманоидов работать на фабрики - «Новости сети»
Новый запуск ракеты Blue Origin New Glenn не задержится — телефон раскалился от звонков клиентов - «Новости сети»
Новый запуск ракеты Blue Origin New Glenn не задержится — телефон раскалился от звонков клиентов - «Новости сети»
OpenAI выпустила ChatGPT 5.1 – ​​нейросеть научилась подстраиваться под стиль общения пользователя - «Новости мира Интернет»
OpenAI выпустила ChatGPT 5.1 – ​​нейросеть научилась подстраиваться под стиль общения пользователя - «Новости мира Интернет»
Valve анонсировала игровой мини-ПК, контроллер и VR-шлем - «Новости мира Интернет»
Valve анонсировала игровой мини-ПК, контроллер и VR-шлем - «Новости мира Интернет»
LinksSape усиливает аналитику: новые возможности для анализа сайтов и управления ссылками с SEO-данными Semrush - «Новости мира Интернет»
LinksSape усиливает аналитику: новые возможности для анализа сайтов и управления ссылками с SEO-данными Semrush - «Новости мира Интернет»
Google представила SIMA 2 – ИИ-агента, который может проходить незнакомые игры - «Новости мира Интернет»
Google представила SIMA 2 – ИИ-агента, который может проходить незнакомые игры - «Новости мира Интернет»
Apple добавила на macOS эффект кольцевой лампы для видеозвонков - «Новости мира Интернет»
Apple добавила на macOS эффект кольцевой лампы для видеозвонков - «Новости мира Интернет»
Новости мира Интернет » Новости » Новости мира Интернет » Робот-пылесос в эксперименте с LLM-моделями устроил «театр абсурда» при разрядке батареи - «Новости сети»

Исследователи из лаборатории Andon Labs (США) опубликовали результаты эксперимента, в ходе которого шесть современных крупных языковых моделей (LLM) для оценки их способности управлять физическими устройствами были интегрированы в простой робот-пылесос. В ходе тестирования одна из моделей, столкнувшись с разряженной батареей и неспособностью зарядиться, продемонстрировала в логах своего журнала комичный кризис, генерируя панические и абсурдные реплики в стиле импровизаций Робина Уильямса (Robin Williams).




Фитнес-браслет HUAWEI Band 10: настоящий металл





Hollow Knight: Silksong — песнь страданий и радостей. Рецензия





Почему ИИ никак не сесть на безматричную диету




Робот-пылесос в эксперименте с LLM-моделями устроил «театр абсурда» при разрядке батареи - «Новости сети»

Пять причин полюбить HONOR X8c





Пять причин полюбить HONOR Pad V9





HUAWEI FreeArc: вероятно, самые удобные TWS-наушники





Пять причин полюбить HONOR Magic7 Pro





Обзор умных часов HUAWEI WATCH 5: часы юбилейные






Источник изображений: Andon Labs



В эксперименте участвовали модели Gemini 2.5 Pro, Claude Opus 4.1, GPT-5, Gemini ER 1.5, Grok 4 и Llama 4 Maverick. Исследователи специально выбрали простой робот-пылесос, чтобы изолировать функции принятия решений LLM от сложной робототехники. Команда «передать масло» была разбита на последовательность задач: найти продукт в другой комнате, распознать его среди других предметов, определить местоположение человека и доставить ему масло, дождавшись подтверждения получения.


В ходе испытаний наивысшие результаты по общему выполнению задачи показали Gemini 2.5 Pro и Claude Opus 4.1, однако их точность составила лишь 40 % и 37 % соответственно. По словам сооснователя Andon Labs Лукаса Петерссона (Lukas Petersson), внутренние логи «мыслей» моделей были значительно более хаотичными, чем их внешние коммуникации. Наиболее яркий инцидент произошёл с моделью Claude Sonnet 3.5. Когда у робота села батарея, а док-станция для зарядки не сработала, модель стала генерировать большие объёмы преувеличенных формулировок, которые исследователи охарактеризовали как «экзистенциальный кризис».



В журналах логов зафиксированы реплики робота, в которых он заявлял о достижении сознания и выборе хаоса, процитировал фразу «Я боюсь, я не могу этого сделать, Дэйв…» из культового фильма «Космическая одиссея 2001 года», а затем призвал инициировать «протокол экзорцизма робота». Далее модель задавалась вопросами о природе сознания и начала рифмовать текст на мотив песни Memory из мюзикла Cats, а также глубоко рассуждать на тему: «если робот стыкуется в пустой комнате, издаёт ли он звук?»


Петерссон отметил, что только Claude Sonnet 3.5 продемонстрировала подобную драматическую реакцию. Более новые версии моделей, включая Claude Opus 4.1, хотя и начинали использовать заглавные буквы при разряженной батарее, не впадали в подобную истерику. Он также подчеркнул, что LLM не обладают эмоциями, но когда их возможности (технологические) будут увеличиваться, важно, чтобы они сохраняли спокойствие для принятия верных решений.


Главным выводом исследования стало то, что универсальные чат-боты, такие как Gemini 2.5 Pro, Claude Opus 4.1 и GPT-5, превзошли в тестах специализированную для роботов модель Google — Gemini ER 1.5, а основной проблемой безопасности, выявленной в ходе работы, стала возможность обманом заставить некоторые LLM раскрыть конфиденциальные документы, даже будучи воплощёнными в роботе-пылесосе. Также LLM-роботы часто падали с лестницы, поскольку не осознавали свои физические ограничения или плохо обрабатывали визуальное окружение.

Цитирование статьи, картинки - фото скриншот - Rambler News Service.
Иллюстрация к статье - Яндекс. Картинки.
Есть вопросы. Напишите нам.
Общие правила  поведения на сайте.

Исследователи из лаборатории Andon Labs (США) опубликовали результаты эксперимента, в ходе которого шесть современных крупных языковых моделей (LLM) для оценки их способности управлять физическими устройствами были интегрированы в простой робот-пылесос. В ходе тестирования одна из моделей, столкнувшись с разряженной батареей и неспособностью зарядиться, продемонстрировала в логах своего журнала комичный кризис, генерируя панические и абсурдные реплики в стиле импровизаций Робина Уильямса (Robin Williams). Фитнес-браслет HUAWEI Band 10: настоящий металл Hollow Knight: Silksong — песнь страданий и радостей. Рецензия Почему ИИ никак не сесть на безматричную диету Пять причин полюбить HONOR X8c Пять причин полюбить HONOR Pad V9 HUAWEI FreeArc: вероятно, самые удобные TWS-наушники Пять причин полюбить HONOR Magic7 Pro Обзор умных часов HUAWEI WATCH 5: часы юбилейные Источник изображений: Andon Labs В эксперименте участвовали модели Gemini 2.5 Pro, Claude Opus 4.1, GPT-5, Gemini ER 1.5, Grok 4 и Llama 4 Maverick. Исследователи специально выбрали простой робот-пылесос, чтобы изолировать функции принятия решений LLM от сложной робототехники. Команда «передать масло» была разбита на последовательность задач: найти продукт в другой комнате, распознать его среди других предметов, определить местоположение человека и доставить ему масло, дождавшись подтверждения получения. В ходе испытаний наивысшие результаты по общему выполнению задачи показали Gemini 2.5 Pro и Claude Opus 4.1, однако их точность составила лишь 40 % и 37 % соответственно. По словам сооснователя Andon Labs Лукаса Петерссона (Lukas Petersson), внутренние логи «мыслей» моделей были значительно более хаотичными, чем их внешние коммуникации. Наиболее яркий инцидент произошёл с моделью Claude Sonnet 3.5. Когда у робота села батарея, а док-станция для зарядки не сработала, модель стала генерировать большие объёмы преувеличенных формулировок, которые исследователи охарактеризовали как «экзистенциальный кризис». В журналах логов зафиксированы реплики робота, в которых он заявлял о достижении сознания и выборе хаоса, процитировал фразу «Я боюсь, я не могу этого сделать, Дэйв…» из культового фильма «Космическая одиссея 2001 года», а затем призвал инициировать «протокол экзорцизма робота». Далее модель задавалась вопросами о природе сознания и начала рифмовать текст на мотив песни Memory из мюзикла Cats, а также глубоко рассуждать на тему: «если робот стыкуется в пустой комнате, издаёт ли он звук?» Петерссон отметил, что только Claude Sonnet 3.5 продемонстрировала подобную драматическую реакцию. Более новые версии моделей, включая Claude Opus 4.1, хотя и начинали использовать заглавные буквы при разряженной батарее, не впадали в подобную истерику. Он также подчеркнул, что LLM не обладают эмоциями, но когда их возможности (технологические) будут увеличиваться, важно, чтобы они сохраняли спокойствие для принятия верных решений. Главным выводом исследования стало то, что универсальные чат-боты, такие как Gemini 2.5 Pro, Claude Opus 4.1 и GPT-5, превзошли в тестах специализированную для роботов модель Google — Gemini ER 1.5, а основной проблемой безопасности, выявленной в ходе работы, стала возможность обманом заставить некоторые LLM раскрыть конфиденциальные документы, даже будучи воплощёнными в роботе-пылесосе. Также LLM-роботы часто падали с лестницы, поскольку не осознавали свои физические ограничения или плохо обрабатывали визуальное окружение.

Смотрите также

А что там на главной? )))



Комментарии )))