Microsoft выпустила три ИИ-модели для работы с текстом, голосом и изображениями - «Новости мира Интернет» » Новости мира Интернет
«Дай ему завершить работу»: Anthropic попросила разработчиков не мешать Claude писать и проверять код - «Новости сети»
«Дай ему завершить работу»: Anthropic попросила разработчиков не мешать Claude писать и проверять код - «Новости сети»
Глава DeepMind спрогнозировал появление сильного искусственного интеллекта (AGI) к 2030 году - «Новости сети»
Глава DeepMind спрогнозировал появление сильного искусственного интеллекта (AGI) к 2030 году - «Новости сети»
SpaceX впервые запустила новейшую мегаракету Starship V3 — корабль потерял двигатель, но продолжил полёт - «Новости сети»
SpaceX впервые запустила новейшую мегаракету Starship V3 — корабль потерял двигатель, но продолжил полёт - «Новости сети»
Китайские контрактные производители чипов начали поднимать цены на услуги, чтобы урвать свой кусок ИИ-пирога - «Новости сети»
Китайские контрактные производители чипов начали поднимать цены на услуги, чтобы урвать свой кусок ИИ-пирога - «Новости сети»
Создан материал для «неисчерпаемой фляги» — он сам добывает воду из воздуха, пока светит Солнце - «Новости сети»
Создан материал для «неисчерпаемой фляги» — он сам добывает воду из воздуха, пока светит Солнце - «Новости сети»
Предзаказы Assassin’s Creed Black Flag Resynced оказались среди «самых сильных в истории франшизы» — Ubisoft рассчитывает на большой успех - «Новости сети»
Предзаказы Assassin’s Creed Black Flag Resynced оказались среди «самых сильных в истории франшизы» — Ubisoft рассчитывает на большой успех - «Новости сети»
На Каннском фестивале показали 95-минутный фильм, снятый с помощью ИИ за $500 000 и две недели - «Новости сети»
На Каннском фестивале показали 95-минутный фильм, снятый с помощью ИИ за $500 000 и две недели - «Новости сети»
Терпение Sony подошло к концу: Bungie анонсировала финальное обновление для Destiny 2 - «Новости сети»
Терпение Sony подошло к концу: Bungie анонсировала финальное обновление для Destiny 2 - «Новости сети»
Alibaba открыла для всех Qwen 3.7-Max — бесплатную флагманскую ИИ-модель, которая вышла на уровень Claude Opus 4.6 Max - «Новости сети»
Alibaba открыла для всех Qwen 3.7-Max — бесплатную флагманскую ИИ-модель, которая вышла на уровень Claude Opus 4.6 Max - «Новости сети»
Nvidia открестилась от GeForce: компания перестала отчитываться о продажах игровых видеокарт - «Новости сети»
Nvidia открестилась от GeForce: компания перестала отчитываться о продажах игровых видеокарт - «Новости сети»
Новости мира Интернет » Новости интернета » Microsoft выпустила три ИИ-модели для работы с текстом, голосом и изображениями - «Новости мира Интернет»

Microsoft представила три новых ИИ-модели для генерации изображений, синтеза речи и распознавания голоса – MAI-Image-2, MAI-Voice-1 и MAI-Transcribe-1.



Новая система охватывает основные мультимедийные сценарии: от создания визуального контента до полноценного голосового взаимодействия. Модель распознавания речи поддерживает 25 популярных языков и подходит для работы в реальных условиях – она без проблем справляется с акцентами, шумом и низким качеством записи. MAI-Transcribe-1 гораздо быстрее предыдущих решений компании.



Генератор речи, в свою очередь, делает ставку на реалистичность. Он способен воспроизводить интонации, эмоции и особенности голоса. MAI-Voice-1 создает до минуты аудио практически мгновенно. Также у модели есть опция клонирования голоса на основе короткого образца.



Обновлённая модель генерации изображений MAI-Image-2 способна создавать фотореалистичные сцены, графику с текстом и точной композицией. В компании отмечают, что она уже используется внутри собственных продуктов – Copilot и инструментах для работы с визуальным контентом.






Источник: сайт Microsoft (здесь и на обложке)



Все три решения доступны через платформы Microsoft Foundry и MAI Playground по платной подписке.


Microsoft представила три новых ИИ-модели для генерации изображений, синтеза речи и распознавания голоса – MAI-Image-2, MAI-Voice-1 и MAI-Transcribe-1. Новая система охватывает основные мультимедийные сценарии: от создания визуального контента до полноценного голосового взаимодействия. Модель распознавания речи поддерживает 25 популярных языков и подходит для работы в реальных условиях – она без проблем справляется с акцентами, шумом и низким качеством записи. MAI-Transcribe-1 гораздо быстрее предыдущих решений компании. Генератор речи, в свою очередь, делает ставку на реалистичность. Он способен воспроизводить интонации, эмоции и особенности голоса. MAI-Voice-1 создает до минуты аудио практически мгновенно. Также у модели есть опция клонирования голоса на основе короткого образца. Обновлённая модель генерации изображений MAI-Image-2 способна создавать фотореалистичные сцены, графику с текстом и точной композицией. В компании отмечают, что она уже используется внутри собственных продуктов – Copilot и инструментах для работы с визуальным контентом. Источник: сайт Microsoft (здесь и на обложке) Все три решения доступны через платформы Microsoft Foundry и MAI Playground по платной подписке.

Цитирование статьи, картинки - фото скриншот - Rambler News Service.
Иллюстрация к статье - Яндекс. Картинки.
Есть вопросы. Напишите нам.
Общие правила  поведения на сайте.

запостил(а)
Ян
Вернуться назад
0

Смотрите также

А что там на главной? )))



Комментарии )))