OpenMOSS и MOSI пускат MOVA: аудио-визуален модел с отворен код, предоставящ синхронизирано генериране от филмов клас!

29 януари — Екипът на OpenMOSS, в сътрудничество със стартиращия MOSI, официално пусна MOVA (MOSS-Video-and-Audio), модел за аудио-визуално генериране от край до край.

Като първия високопроизводителен аудио-визуален модел с отворен код в Китай, MOVA постига истинско съвместно аудио-видео генериране, произвеждайки звук и визуализации едновременно, вместо да ги съчетава пост-хок. Моделът може да генерира аудио-визуални клипове до 8 секунди при разделителна способност, достигаща 720p, като същевременно демонстрира производителност от индустриален клас при многоезична синхронизация на устните и подравняване на звука в околната среда.

Това, което отличава MOVA, е нейното по-широко индустриално значение. Във време, когато водещи системи като Sora 2 и Veo 3 са все по-затворен код, MOVA възприема подход с отворен код с пълен стек, пускайки на обществеността тегла на модела, код за обучение, код за изводи и рецепти за фина настройка – предизвиквайки нарастващото господство на собствените технологии за аудио-визуално генериране.

По отношение на производителността, MOVA установява нов стандарт за модели с отворен код. Неговата физическа звукова симулация е особено силна, прецизно възпроизвежда сценарии като рев на двигател на SUV, препускащ през пустинята или ехтенето на стрелба в градски бой, постигайки дълбока аудио-визуална кохерентност. Неговото многоезично синхронизиране на устните достига стандартите за филми, с движения на устата, изражения на лицето и интонация, плътно подравнени както в китайски, така и в английски сцени с диалог. Възможностите на MOVA за текст към видео също превъзхождат няколко авангардни модела със затворен код.

Технически, MOVA е изградена върху архитектура Mixture-of-Experts (MoE) с 32 милиарда параметри, включваща хетерогенен дизайн с двойна кула, двупосочни мостови модули и механизъм Aligned RoPE за справяне с подравняването на аудио-визуалната модалност. Тристепенна стратегия за обучение, съчетана с работен процес, базиран на агенти, допълнително подобрява стабилността на генериране и следване на инструкциите.

При сравнителни тестове MOVA превъзхожда конкуренти като LTX-2 и OVI по ключови показатели, включително синхронизация на устните и точност на говора. Той постига ELO резултат от 1113.8 при оценки на арена, с проценти на победи над 70% срещу няколко модела. Неговото издание с отворен код с пълен стек значително намалява бариерата за приемане в индустрията.

GitHub: https://github.com/OpenMOSS/MOVA

Страница на проекта: https://mosi.cn/models/mova

Източник: Synced

Source link

Like this:

Like Loading…

Нашия източник е Българо-Китайска Търговско-промишлена палaта

By admin