

Zhipu AI обяви пускането и отворения код на своята нова мултимодална серия големи модели GLM-4.6V на 8 декември. Гамата включва:
- GLM-4.6V (106B-A12B): Основен модел, предназначен за облачни среди и клъстери с висока производителност;
- GLM-4.6V-Flash (9B): Лек вариант, оптимизиран за внедряване на устройството и случаи на използване с ниска латентност.
Zhipu AI подчертава, че традиционното извикване на инструменти разчита до голяма степен на въвеждане на текст, което го прави неефективно и губи при работа с изображения, видеоклипове или сложни документи. GLM-4.6V, изграден около философията на дизайна на „изображения като параметри, резултати като контекст“, въвежда естествено мултимодално извикване на инструменти, за да елиминира тези тесни места:
-
Мултимодален вход: Изображенията, екранните снимки и страниците на документи могат да бъдат директно въведени в инструменти, без първо да ги конвертирате в текстови описания, намалявайки загубата на информация и инженерните разходи.
-
Мултимодален изход: Моделът може визуално да интерпретира върнатите резултати от инструмента – като диаграми, изобразени моментни снимки на уеб страници или извлечени изображения на продукти – и да ги интегрира в разсъждения надолу по веригата.
Това създава пълен тръбопровод от възприемане през разбиране до изпълнение, което позволява на GLM-4.6V да се справя по-добре със сложни задачи като генериране на съдържание в смесен формат, разпознаване на продукта и препоръки за цена-стойност и разширени работни процеси на агенти.
В над 30 масови мултимодални бенчмарка — включително MMBench, MathVista и OCRBench — GLM-4.6V демонстрира значителни подобрения спрямо своя предшественик. При сравними мащаби на параметри, моделът постига най-съвременна производителност при мултимодално взаимодействие, логическо разсъждение и разбиране на дълъг контекст.
Компактният GLM-4.6V-Flash (9B) превъзхожда Qwen3-VL-8B, докато 106B-параметърът, 12B-активиране GLM-4.6V осигурява производителност, конкурентна на Qwen3-VL-235B, въпреки че последният има почти два пъти повече параметри.
Source link
Like this:
Like Loading…
Нашия източник е Българо-Китайска Търговско-промишлена палaта