Техническият екип на Tencent оптимизира комуникационната рамка DeepEP с отворен код на DeepSeek, повишавайки нейната производителност в различни мрежови среди, според китайското стартиране на AI. Тестването показа 100% подобрение на RoCE мрежите и 30% печалба на InfiniBand (IB), предлагайки по-ефективни решения за обучение на AI модели. В GitHub DeepSeek призна, че приносът на китайския технологичен гигант е довел до „огромно ускорение.” DeepEP е комуникационна библиотека, пригодена за комбинация от експерти (MoE) и експертен паралелизъм (EP), поддържаща GPU ядра с висока производителност, ниска латентност и изчисления с ниска точност, включително FP8. Екипът на Starlink Networking на Tencent идентифицира две основни пречки: недостатъчно използвана двупортова честотна лента на NIC и забавяне на контрола на процесора. След целеви оптимизации производителността се удвои на RoCE и се подобри с 30% на IB. Подобрената рамка вече е с напълно отворен код и е успешно внедрена в обучението на големия модел Hunyuan на Tencent, демонстрирайки силна гъвкавост в среди, изградени на сървърите Starlink и H20 на Tencent, съобщи китайската технологична медия iThome. [iThome, in Chinese]
Свързани
Нашия източник е Българо-Китайска Търговско-промишлена палaта