по разработке и оптимизации CUDA/Triton-ядер для LLM тесно взаимодействовать с ML-инженерами и research-командами для понимания... и активно использует Triton, CUDA, CUTLASS и кастомные ядра для оптимизации: FlashAttention, PagedAttention, DeepEP, и др...