职位详情
主要职责:
1、通信库性能分析:深入了解各种通信库的工作原理、通信原语和底层实现。分析在不同硬件和网络环境下的性能瓶颈。
2、并行度和吞吐量优化:通过并行化和优化通信原语,提高通信的并行度和吞吐量。
3、集合网络硬件利用:研究专用的集合网络硬件,如Nvlink、InfiniBand、PCle等,根据应用场景和硬件配置,选择合适的网络设备和传输类型,以加速集合通信。优化通信库在这些硬件上的性能。
4、带宽和效率提高:优化通信库的通信带宽,减少延迟。考虑数据分发、拓扑结构、数据切分等因素。
所需技能和经验:
1、拥有计算机科学、电子工程或相关领域的学士或硕士学位。
2、熟悉分布式系统、并行计算和通信原理。
3、熟悉CUDA或ROCM,至少熟悉NCCL、 RCCL、MSCCL、MPI等通信库中的一种。
4、熟悉C/C++编程和性能优化技术。
5、具备良好的问题解决能力和团队合作精
其他信息
行业要求:全部行业