PowerAI: la solución de Deep Learning más rápida del mundo entre los principales servidores empresariales
Durante las últimas semanas, mis colegas de IBM han escrito acerca de nuestro progreso en el desarrollo y optimización de entornos de Deep Learning para la plataforma más avanzada para la computación acelerada en la empresa, el IBM S822LC para HPC.
Hoy me complace anunciar otro hito importante: la creación de la solución de Deep Learning más rápida del mundo entre los principales servidores empresariales. Esta oferta incluye el nuevo kit de herramientas de software IBM PowerAI junto con las bibliotecas NVIDIA NVLink y GPUDL optimizadas para la arquitectura IBM Power. Lo llamamos PowerAI.
PowerAI reúne una colección de los frameworks de código abierto más populares para Deep Learning, junto con software y bibliotecas de soporte, todo ello en un solo paquete instalable. Nuestra meta de diseño era simplificar la adquisición, la instalación y la optimización del sistema necesarias para abrir una infraestructura de Deep Learning, permitiendo a los usuarios pasar menos tiempo en la implementación y más tiempo entrenando redes neuronales para obtener resultados. Más sobre esos resultados pronto.
El núcleo de la solución PowerAI es el Power Systems S822LC de alto rendimiento para un servidor High Performance Computing (HPC), que incorpora dos CPUs POWER8, hasta cuatro GPUs NVIDIA Tesla P100 y una conectividad NVLink de alto ancho de banda en todo el sistema, uniendo GPU-GPU y GPU-CPU con múltiples conexiones punto a punto.
Esta arquitectura está diseñada para los requisitos de computación intensiva de software de Deep Learning, proporcionando una conexión de alto ancho de banda entre la GPU y la memoria del sistema, y GPU a GPU. Con PowerAI y NVIDIA NVLink, las cargas de trabajo de Deep Learning pueden utilizar este ancho de banda, moviendo grandes conjuntos de datos de entrenamiento de la memoria del sistema a la memoria GPU; El resultado está diseñado para ser un ciclo de entrenamiento más corto y la capacidad de entrenar con conjuntos de datos más grandes para una mayor precisión.
Optimizaciones y exclusivos de la industria
Trabajando en estrecha colaboración con IBM Research en Tokio, el equipo de desarrollo PowerAI ha integrado varias mejoras de rendimiento en uno de estos marcos. Estas optimizaciones, empaquetadas en el binario IBM-Caffe, aprovechan el ancho de banda NVIDIA NVLink y reducen parte del movimiento de datos redundantes dentro de este marco de Deep Learning. Esta optimización, junto con el aumento de rendimiento de la NVIDIA Tesla P100s, permite a un sistema S822LC para HPC con 4 GPUs, superar a uno de ocho GPUs en un sistema basado en procesadores intel broadwell ejecutando la carga de trabajo VGGNet en el Caffe framework por 24 por ciento. [1]
S822LC / HPC con 4 Tesla P100 Tesla GPUs es 24 por ciento más rápido que 8 GPUs Tesla M40
Estamos muy emocionados con la promesa de esta optimización y esperamos ver cómo nuestros clientes y socios la incorporan en sus flujos de trabajo de Deep Learning.
El kit de herramientas también aprovecha las bibliotecas GPUDL, incluyendo la biblioteca de redes neuronales profundas (cuDNN), las subrutinas de álgebra lineal básica (cuBLAS) y la biblioteca de comunicación colectiva (NCCL) como parte de los SDK de NVIDIA para ofrecer aceleración multi-GPU para optimizar el rendimiento en servidores IBM.
Con el tiempo, tenemos la intención de explorar optimizaciones adicionales y capacidades únicas integradas en futuras versiones de PowerAI.
Introducción a PowerAI
Los paquetes PowerAI ya están disponibles, vinculados a nuestra página de PowerAI. Estas imágenes se instalarán en un S822LC para servidor HPC con Ubuntu 16.04, NVIDIA CUDA 8 y NVIDIA cuDNN 5.1. Si usted fuera a construir esta infraestructura desde cero, podría tomar días; nuestro punto de diseño debe estar funcionando en una hora o menos.
Si desea evaluar esta solución en la nube, estamos muy contentos de anunciar que el socio de nube de Power HPC de IBM, Nimbix, ha hecho disponible el framework IBM Caffe en su S822LC para la infraestructura HPC como servicio; en vez de una hora, usted podría estar entrenando en minutos.
Estamos realmente entusiasmados con esta oferta y agradeceríamos la oportunidad de escucharlo. A medida que usted y su organización empiecen con PowerAI, por favor, comparta sus resultados y comentarios.
[1] Test System: IBM S822LC 20-cores 2.86GHz 512GB memory / 4 NVIDIA Tesla P100 GPUs / Ubuntu 16.04 /CUDA 8.0.44 / cuDNN 5.1 / IBM Caffe 1.0.0-rc3 / Imagenet DataCompetitive System: Intel Broadwell E5-2640v4 20-core 2.6 GHz 512GB memory / 8 NVIDIA TeslaM40 GPUs / Ubuntu 16.04 / CUDA 8.0.44 / cuDNN 5.1 / BVLC Caffe 1.0.0-rc3 / Imagenet Data