Chegando ao topo: o próximo grande passo para HPC

By 01/12/2017

O panorama da computação de alto desempenho está evoluindo a um ritmo acelerado, que alguns descrevem como um ponto de inflexão importante, já que a Lei de Moore entrega retornos decrescentes à medida que as demandas por desempenho aumentam. Líderes das organizações estão quebrando a cabeça para descobrir a melhor forma de adotar inovações recentes como aceleração, ao mesmo tempo que são desafiados a incorporar análises dentro de suas cargas de trabalho HPC. No horizonte, estão surgindo aplicações ainda mais exigentes construídas com machine learning e deep learning que alavancam as demandas de sistemas a novos níveis. Com todas essas mudanças, as atualizações tick-tock usuais com ajustes de código menores que acompanham as melhorias nominais no desempenho de hardware não podem continuar da maneira que eram. Para muitas organizações de HPC, decisões importantes precisam ser tomadas.

Ao perceber que essas demandas podem ser endereçadas apenas por ecossistemas abertos, a IBM se associou a outros líderes do mercado como Google, Mellanox, NVIDIA e outros para criar a OpenPOWER Foundation, dedicada a gerenciar a arquitetura Power Al e levá-la a próxima geração.

Uma abordagem de HPC direcionada por dados, com OpenPOWER

Em 2014, esta abordagem disruptiva para inovação de HPC levou a IBM a ser recompensada com dois contratos para criar a próxima geração de supercomputadores para o Departamento de energia de Oak Ridge, Argonne e Lawrence Livermore, nos Estados Unidos, conhecido como programa CORAL (por sua sigla em inglês). Em parceria com a NVIDIA e Mellanox, demonstramos que uma abordagem de sistemas direcionada por dados poderia ajudá-los a alcançar seus objetivos, com uma arquitetura desenvolvida para incorporar potência computacional em todos os lugares onde os dados residiam no sistema, posicionando os usuários para uma convergência de análises, modelagem, visualização e simulação, que poderia levar a novos insights a velocidades incríveis.

Agora, três anos depois desse acordo, estamos felizes em anunciar que estamos entregando o prometido com a nova geração IBM Power Systems com GPUs NVIDIA Volta sendo implementadas nos laboratórios de Oak Ridge e Lawrence Livermore.

Movendo montanhas

Ambos os sistemas, Summit em Oak Ridge e Sierra em Lawrence Livermore, estão sendo instalados enquanto você lê este texto, com finalização sendo esperada para o ano que vem. Os dois sistemas são impressionantes.

Espera-se que o Summit aumente o desempenho das aplicações individuais de 5 a 10 vezes em relação ao Titan, o supercomputador mais antigo de Oak Ridge, e o Sierra deve proporcionar de 4 a 6 vezes o desempenho do Sequoia, o supercomputador mais antigo de Lawrence Livermore.

Com o Summit implementado, o laboratório nacional de Oak Ridge fará grandes avanços em sua missão declarada: “Ser capaz de endereçar, com maior complexidade e fidelidade, questões a respeito de quem nós somos, nosso lugar no planeta e no nosso Universo”. Ainda mais importante, os clusters os colocarão em uma posição capaz de superar os limites atuais de uma das tecnologias mais importantes no desenvolvimento das futuras gerações: a inteligência artificial (IA).

Desenvolvido para IA, desenvolvido para o futuro

Contudo, as cargas de trabalho emergentes de IA são bem diferentes das cargas de trabalho tradicionais de HPC. As medidas de desempenho listadas acima, ainda que interessantes, não atendem os requisitos para os algoritmos de deep learning. Com cargas de trabalho de IA, o gargalo passa a ser a movimentação de dados no nível da CPU. Os sistemas IBM POWER9 são desenvolvidos especificamente para esses desafios.

O POWER9 aproveita o PCIe Gen-4, a nova geração da tecnologia NVIDIA NVLink, com coerência de memória e mais recursos desenvolvidos para melhorar o desempenho em cargas de trabalho de IA. Isso deve significar uma melhoria sensível no desempenho geral e em maiores escalas, ao mesmo tempo que reduz o consumo de energia. As projeções dos competidores mostram uma contagem de nós acima de 50.000 para entrar no território de exascale; mas isso não deve acontecer antes de 2021. Nesse ano, a IBM conseguiu aproveitar o deep learning distribuído para reduzir o tempo de treinamento do modelo de 16 dias para 7 horas ao escalar o TensorFlow e Caffé em 256 GPUs NVIDIA Tesla.

Esses novos sistemas contam com 100 vezes mais GPUs distribuídas em milhares de nós, o que significa que o único limite teórico para os benchmarks que podemos estabelecer com esses novos supercomputadores é nossa imaginação.

Registre-se no nosso webinar e conheça os bastidores do Summit

Para mais informações sobre o CORAL e Summit, registre-se no nosso webinar, onde o ibmista Fausto Artico te levará a um mergulho mais profundo nos progressos dos novos clusters. Ele também irá explorar como os frameworks de deep learning como TensorFlow e Caffé devem ter melhor desempenho no supercomputador, além de outros temas. Registre-se aqui.

As declarações de direção representam a intenção atual a IBM, e estão sujeitas a mudanças ou cancelamentos, representando apenas metas e objetivos.

 

[autopilot_shortcode]