Para a inteligência artificial corporativa, a potência muda tudo

By 19/02/2020

Este post do blog é patrocinada pela IBM. O autor, Peter Rutten, é diretor de pesquisa da IDC Enterprise Infrastructure Practice, com foco na infraestrutura de ponta, acelerada e heterogênea e em seus casos de uso. As informações e opiniões contidas neste artigo são de sua autoria, com base em pesquisas realizadas pela IDC.EEste post do blog é patrocinada pela IBM. O autor, Peter Rutten, é diretor de pesquisa da IDC Enterprise Infrastructure Practice, com foco na infraestrutura de ponta, acelerada e heterogênea e em seus casos de uso. As informações e opiniões contidas neste artigo são de sua autoria, com base em pesquisas realizadas pela IDC.

Uma pesquisa da IDC que realizei em 2018 (N = 200) mostra que as organizações exigem mais do que uma plataforma de inteligência artificial (IA), elas querem desempenho mais do que acessibilidade, um fator de forma específico, suporte ao fornecedor ou uma pilha completa de software de IA na plataforma. Em outras palavras, as empresas desejam potência e desejam isso de todos os componentes críticos: os processadores, os aceleradores, as interconexões e o sistema de E/S.

A potência é realmente o foco da indústria. A maior parte da interrupção no ecossistema de infraestrutura é causada por uma busca renovada pelo desempenho do processador e coprocessador na Era da IA. Houve um progresso significativo nos últimos dois anos e há muita potência disponível para as organizações executarem suas cargas de trabalho de IA, incluindo tarefas de treinamento de deep learning. Porém, por outro lado, a barra é ajustada cada vez mais alta. Os algoritmos estão se tornando mais complexos, para não mencionar maiores, e os volumes de dados que os algoritmos treinam estão crescendo imensamente.

Há um gráfico interessante da IDC que mostra a porcentagem de unidades de servidores x86 em todo o mundo atingindo quase 99% em 2016 e um aumento repentino simultâneo nas vendas de coprocessadores a partir do mesmo ano. É claro que esse foi o ano em que a IA  mais especificamente, o deep learning  entrou em cena. Tornou-se rapidamente evidente que as CPUs de uso geral não podiam lidar com cargas de trabalho de IA com “fome de núcleo”.

O que quero dizer com “fome de núcleo”? A IA é baseada em sofisticados cálculos matemáticos e estatísticos. Por exemplo, análises de imagem e vídeo. As imagens são convertidas em matrizes, com cada pixel sendo representado por um número. Milhões de matrizes, mais suas classificações, são alimentadas em uma rede neural para correlação. As matrizes são, então, multiplicadas entre si para encontrar o resultado certo. Para acelerar esse processo, ele deve ser feito em paralelo em muito mais núcleos do que as CPUs podem fornecer.

As CPUs são projetadas para processamento serial e estão perto de atingir seu potencial máximo devido ao tamanho e custo de seus núcleos. Portanto, o surgimento de diferentes tipos de CPUs, bem como aceleradores, como GPUs e processadores personalizados (ASIC, FPGAs). Esses aceleradores têm arquiteturas massivamente paralelas, com centenas ou até milhares de núcleos em uma matriz que oferecem o desempenho de computação paralela acessível.

O paradigma de desempenho da IA ​​é o Massively Parallel Compute (MPC). As cargas de trabalho de IA (mas também análises de big data, simulação e modelagem) exigem desempenho que só pode ser alcançado com nós de servidor em cluster que hospedam diversos co-processadores que contêm milhares de núcleos – núcleos tensores em uma GPU, por exemplo. Co-processadores – normalmente GPUs, FPGAs ou ASICs – estão sendo usados ​​para melhorar o desempenho em diversas cargas de trabalho. As cargas de trabalho aceleradas mais comuns atualmente são rede, segurança, criptografia, análise em tempo real e compactação, seguidas de perto pelo treinamento de deep learning da IA.

AI performance illustrated via workloads that run on acceleration technology, by deployment

A disputa para compensar o desempenho limitado do processador host não é exclusiva da IA

O supercomputador mais rápido do mundo em 2019 – Summit – foi construído com milhares de nós, cada um com 2 processadores IBM POWER9 e 4 GPUs NVIDIA V100. Todos os anos, o Supercomputer Top 500 lista mais sistemas que utilizam esses coprocessadores, em vez de depender apenas de CPUs.

A mesma pesquisa mencionada anteriormente mostra que as empresas obtêm melhorias de desempenho entre 58% e 73% com a aceleração com co-processadores. Eles fazem isso às custas do aumento do CAPEX (se local) ou OPEX (se estiver usando um CSP) entre 26% e 33%.

Essas são estatísticas decentes, mas há uma preocupação fundamental que entrou na discussão: é realmente suficiente? Kunle Olukotun, professor de engenharia elétrica e ciência da computação na Universidade de Stanford e co-fundador da startup de hardware de IA, Samba Nova, declarou: “Atualmente, as organizações estão se contentando com soluções temporárias caras que estão sendo montadas para executar aplicações de IA. É necessária uma arquitetura radicalmente nova.”

Existem muitas startups na categoria de infraestrutura de IA criada especificamente para esse fim, e espero que uma ou mais delas tenham um impacto significativo no futuro próximo.

No entanto, os grandes encarregados de processadores – IBM, Intel, AMD, Xilinx, Google, AWS e NVIDIA – estão inovando agressivamente para solucionar a lacuna de desempenho.

Qual será o resultado de toda essa inovação? Em primeiro lugar, mais potência para a IA. Muito mais! Mas também, um caos competitivo no mercado de infraestrutura de IA. As startups de processadores precisarão continuar seus esforços de financiamento (as startups de processadores não são baratas) enquanto criam ecossistemas de software e parcerias de OEM e CSP de servidores. Os responsáveis pelo processador estão competindo para obter a adesão dos OEMs e CSPs dos servidores, a única exceção é a IBM, que constrói seus próprios servidores otimizados para IA com seus próprios processadores, tanto para Power Systems quanto para IBM Z. E a TI terá que avaliar qual plataforma de processador justifica o investimento. Meu conselho para a TI seria:

  • Não fique com o “núcleo faminto”. Os problemas de desempenho com a IA geralmente são o resultado da paralelização insuficiente da infraestrutura na qual a carga de trabalho da IA ​​é executada. A infraestrutura de IA é cada vez mais baseada no MPC, o que significa agrupamentos de nós de servidor acelerados com interconexões rápidas.
  • Acompanhe as novas tecnologias de processador de IA. Enquanto alguns ainda não são esperados há diversos anos, outros estão disponíveis hoje, especialmente os de grandes empresas. Solicite ao fornecedor do servidor informações sobre a posição deles em relação aos requisitos de desempenho emergentes em termos de novos processadores, coprocessadores, interconexões ou combinações dos mesmos.
  • Não tenha medo de criar uma infraestrutura de computação de IA heterogênea, mesmo que isso signifique um pouco mais de complexidade do que com um ambiente 100% homogêneo – a IA exige isso. Lembre-se de que a infraestrutura heterogênea não é mais complicada do jeito que costumava ser, graças às camadas de código aberto que se abstraem do hardware (pense: Linux, contêineres, Kubernetes etc.).

Em resumo: para alcançar a potência necessária para a IA, abrace a diversidade. Converse com seus cientistas de dados e desenvolvedores de IA sobre paralelismo de infraestrutura. Em seguida, investigue as plataformas que talvez você não tivesse no datacenter antes, plataformas com diferentes processadores, coprocessadores e interconexões para melhor paralelização. Seu desempenho de IA dependerá disso.

Para saber mais sobre a infraestrutura para IA, leia o relatório da IDC Rethinking Your Infrastructure for Enterprise AI.

Se deseja conversar com o especialista sobre posssibilidades e necessidades de seu negócio, clique aqui.

[autopilot_shortcode]