NVIDIA acelera Apache Spark, a melhor plataforma de análise de dados do mundo
A Comunidade de Código Aberto acelera a Spark 3.0 com
suporte nativo para GPU NVIDIA;
Processamento de ETL e SQL ultrarrápido com centenas de
terabytes de dados;
Adobe atinge aceleração de sete vezes no treinamento de
modelo com Spark 3.0 em Databricks
A NVIDIA Enterprise anuncia que está colaborando com os
líderes da comunidade de código aberto para disponibilizar a aceleração de GPU
de ponta a ponta pela Apache Spark 3.0, um mecanismo de análise para
processamento de dados muito usado por mais de 500 mil cientistas de dados no
mundo todo.
Com o tão aguardado lançamento da Spark 3.0, pela primeira
vez, os cientistas de dados e engenheiros de machine learning poderão aplicar
uma aceleração de GPU revolucionária para as cargas de trabalho de
processamento de dados de ETL (extract, transform and load | extrair,
transformar e carregar, em português) amplamente conduzida com o uso de
operação de bancos de dados SQL.
Em outro feito inédito, o treinamento de modelos de IA
poderá ser processado no mesmo cluster da Spark, em vez de executar as cargas
de trabalho como processos separados em infraestruturas separadas. Isso
possibilita a análise de dados de alto desempenho em todo o pipeline de
ciência de dados, acelerando de dezenas a milhares de terabytes de dados,
do data lake ao treinamento de modelos, sem qualquer alteração no
código existente utilizado para aplicações da Spark executados em instalações e
na nuvem.
“A análise de dados é o maior desafio da computação de alto
desempenho que as empresas e pesquisadores de hoje enfrentam”, afirma Manuvir
Das, chefe de Enterprise Computing da NVIDIA. “A aceleração nativa da GPU para
todo o pipeline do Spark 3.0 - do ETL ao treinamento e à inferência - fornece o
desempenho e a escala necessários para finalmente conectar o potencial de big
data com o poder da IA.”
“Spark 3.0 é mais um grande avanço para aprimorar a análise
de dados e economizar no tempo necessário e nos custos. Será uma grande adição
ao trabalho dos cientistas brasileiros e em toda América Latina”, explica
Marcio Aguiar, gerente sênior da NVIDIA Enterprise para América Latina.
Aproveitando sua parceria de IA estratégica com a NVIDIA, a Adobe é um dos
inovadores que tem trabalhado com uma versão de visualização da Spark 3.0 em
execução no Databricks. A Adobe atingiu uma melhoria de desempenho sete vezes
superior e uma economia de custos de 90% em um teste inicial, usando análise de
dados acelerada por GPU para desenvolvimento de produtos no Adobe Experience
Cloud e recursos de suporte que impulsionam os negócios digitais.
Os ganhos de desempenho no Spark 3.0 aprimoram a precisão do
modelo, permitindo que os cientistas treinem modelos com conjuntos de dados
maiores e retreinem com mais frequência. Isso torna possível processar
terabytes de novos dados todos os dias, o que é fundamental para os cientistas
de dados que oferecem suporte a sistemas de recomendação on-line ou analisam
novos dados de pesquisa. Além disso, um processamento mais rápido significa que
são necessários menos recursos de hardware para fornecer resultados,
proporcionando uma economia significativa de custos.
“Estamos vendo um desempenho significativamente mais rápido
com o Spark 3.0 acelerado pela NVIDIA em comparação com o Spark em CPUs”,
explica William Yan, diretor sênior de machine learning na Adobe. “Com esses
ganhos de desempenho de GPU que mudam o jogo, novas possibilidades se abrem
para aprimorar os recursos orientados por IA em nosso conjunto completo de
aplicações Adobe Experience Cloud.”
Databricks e a NVIDIA trazem mais velocidade para a Spark
A Apache Spark foi originalmente criada pelos fundadores do
Databricks, cuja plataforma unificada de análise de dados com base na nuvem é
executada em mais de um milhão de máquinas virtuais todos os dias. A NVIDIA e o
Databricks também têm colaborado para otimizar o pacote de software RAPIDS™ para
o Databricks, levando a aceleração da GPU às cargas de trabalho de ciência de
dados e machine learning executadas no Databricks nos setores de saúde,
finanças, varejo e muitos outros.
“Nosso trabalho contínuo com a NVIDIA melhora o desempenho
com otimizações de RAPIDS para Apache Spark 3.0 e Databricks para beneficiar
nossos clientes em comum, como a Adobe”, conta Matei Zaharia, criador original
do Apache Spark e tecnólogo chefe da Databricks. “Essas contribuições levam a
pipelines de dados, treinamento e pontuação de modelos mais rápidos, que se
traduzem diretamente em mais descobertas e insights para a nossa comunidade de
engenheiros de dados e cientistas de dados.”
Transferências de dados e ETL mais rápidos na Spark com as
GPUs NVIDIA
A NVIDIA está contribuindo para um novo acelerador RAPIDS™ de código aberto para a Apache
Spark para ajudar os cientistas de dados a aumentar o desempenho de seus pipelines de
ponta a ponta. O acelerador intercepta as funções operadas anteriormente pelas
CPUs e, em vez disso, utiliza GPUs para:
Acelerar os pipelines de ETL na Spark, melhorando
consideravelmente o desempenho das operações de Spark SQL e DataFrame sem
precisar de alterações de código.
Acelerar a preparação de dados e o treinamento de modelos no
mesmo conjunto de infraestruturas, em que um cluster separado não é necessário
para machine learning e deep learning.
Acelerar o desempenho da transferência de dados em nós em um
cluster distribuído da Spark. Essas bibliotecas utilizam a estrutura de código
aberto UCX (Unified Communication X) e minimizam a latência, permitindo que os
dados se movimentem diretamente entre a memória da GPU.
Uma versão de visualização do Spark 3.0 está disponível agora pela
Apache Software Foundation, com uma disponibilidade geral esperada nos próximos
meses. Para obter mais informações, acesse https://www.nvidia.com/pt-br/deep-learning-ai/solutions/data-science/apache-spark-3/.
Sobre a NVIDIA
Com a invenção da GPU pela NVIDIA (NASDAQ:
NVDA), em 1999, redefinimos os gráficos de computadores modernos e
revolucionamos a computação paralela. Mais recentemente, o deep learning com
base em GPU deu início à inteligência artificial moderna — a próxima era da
computação — com a GPU atuando como o cérebro dos computadores, robôs e carros
autônomos que podem perceber e compreender o mundo. Saiba mais em http://nvidianews.nvidia.com/
Acesse também:
Site oficial da NVIDIA no Brasil: https://www.nvidia.com/pt-br/
Facebook: @NVIDIABrasil
Twitter: @NVIDIABrasil
Comentários
Postar um comentário