Neste artigo, veremos o desenvolvimento da IA ​​e o campo da aprendizagem profunda. O aprendizado profundo se originou na era dos computadores de tubo de vácuo. Em 1958, Frank Rosenblatt, da Cornell University, projetou a primeira rede neural artificial. Mais tarde, isso foi chamado de “aprendizagem profunda”. Rosenblatt sabia que essa tecnologia superava o poder de computação da época. Ele disse… “Com o aumento de nós de conexão de rede neural… os computadores digitais tradicionais logo serão incapazes de suportar a carga de cálculo”.

Felizmente, o hardware do computador melhorou rapidamente ao longo as décadas. Isso torna os cálculos cerca de 10 milhões de vezes mais rápidos. Como resultado, os pesquisadores do século 21 são capazes de implementar redes neurais. Agora existem mais conexões para simular fenômenos mais complexos. Hoje em dia, o aprendizado profundo tem sido amplamente utilizado em vários campos. Tem sido usado em jogos, tradução de idiomas, análise de imagens médicas e assim por diante.

A ascensão do aprendizado profundo é forte, mas seu futuro provavelmente será acidentado. As limitações computacionais com as quais Rosenblatt se preocupa continuam sendo uma nuvem que paira sobre o campo do aprendizado profundo. Hoje, os pesquisadores no campo da aprendizagem profunda estão ultrapassando os limites de suas ferramentas computacionais.

Como funciona a aprendizagem profunda

A aprendizagem profunda é o resultado do desenvolvimento de longo prazo no campo da inteligência artificial. Os primeiros sistemas de IA eram baseados em lógica e regras dadas por especialistas humanos. Aos poucos, já existem parâmetros que podem ser ajustados por meio do aprendizado. Hoje, as redes neurais podem aprender a construir modelos de computador altamente maleáveis. A saída da rede neural não é mais o resultado de uma única fórmula. Ele agora usa operações extremamente complexas. Um modelo de rede neural suficientemente grande pode acomodar qualquer tipo de dados.

Há uma diferença entre uma “abordagem de sistema especialista” e uma “abordagem de sistema flexível”. Vamos considerar uma situação em que um raio X é usado para determinar se um paciente tem câncer. A radiografia virá com vários componentes e recursos. No entanto, não saberemos quais deles são importantes.

Sistemas especialistas abordam o problema tendo especialistas. Neste caso, especialistas nas áreas de radiologia e oncologia. Eles especificarão variáveis ​​importantes e permitirão que o sistema examine apenas essas variáveis. Este método requer uma pequena quantidade de cálculo. Assim, tem sido amplamente utilizado. Mas se os especialistas falharem em identificar as variáveis-chave, então o relatório do sistema falhará.

A maneira como os sistemas flexíveis resolvem problemas é examinar o maior número possível de variáveis. O sistema então decide por si mesmo quais são importantes. Isso requer mais dados e custos computacionais mais altos. Além disso, é menos eficiente do que os sistemas especialistas. No entanto, com dados e computação suficientes, os sistemas flexíveis podem superar os sistemas especialistas.

Os modelos de aprendizado profundo têm parâmetros massivos

Os modelos de aprendizado profundo são “superparametrizados”. Isso significa que há mais parâmetros do que pontos de dados disponíveis para treinamento. Por exemplo, uma rede neural de sistema de reconhecimento de imagem pode ter 480 milhões de parâmetros. No entanto, ele será treinado usando apenas 1,2 milhão de imagens. A presença de parâmetros enormes geralmente leva ao “overfitting”. Isso significa que o modelo se ajusta muito bem ao conjunto de dados de treinamento. Assim, o sistema pode perder a tendência geral, mas obter os detalhes.

Gizchina Notícias da semana

A aprendizagem profunda já mostrou seus talentos no campo da tradução automática. No início, o software de tradução traduzia de acordo com regras desenvolvidas por especialistas em gramática. Na tradução de idiomas como urdu, árabe e malaio, os métodos baseados em regras inicialmente superaram os métodos de aprendizado profundo baseados em estatísticas. Mas, à medida que os dados de texto aumentam, o aprendizado profundo agora supera outros métodos em geral. Acontece que o aprendizado profundo é superior em quase todos os domínios de aplicação.

Custo computacional enorme

Uma regra que se aplica a todos os modelos estatísticos é que, para melhorar o desempenho em K, você precisa de 2K dados para treinar o modelo. Além disso, há um problema de parametrização excessiva do modelo de aprendizado profundo. Assim, para aumentar o desempenho em K, você precisará de pelo menos 4K da quantidade de dados. Em termos simples, para que os cientistas melhorem o desempenho dos modelos de aprendizado profundo, eles devem construir modelos maiores. Esses modelos maiores serão usados ​​para treinamento. No entanto, quão caro será construir os modelos maiores para treinamento? Será muito alto para nós pagarmos e, assim, atrasar o campo?

Para explorar esta questão, os cientistas do Instituto de Tecnologia de Massachusetts coletaram dados de mais de 1.000 trabalhos de pesquisa de aprendizado profundo. A pesquisa deles alerta que o aprendizado profundo enfrenta sérios desafios.

Tome a classificação de imagens como exemplo. A redução de erros de classificação de imagem vem com uma enorme carga computacional. Por exemplo, a capacidade de treinar um sistema de aprendizado profundo em uma unidade de processamento gráfico (GPU) foi demonstrada pela primeira vez em 2012. Isso foi feito com o modelo AlexNet. No entanto, foram necessários de 5 a 6 dias de treinamento usando duas GPUs. Em 2018, outro modelo, o NASNet-A, tinha metade da taxa de erro do AlexNet. No entanto, ele usou mais de 1.000 vezes mais computação.

A melhoria no desempenho do chip acompanhou o desenvolvimento do aprendizado profundo? de jeito nenhum. Do aumento de mais de 1.000 vezes na computação do NASNet-A, apenas uma melhoria de 6 vezes vem de um hardware melhor. O restante é alcançado usando mais processadores ou executando por mais tempo, com custos mais altos.

Os dados práticos são muito mais do que seus cálculos

Em teoria, para melhorar o desempenho por um fator de K, precisamos de mais 4K de dados. No entanto, na prática, o cálculo precisa de um fator de pelo menos 9K. Isso significa que mais de 500 vezes mais recursos de computação são necessários para reduzir pela metade a taxa de erro. Isso é muito caro, na verdade, é muito caro. O treinamento de um modelo de reconhecimento de imagem com uma taxa de erro inferior a 5% custará US$ 100 bilhões. A eletricidade consumida gerará emissões de carbono equivalentes a um mês de emissões de carbono na cidade de Nova York. Se você treinar um modelo de reconhecimento de imagem com uma taxa de erro inferior a 1%, o custo será ainda maior.

Até 2025, a taxa de erro do sistema de reconhecimento de imagem ideal será reduzida para 5%. No entanto, o treinamento de um sistema de aprendizado profundo geraria o equivalente a um mês de emissões de dióxido de carbono na cidade de Nova York.

O fardo do custo computacional tornou-se evidente na vanguarda do aprendizado profundo. O OpenAI, um think tank de aprendizado de máquina, gastou mais de US$ 4 milhões para projetar e treinar. As empresas também estão começando a evitar o custo computacional do aprendizado profundo. Uma grande rede de supermercados na Europa abandonou recentemente um sistema baseado em aprendizado profundo. O sistema era prever quais produtos seriam comprados. Os executivos da empresa concluíram que o custo de treinamento e operação do sistema era muito alto.

Fonte/VIA:

Categories: IT Info