A Inteligência Artificial está aprendendo a evoluir como formas de vida terrestre

maio 5, 2022 386 visualizações 8 min de leitura

A Inteligência Artificial está aprendendo a evoluir como formas de vida terrestre.

Um novo sistema de aprendizado simula evolução como nunca antes

Centenas de milhões de anos de evolução abençoaram nosso planeta com uma grande variedade de formas de vida, cada uma inteligente à sua maneira. Cada espécie evoluiu para desenvolver habilidades distintas, capacidades de aprendizagem e uma forma física que garante sua sobrevivência em seu ambiente.

Mas, apesar de ser inspirado pela natureza e evolução, o campo da inteligência artificial tem se concentrado em criar os elementos de inteligência separadamente e fundi-los após o desenvolvimento. Embora essa abordagem tenha dado ótimos resultados, também limitou a flexibilidade dos agentes de IA em algumas das habilidades básicas encontradas até mesmo nas formas de vida mais simples.

Em um novo artigo publicado na revista científica Nature, pesquisadores de IA da Universidade de Stanford apresentam uma nova técnica que pode ajudar a tomar medidas para superar alguns desses limites. Intitulada “Deep Evolutionary Reinforcement Learning”, a nova técnica utiliza um ambiente virtual complexo e um aprendizado reforçado para criar agentes virtuais que possam evoluir tanto em sua estrutura física quanto em capacidades de aprendizagem. Os achados podem ter implicações importantes para o futuro da pesquisa de IA e robótica.

Evolução é difícil de simular.

Evolução em IA - Inteligência Artificial

Na natureza, corpo e cérebro evoluem juntos. Ao longo de muitas gerações, todas as espécies animais passaram por inúmeros ciclos de mutação para crescer membros, órgãos e um sistema nervoso para apoiar as funções de que precisa em seu ambiente. Mosquitos têm visão térmica para detectar calor corporal. Morcegos têm asas para voar e um aparelho de ecolocalização para navegar em lugares escuros. Tartarugas marinhas têm nadadeiras para nadar e um sistema de detecção de campo magnético para viajar longas distâncias. Os humanos têm uma postura vertical que liberta seus braços e permite que eles vejam o horizonte distante, mãos e dedos ágeis que podem manipular objetos, e um cérebro que os torna as criaturas mais sociais e nos capacita a encontrar soluções para resolver problemas.

Curiosamente, todas essas espécies descendem da primeira forma de vida que apareceu na Terra há vários bilhões de anos. Com base nas pressões de seleção causadas pelo meio ambiente, os descendentes desses primeiros seres vivos evoluíram em muitas direções diferentes.

Estudar a evolução da vida e da inteligência é interessante. Mas replicá-la é extremamente difícil. Um sistema de IA que pretende recriar a vida inteligente da mesma forma que a evolução teria que buscar muita informação, que é extremamente caro computacionalmente. Precisaria de muitos ciclos paralelos e sequenciais de tentativa e erro.

Os pesquisadores de IA usam vários atalhos e recursos pré-assinados para superar alguns desses desafios. Por exemplo, eles fixam a arquitetura ou o design físico de um sistema de IA ou robótico e se concentram em otimizar os parâmetros aprendeu. Outro atalho é o uso da evolução lamarckiana em vez da darwiniana, na qual os agentes de IA transmitem seus parâmetros aprendidos aos seus descendentes. Outra abordagem é treinar diferentes subsistemas de IA separadamente (visão, locomoção, linguagem, etc.) e, em seguida, afixá-los juntos em um sistema final de IA ou robótico. Embora essas abordagens acelerem o processo e reduzam os custos de treinamento e evolução dos agentes de IA, elas também limitam a flexibilidade e a variedade de resultados que podem ser alcançados.

Aprendizado de reforço

Estrutura de aprendizagem de reforço evolutivo profundo

Em seu novo trabalho, os pesquisadores de Stanford pretendem aproximar a pesquisa de IA do processo evolutivo real, mantendo os custos o mais baixos possível.

“Nosso objetivo é elucidar alguns princípios que regem as relações entre a complexidade ambiental, a morfologia evoluída e a capacidade de aprendizado do controle inteligente”, escrevem em seu artigo.

Sua estrutura é chamada de Deep Evolutionary Reinforcement Learning. Na DERL, cada agente usa um aprendizado de reforço profundo para adquirir as habilidades necessárias para maximizar seus objetivos durante sua vida útil. A DERL usa a evolução darwiniana para procurar o espaço morfológico para soluções ideais, o que significa que quando uma nova geração de agentes de IA são gerados, eles só herdam os traços físicos e arquitetônicos de seus pais (juntamente com pequenas mutações). Nenhum dos parâmetros aprendidos são passados através de gerações.

Simulando evolução da Inteligência Artificial

Para sua estrutura, os pesquisadores usaram <strong><span style="color:#0693e3"><a href="https://bdtechtalks.com/2021/10/22/deepmind-mujoco-robotics-research/" rel="external nofollow noopener" style="background-color:transparent; color:inherit" target="_blank">o MuJoCo</a></span></strong>, um ambiente virtual que fornece simulação de física de corpo rígido altamente precisa. Seu espaço de design é chamado de<span> </span><strong>AniMAL UNIversal (UNIMAL),</strong><span> </span>no qual o objetivo é criar morfologias que aprendam tarefas de locomoção e manipulação de objetos em uma variedade de terrenos. </p> <p style="background-color:#ffffff; color:#000000; font-size:21px; text-align:start"> Cada agente no ambiente é composto por um genótipo que define seus membros e articulações. O descendente direto de cada agente herda o genótipo do pai e passa por mutações que podem criar novos membros, remover membros existentes ou fazer pequenas modificações em características como os graus de liberdade ou o tamanho dos membros. </p> <p style="background-color:#ffffff; color:#000000; font-size:21px; text-align:start"> Cada agente é treinado com aprendizado reforçado para maximizar recompensas em diversos ambientes. A tarefa mais básica é a locomoção, na qual o agente é recompensado pela distância que percorre durante um episódio. Agentes cuja estrutura física é mais adequada para atravessar terrenos aprendem mais rápido a usar seus membros para se locomover. </p> <p style="background-color:#ffffff; color:#000000; font-size:21px; text-align:start"> Para testar os resultados do sistema, os pesquisadores geraram agentes em três tipos de terrenos: plano (FT), variável (VT) e terrenos variáveis com objetos modificáveis (MVT). O terreno plano coloca a menor pressão de seleção sobre a morfologia dos agentes. Os terrenos variáveis, por outro lado, forçam os agentes a desenvolver uma estrutura física mais versátil que possa subir encostas e se mover em obstáculos. A variante MVT tem o desafio adicional de exigir que os agentes manipulem objetos para alcançar seus objetivos. </p> <h2 style="background-color:#ffffff; color:#000000; font-size:30px; text-align:start"> Os benefícios do DERL<br /> </h2> <figure style="background-color:#ffffff; color:#000000; font-size:14px; text-align:start"> <img decoding="async" alt="Os benefícios do DERL" data-ratio="75.08" style="border-radius: inherit; border: none; vertical-align: middle; height: auto;" width="999" data-src="https://cdn0.tnwcdn.com/wp-content/blogs.dir/1/files/2021/10/DERL-morphology-variety.jpg" src="<___base_url___>/applications/core/interface/js/spacer.png”><figcaption> Crédito: <a href="https://bdtechtalks.com/2021/10/25/stanford-deep-evolutionary-reinforcement-learning/" rel="external nofollow noopener" style="background-color:transparent; color:inherit" target="_blank">Ben Dickson / TechTalks</a><br /> </figcaption></figure> <p style="background-color:#ffffff; color:#000000; font-size:21px; text-align:start"> Um dos achados interessantes do DERL é a diversidade dos resultados. Outras abordagens para a IA evolutiva tendem a convergir em uma solução porque novos agentes herdam diretamente o físico e os aprendizados de seus pais. Mas no DERL, apenas dados morfológicos são passados aos descendentes, o sistema acaba criando um conjunto diversificado de morfologias bem sucedidas, incluindo bipeds, tripulos e quadrúpedes com e sem braços. </p> <p style="background-color:#ffffff; color:#000000; font-size:21px; text-align:start"> Ao mesmo tempo, o sistema mostra traços do <a href="https://en.wikipedia.org/wiki/Baldwin_effect" rel="external nofollow noopener" style="background-color:transparent; color:inherit" target="_blank">efeito Baldwin</a><a href="https://en.wikipedia.org/wiki/Baldwin_effect" rel="external nofollow noopener" style="background-color:transparent; color:inherit" target="_blank">,</a>o que sugere que agentes que aprendem mais rápido são mais propensos a se reproduzir e passar seus genes para a próxima geração. A DERL mostra que a evolução “seleciona para alunos mais rápidos sem qualquer pressão de seleção direta para fazê-lo”, de acordo com o artigo de Stanford. </p> <figure style="background-color:#ffffff; color:#000000; font-size:14px; text-align:start"> <img decoding="async" alt="Agentes treinados no DERL são avaliados em uma variedade de tarefas" data-ratio="35.20" style="border-radius: inherit; border: none; vertical-align: middle; height: auto;" width="1000" data-src="https://cdn0.tnwcdn.com/wp-content/blogs.dir/1/files/2021/10/DERL-evaluation-tasks.jpg" src="<___base_url___>/applications/core/interface/js/spacer.png”><figcaption> Agentes treinados no DERL são avaliados em uma variedade de tarefas<br /> </figcaption></figure> <p style="background-color:#ffffff; color:#000000; font-size:21px; text-align:start"> Por fim, o quadro DERL também valida a hipótese de que ambientes mais complexos darão origem a agentes mais inteligentes. Os pesquisadores testaram os agentes evoluídos em oito tarefas diferentes, incluindo patrulhamento, fuga, manipulação de objetos e exploração. Seus achados mostram que, em geral, os agentes que evoluíram em terrenos variáveis aprendem mais rápido e têm um desempenho melhor do que os agentes de IA que apenas experimentaram terreno plano. </p> <p style="background-color:#ffffff; color:#000000; font-size:21px; text-align:start"> Suas descobertas parecem estar em consonância com outra <a href="https://bdtechtalks.com/2021/06/07/deepmind-artificial-intelligence-reward-maximization/" rel="external nofollow noopener" style="background-color:transparent; color:inherit" target="_blank">hipótese dos pesquisadores do DeepMind </a>de que um ambiente complexo, uma estrutura de recompensa adequada e um aprendizado reforçado podem eventualmente levar ao surgimento de todos os tipos de comportamentos inteligentes. </p> <h2 style="background-color:#ffffff; color:#000000; font-size:30px; text-align:start"> Pesquisa de IA e robótica<br /> </h2> <figure style="background-color:#ffffff; color:#000000; font-size:14px; text-align:start"> <div> <iframe allow="accelerometer; autoplay; clipboard-write; encrypted-media; gyroscope; picture-in-picture" allowfullscreen="" frameborder="0" height="360" id="ips_uid_9201_11" loading="lazy" src="<___base_url___>/applications/core/interface/index.html” style=”border:none” title=”Embodied Intelligence via Learning and Evolution” width=”640″ data-embed-src=”https://www.youtube.com/embed/MMrIiNavkuY?feature=oembed”>

O ambiente DERL só tem uma fração das complexidades do mundo real. “Embora o DERL nos permita dar um passo significativo na escala da complexidade dos ambientes evolutivos, uma importante linha de trabalho futuro envolverá a concepção de ambientes evolutivos mais abertos, fisicamente realistas e multi-agentes”, escrevem os pesquisadores.

No futuro, os pesquisadores expandirão o leque de tarefas de avaliação para avaliar melhor como os agentes podem melhorar sua capacidade de aprender comportamentos relevantes para o homem.

O trabalho pode ter implicações importantes para o futuro da IA e da robótica e pressionar os pesquisadores a usar métodos de exploração muito mais semelhantes à evolução natural.

Este artigo foi originalmente publicado por Ben Dickson no TechTalks, uma publicação que examina tendências em tecnologia, como elas afetam a maneira como vivemos e fazemos negócios, e os problemas que eles resolvem. Mas também discutimos o lado maligno da tecnologia, as implicações mais sombrias da nova tecnologia, e o que precisamos olhar para fora.

A Inteligência Artificial está aprendendo a evoluir como formas de vida terrestre.

Evolução é difícil de simular.

Aprendizado de reforço

Simulando evolução da Inteligência Artificial

Você pode gostar também

Como descobrir quem é o dono de um número de celular

Como programar uma IA (inteligência artificial)?

Como os hackers obtêm suas informações

Leia a seguir

LGPD – Administração Pública e o Uso de Dados

Entenda o que faz o mercado brasileiro de aplicativos estar em alta