O novo modelo de IA da Anthropic e seus riscos potenciais
Em 2019, quando a OpenAI finalizou o treinamento de um modelo de linguagem de grande escala denominado GPT-2, o laboratório de inteligência artificial inicialmente declarou que ele era excessivamente perigoso para um lançamento público. Dario Amodei, na época diretor de pesquisa da companhia, argumentou que o mundo precisava de mais tempo para se preparar.
Contudo, o modelo foi disponibilizado ainda naquele mesmo ano. Uma série de sistemas muito mais avançados foi desenvolvida desde então, sem que isso levasse a um cenário catastrófico. Sete anos mais tarde, Amodei, agora líder da Anthropic, uma rival direta da OpenAI, volta a expressar preocupação.
Na última terça-feira, ele afirmou que o mais recente modelo da família Claude, chamado “Mythos”, é poderoso demais para ser liberado amplamente no momento. Desta vez, ele pode ter razão.
De acordo com a Anthropic, as capacidades do Mythos são “substancialmente superiores às de qualquer modelo que já treinamos”. A empresa demonstra especial apreensão com a habilidade do sistema de identificar vulnerabilidades em softwares e corrigi-las, se configurado como defensor, ou explorá-las, se agindo como um invasor.
Normalmente, tais alegações seriam recebidas com ceticismo. A Anthropic construiu o modelo, conduziu os testes internos e tem interesse em promover a percepção de que seu sistema é significativamente mais avançado. A empresa tem experimentado um momento positivo. Pouco antes do anúncio do Mythos, divulgou que sua receita anualizada atingiu US$ 30 bilhões, um salto em relação aos US$ 9 bilhões do final do ano anterior. Naturalmente, há o desejo de manter esse crescimento.
Entretanto, existem motivos para considerar os alertas com seriedade. O primeiro é a gravidade das constatações: a Anthropic relata que o Mythos já detectou falhas críticas em “todos os principais sistemas operacionais e navegadores da web”, incluindo uma que permaneceu oculta por 27 anos.
O segundo motivo é a reação de outras organizações do setor. Paralelamente aos avisos, a Anthropic lançou o Projeto Glasswing, uma iniciativa para auxiliar empresas a utilizarem o Mythos para fortalecer suas defesas cibernéticas antes de um lançamento geral. A adesão de desenvolvedores de software de elite —como Apple, Linux Foundation e CrowdStrike, além do Google, que compete com a Anthropic no campo da IA— indica que a ameaça é considerada genuína.
A estratégia de Amodei para mitigar riscos parece prudente. Com uma vantagem inicial, as companhias podem empregar o Mythos para examinar códigos inéditos em busca de brechas e solucioná-las antes da publicação. Ainda assim, a Anthropic também se beneficia do Projeto Glasswing. O laboratório cobrirá os primeiros US$ 100 milhões em custos relacionados ao uso do modelo na iniciativa. Posteriormente, contudo, cobrará dos participantes um valor cinco vezes maior para utilizar o Mythos em comparação com seu antecessor, o Opus.
Este pode ser um custo justificável. Os concorrentes da Anthropic provavelmente criarão modelos com habilidades de invasão semelhantes em algum momento. Outros laboratórios de ponta, como OpenAI e Google, possuem suas próprias políticas de lançamento. No entanto, iniciativas de código aberto, especialmente aquelas baseadas na China, costumam dar menos prioridade a questões de segurança.
Hackers não são os únicos que podem se sentir incomodados com o projeto. O governo dos Estados Unidos há tempos busca explorar fragilidades nas defesas cibernéticas de adversários. Essa prática envolve acumular vulnerabilidades não reveladas, inclusive em softwares americanos utilizados globalmente, para aproveitar as brechas em momentos estratégicos. Se o Projeto Glasswing for bem-sucedido, ele poderia neutralizar muitas das ferramentas cibernéticas mantidas pelos EUA.
Isso certamente desagradaria a Pete Hegseth, secretário de Defesa norte-americano, que recentemente classificou a Anthropic como um risco para a cadeia de suprimentos, após um desacordo entre a empresa e o Pentágono sobre limites para o uso militar de sua IA. Amodei pode continuar a ser uma fonte de contrariedade para ele.







