O envenenamento de dados de IA é uma tentativa deliberada de tornar os dados de treinamento de um modelo de IA tendenciosos para que seus resultados saiam distorcidos.
Após ler este artigo, você será capaz de:
Conteúdo relacionado
O que é inteligência artificial (IA)?
O que é aprendizado de máquina?
O que é LLM? | Large Language Model
Inferência de IA versus treinamento
Top 10 do OWASP para LLMs
Assine o theNET, uma recapitulação mensal feita pela Cloudflare dos insights mais populares da internet.
Copiar o link do artigo
Um envenenamento de dados de inteligência artificial (IA) ocorre quando um invasor manipula os resultados de um modelo de IA ou aprendizado de máquina alterando seus dados de treinamento. O objetivo do invasor em um ataque de envenenamento de dados de IA é fazer com que o modelo produza resultados tendenciosos ou perigosos durante a inferência.
Os modelos de IA e aprendizado de máquina* têm dois ingredientes básicos: dados de treinamento e algoritmos. Pense em um algoritmo como sendo o motor de um automóvel e nos dados de treinamento como a gasolina que fornece ao motor algo para queimar: os dados fazem um modelo de IA funcionar. Um ataque de envenenamento de dados é como se alguém adicionasse à gasolina um aditivo que fizesse o carro funcionar mal.
As possíveis consequências do envenenamento de dados de IA se tornaram mais graves à medida que mais empresas e mais pessoas começaram a depender da IA em suas atividades diárias. Um ataque de envenenamento de dados de IA bem-sucedido pode alterar os resultados de um modelo em caráter permanente, de modo a favorecer a pessoa responsável pelo ataque.
Um envenenamento de dados de IA é particularmente preocupante para os modelos de linguagem grande (LLMs). O envenenamento de dados está listado entre os Top 10 do OWASP para LLMs e, nos últimos anos, os pesquisadores vêm alertando sobre as vulnerabilidades do envenenamento de dados que afetam os modelos do setor de saúde, de geração de código e de geração de texto.
* O "Aprendizado de máquina" e a "inteligência artificial" são às vezes utilizados de forma intercambiável, embora os dois termos se refiram a conjuntos de recursos computacionais ligeiramente diferentes. No entanto, o aprendizado de máquina é um tipo de IA.
Os desenvolvedores de IA usam grandes quantidades de dados para treinar seus modelos. Essencialmente, o conjunto de dados de treinamento fornece exemplos aos modelos e, a seguir, os modelos aprendem a generalizar a partir desses exemplos. Quanto mais exemplos existirem no conjunto de dados, mais refinado e mais preciso o modelo se tornará — desde que os dados estejam corretos e sejam relativamente imparciais.
O envenenamento de dados torna o conjunto de dados de treinamento propositalmente tendencioso, alterando o ponto de partida dos algoritmos do modelo de forma que seus resultados sejam diferentes dos pretendidos por seus desenvolvedores originalmente.
Imagine que uma professora escreva um problema de matemática em um quadro-negro para seus alunos resolverem, por exemplo, "47 * (18 + 5) = ?". A resposta é 1.081. Mas se um aluno se esgueirar por trás dela e alterar "47" para "46", a resposta não será mais 1.081, mas 1.058. Ataques de envenenamento de dados são como esse aluno sorrateiro: se os dados iniciais mudarem ligeiramente, a resposta também será alterada.
Alterações não autorizadas nos dados de treinamento podem ser provenientes de várias fontes.
Ataques internos: alguém com acesso legítimo aos dados de treinamento poderia introduzir dados falsos, tornar os dados tendenciosos ou efetuar outras alterações que possam corromper os resultados. Esses ataques são mais difíceis de detectar e deter do que os ataques efetuados por um terceiro externo, sem acesso autorizado aos dados.
Ataque à cadeia de fornecimento: a maioria dos modelos de IA e aprendizado de máquina dependem de conjuntos de dados provenientes de várias fontes para treinar seus modelos. Uma ou mais dessas fontes poderiam conter dados "envenenados" que afetariam qualquer modelo que usasse esses dados para treinamento e modelos de ajuste fino.
Acesso não autorizado: existem várias maneiras de um invasor obter acesso a um conjunto de dados de treinamento, incluindo usar movimento lateral por meio de um comprometimento anterior, obter as credenciais de um desenvolvedor usando phishing e diversos outros ataques que possam ocorrer.
Existem várias maneiras de um invasor envenenar os dados de um modelo de IA para seus próprios fins. Algumas das técnicas mais importantes que você precisa conhecer incluem:
Validação de dados: antes do treinamento, os conjuntos de dados devem ser analisados para identificar dados mal-intencionados, suspeitos ou atípicos.
Princípio do menor privilégio: em outras palavras, somente as pessoas e sistemas com uma necessidade absoluta de acesso aos dados de treinamento devem obtê-lo. O princípio do menor privilégio é um fundamento básico da abordagem de segurança Zero Trust, o que pode ajudar a evitar o movimento lateral e o comprometimento de credenciais.
Fontes de dados diversificadas: extrair dados de uma variedade mais ampla de fontes de dados pode ajudar a reduzir o impacto de tornar um determinado conjunto de dados tendencioso.
Monitoramento e auditoria: acompanhar e registrar quem alterou os dados de treinamento, o que foi alterado e quando foi alterado permite que os desenvolvedores identifiquem padrões suspeitos ou rastreiem a atividade de um invasor após o conjunto de dados ter sido envenenado.
Treinamento adversarial: gira em torno de treinar um modelo de IA para reconhecer entradas de dados intencionalmente enganosas.
Outras medidas de defesa de aplicativos, como firewalls, também podem ser aplicadas aos modelos de IA. Para evitar o envenenamento de dados e outros ataques, a Cloudflare oferece o Firewall para IA, que pode ser implantado na frente dos LLMs para identificar e bloquear o abuso antes que os modelos sejam atingidos. Saiba mais sobre o Firewall para IA.