O que é envenenamento de dados de IA?

O envenenamento de dados de IA é uma tentativa deliberada de tornar os dados de treinamento de um modelo de IA tendenciosos para que seus resultados saiam distorcidos.

Objetivos de aprendizado

Após ler este artigo, você será capaz de:

  • Explique como funciona um ataque de envenenamento de dados de IA
  • Descreva os tipos de ataques de envenenamento de dados de IA e LLM
  • Liste os métodos de prevenção de envenenamento de dados

Conteúdo relacionado


Quer saber mais?

Assine o theNET, uma recapitulação mensal feita pela Cloudflare dos insights mais populares da internet.

Consulte a política de privacidade da Cloudflare para saber como coletamos e processamos seus dados pessoais.

Copiar o link do artigo

O que é envenenamento de dados de IA?

Um envenenamento de dados de inteligência artificial (IA) ocorre quando um invasor manipula os resultados de um modelo de IA ou aprendizado de máquina alterando seus dados de treinamento. O objetivo do invasor em um ataque de envenenamento de dados de IA é fazer com que o modelo produza resultados tendenciosos ou perigosos durante a inferência.

Os modelos de IA e aprendizado de máquina* têm dois ingredientes básicos: dados de treinamento e algoritmos. Pense em um algoritmo como sendo o motor de um automóvel e nos dados de treinamento como a gasolina que fornece ao motor algo para queimar: os dados fazem um modelo de IA funcionar. Um ataque de envenenamento de dados é como se alguém adicionasse à gasolina um aditivo que fizesse o carro funcionar mal.

As possíveis consequências do envenenamento de dados de IA se tornaram mais graves à medida que mais empresas e mais pessoas começaram a depender da IA em suas atividades diárias. Um ataque de envenenamento de dados de IA bem-sucedido pode alterar os resultados de um modelo em caráter permanente, de modo a favorecer a pessoa responsável pelo ataque.

Um envenenamento de dados de IA é particularmente preocupante para os modelos de linguagem grande (LLMs). O envenenamento de dados está listado entre os Top 10 do OWASP para LLMs e, nos últimos anos, os pesquisadores vêm alertando sobre as vulnerabilidades do envenenamento de dados que afetam os modelos do setor de saúde, de geração de código e de geração de texto.

* O "Aprendizado de máquina" e a "inteligência artificial" são às vezes utilizados de forma intercambiável, embora os dois termos se refiram a conjuntos de recursos computacionais ligeiramente diferentes. No entanto, o aprendizado de máquina é um tipo de IA.

Como funciona um ataque de envenenamento de dados?

Os desenvolvedores de IA usam grandes quantidades de dados para treinar seus modelos. Essencialmente, o conjunto de dados de treinamento fornece exemplos aos modelos e, a seguir, os modelos aprendem a generalizar a partir desses exemplos. Quanto mais exemplos existirem no conjunto de dados, mais refinado e mais preciso o modelo se tornará — desde que os dados estejam corretos e sejam relativamente imparciais.

O envenenamento de dados torna o conjunto de dados de treinamento propositalmente tendencioso, alterando o ponto de partida dos algoritmos do modelo de forma que seus resultados sejam diferentes dos pretendidos por seus desenvolvedores originalmente.

Imagine que uma professora escreva um problema de matemática em um quadro-negro para seus alunos resolverem, por exemplo, "47 * (18 + 5) = ?". A resposta é 1.081. Mas se um aluno se esgueirar por trás dela e alterar "47" para "46", a resposta não será mais 1.081, mas 1.058. Ataques de envenenamento de dados são como esse aluno sorrateiro: se os dados iniciais mudarem ligeiramente, a resposta também será alterada.

Como acontecem os ataques de envenenamento de dados de IA?

Alterações não autorizadas nos dados de treinamento podem ser provenientes de várias fontes.

Ataques internos: alguém com acesso legítimo aos dados de treinamento poderia introduzir dados falsos, tornar os dados tendenciosos ou efetuar outras alterações que possam corromper os resultados. Esses ataques são mais difíceis de detectar e deter do que os ataques efetuados por um terceiro externo, sem acesso autorizado aos dados.

Ataque à cadeia de fornecimento: a maioria dos modelos de IA e aprendizado de máquina dependem de conjuntos de dados provenientes de várias fontes para treinar seus modelos. Uma ou mais dessas fontes poderiam conter dados "envenenados" que afetariam qualquer modelo que usasse esses dados para treinamento e modelos de ajuste fino.

Acesso não autorizado: existem várias maneiras de um invasor obter acesso a um conjunto de dados de treinamento, incluindo usar movimento lateral por meio de um comprometimento anterior, obter as credenciais de um desenvolvedor usando phishing e diversos outros ataques que possam ocorrer.

Quais são as duas principais categorias de ataques de envenenamento de dados?

  • Ataques diretos (ou focados): esses ataques visam distorcer ou alterar os resultados de um modelo apenas em resposta a consultas ou ações específicas. Um ataque como esse deixaria um modelo praticamente inalterado, fornecendo as respostas esperadas para quase todas as consultas. Por exemplo, um invasor poderia querer enganar um filtro de segurança de e-mail baseado em IA para permitir a entrada de determinados URLs mal-intencionados, enquanto todo o resto continuaria funcionando conforme o esperado.
  • Ataques indiretos (ou não focados): esses ataques visam afetar o desempenho de um modelo de modo geral. Um ataque indireto poderia ter como objetivo simplesmente tornar o desempenho do modelo como um todo mais lento ou torná-lo tendencioso no sentido de dar tipos de resposta específicos. Um adversário estrangeiro, por exemplo, poderia querer tornar os LLMs de uso geral tendenciosos no sentido de fornecer informações falsas dentro de um determinado país para fins de propaganda política.

Quais são os tipos de ataques de envenenamento de dados de IA?

Existem várias maneiras de um invasor envenenar os dados de um modelo de IA para seus próprios fins. Algumas das técnicas mais importantes que você precisa conhecer incluem:

  • Envenenamento de backdoor: esse ataque introduz uma vulnerabilidade oculta de forma que, em resposta a certos gatilhos específicos conhecidos pelo invasor, o modelo se comporte de maneira insegura. O envenenamento de backdoor é particularmente perigoso porque, nas demais situações, um modelo de IA com um backdoor oculto se comportaria normalmente.
  • Rotulagem incorreta: um invasor poderia alterar a forma como os dados são rotulados dentro do conjunto de dados de treinamento de um modelo, levando o modelo a identificar alguns itens incorretamente após ter sido treinado.
  • Injeção e manipulação de dados: um ataque como esse iria alterar, adicionar ou remover dados de um conjunto de dados. Esses ataques visam tornar o modelo de IA tendencioso em uma determinada direção.
  • Ataque de disponibilidade: esse ataque visa paralisar o modelo ou torná-lo mais lento por meio da injeção de dados que degradam seu desempenho de modo geral.

Como evitar o envenenamento de dados

Validação de dados: antes do treinamento, os conjuntos de dados devem ser analisados para identificar dados mal-intencionados, suspeitos ou atípicos.

Princípio do menor privilégio: em outras palavras, somente as pessoas e sistemas com uma necessidade absoluta de acesso aos dados de treinamento devem obtê-lo. O princípio do menor privilégio é um fundamento básico da abordagem de segurança Zero Trust, o que pode ajudar a evitar o movimento lateral e o comprometimento de credenciais.

Fontes de dados diversificadas: extrair dados de uma variedade mais ampla de fontes de dados pode ajudar a reduzir o impacto de tornar um determinado conjunto de dados tendencioso.

Monitoramento e auditoria: acompanhar e registrar quem alterou os dados de treinamento, o que foi alterado e quando foi alterado permite que os desenvolvedores identifiquem padrões suspeitos ou rastreiem a atividade de um invasor após o conjunto de dados ter sido envenenado.

Treinamento adversarial: gira em torno de treinar um modelo de IA para reconhecer entradas de dados intencionalmente enganosas.

Outras medidas de defesa de aplicativos, como firewalls, também podem ser aplicadas aos modelos de IA. Para evitar o envenenamento de dados e outros ataques, a Cloudflare oferece o Firewall para IA, que pode ser implantado na frente dos LLMs para identificar e bloquear o abuso antes que os modelos sejam atingidos. Saiba mais sobre o Firewall para IA.