What is AI data poisoning?

AI data poisoning is a deliberate attempt to bias an AI model’s training data so that it produces dangerous or inaccurate results. Someone might, for example, alter an AI model's data so that it lies to or tricks its users. AI data poisoning is of particular concern for large language models (LLMs), so it is important for AI developers to carefully safeguard and vet their training data.

How does data poisoning affect AI models?

By introducing slight changes to training data, an attacker can significantly alter an AI model’s outputs — just as a math problem will lead to a different answer if the initial values change (e.g. "3 + 3 = 6" vs. "3 + 4 = 7"). A data-poisoned model will therefore perform differently from how its developers and users expect, and possibly give responses that benefit the attacker or put users at risk.

What are the main types of AI data poisoning attacks?

The primary data poisoning attack methods include backdoor poisoning, mislabeling, data injection, data manipulation, and availability attacks. Each type of data poisoning attack aims to bias or degrade AI model performance.

What are common attack vectors for AI data poisoning?

Attackers may use insider access, supply chain attacks via tainted external data, or unauthorized access to manipulate or corrupt training datasets.

What are the potential consequences of data poisoning?

Data poisoning can permanently alter a model’s output to favor the attacker. It can cause a model to produce propaganda or hate speech, make inaccurate recommendations, provide false data, or promote malware downloads.

What are some ways to prevent AI data poisoning?

To prevent AI data poisoning, protecting collections of training data from unauthorized alteration is crucial. Prevention methods include data validation, applying the principle of least privilege, using diverse data sources, monitoring and auditing data changes, and using adversarial training to get models to recognize misleading inputs.

O que é envenenamento de dados de IA?

O envenenamento de dados de IA é uma tentativa deliberada de tornar os dados de treinamento de um modelo de IA tendenciosos para que seus resultados saiam distorcidos.

Objetivos de aprendizado

Após ler este artigo, você será capaz de:

Explique como funciona um ataque de envenenamento de dados de IA
Descreva os tipos de ataques de envenenamento de dados de IA e LLM
Liste os métodos de prevenção de envenenamento de dados

Conteúdo relacionado

O que é inteligência artificial (IA)?

O que é aprendizado de máquina?

O que é um LLM?

Inferência de IA versus treinamento

Top 10 do OWASP para LLMs

Quer saber mais?

Assine o theNET, uma recapitulação mensal feita pela Cloudflare dos insights mais populares da internet.

Copiar o link do artigo

Resumo do artigo:

O envenenamento de dados envolve a injeção de informações maliciosas em conjuntos de dados de treinamento para manipular o comportamento de um modelo de IA, comprometendo a precisão, a confiabilidade e a integridade geral dos resultados do aprendizado de máquina.
Os invasores utilizam o envenenamento de dados de IA para criar backdoors ou vieses de saída, permitindo que escapem de filtros de segurança ou façam com que o sistema faça previsões específicas e incorretas.
A proteção contra envenenamento de dados exige uma higienização rigorosa dos dados, verificação das fontes de treinamento e implementação de monitoramento contínuo para detectar e neutralizar entradas adversárias antes que corrompam o modelo.

O que é envenenamento de dados de IA?

Um envenenamento de dados de inteligência artificial (IA) ocorre quando um invasor manipula os resultados de um modelo de IA ou aprendizado de máquina alterando seus dados de treinamento. O objetivo do invasor em um ataque de envenenamento de dados de IA é fazer com que o modelo produza resultados tendenciosos ou perigosos durante a inferência.

Os modelos de IA e aprendizado de máquina* têm dois ingredientes básicos: dados de treinamento e algoritmos. Pense em um algoritmo como sendo o motor de um automóvel e nos dados de treinamento como a gasolina que fornece ao motor algo para queimar: os dados fazem um modelo de IA funcionar. Um ataque de envenenamento de dados é como se alguém adicionasse à gasolina um aditivo que fizesse o carro funcionar mal.

As possíveis consequências do envenenamento de dados de IA se tornaram mais graves à medida que mais empresas e mais pessoas começaram a depender da IA em suas atividades diárias. Um ataque de envenenamento de dados de IA bem-sucedido pode alterar os resultados de um modelo em caráter permanente, de modo a favorecer a pessoa responsável pelo ataque.

Um envenenamento de dados de IA é particularmente preocupante para os modelos de linguagem grande (LLMs). O envenenamento de dados está listado entre os Top 10 do OWASP para LLMs e, nos últimos anos, os pesquisadores vêm alertando sobre as vulnerabilidades do envenenamento de dados que afetam os modelos do setor de saúde, de geração de código e de geração de texto.

* O "Aprendizado de máquina" e a "inteligência artificial" são às vezes utilizados de forma intercambiável, embora os dois termos se refiram a conjuntos de recursos computacionais ligeiramente diferentes. No entanto, o aprendizado de máquina é um tipo de IA.

Como funciona um ataque de envenenamento de dados?

Os desenvolvedores de IA usam grandes quantidades de dados para treinar seus modelos. Essencialmente, o conjunto de dados de treinamento fornece exemplos aos modelos e, a seguir, os modelos aprendem a generalizar a partir desses exemplos. Quanto mais exemplos existirem no conjunto de dados, mais refinado e mais preciso o modelo se tornará — desde que os dados estejam corretos e sejam relativamente imparciais.

O envenenamento de dados torna o conjunto de dados de treinamento propositalmente tendencioso, alterando o ponto de partida dos algoritmos do modelo de forma que seus resultados sejam diferentes dos pretendidos por seus desenvolvedores originalmente.

Imagine que uma professora escreva um problema de matemática em um quadro-negro para seus alunos resolverem, por exemplo, "47 * (18 + 5) = ?". A resposta é 1.081. Mas se um aluno se esgueirar por trás dela e alterar "47" para "46", a resposta não será mais 1.081, mas 1.058. Ataques de envenenamento de dados são como esse aluno sorrateiro: se os dados iniciais mudarem ligeiramente, a resposta também será alterada.

Como acontecem os ataques de envenenamento de dados de IA?

Alterações não autorizadas nos dados de treinamento podem ser provenientes de várias fontes.

Ataques internos: alguém com acesso legítimo aos dados de treinamento poderia introduzir dados falsos, tornar os dados tendenciosos ou efetuar outras alterações que possam corromper os resultados. Esses ataques são mais difíceis de detectar e deter do que os ataques efetuados por um terceiro externo, sem acesso autorizado aos dados.

Ataque à cadeia de fornecimento: a maioria dos modelos de IA e aprendizado de máquina dependem de conjuntos de dados provenientes de várias fontes para treinar seus modelos. Uma ou mais dessas fontes poderiam conter dados "envenenados" que afetariam qualquer modelo que usasse esses dados para treinamento e modelos de ajuste fino.

Acesso não autorizado: existem várias maneiras de um invasor obter acesso a um conjunto de dados de treinamento, incluindo usar movimento lateral por meio de um comprometimento anterior, obter as credenciais de um desenvolvedor usando phishing e diversos outros ataques que possam ocorrer.

Quais são as duas principais categorias de ataques de envenenamento de dados?

Ataques diretos (ou focados): esses ataques visam distorcer ou alterar os resultados de um modelo apenas em resposta a consultas ou ações específicas. Um ataque como esse deixaria um modelo praticamente inalterado, fornecendo as respostas esperadas para quase todas as consultas. Por exemplo, um invasor poderia querer enganar um filtro de segurança de e-mail baseado em IA para permitir a entrada de determinados URLs mal-intencionados, enquanto todo o resto continuaria funcionando conforme o esperado.
Ataques indiretos (ou não focados): esses ataques visam afetar o desempenho de um modelo de modo geral. Um ataque indireto poderia ter como objetivo simplesmente tornar o desempenho do modelo como um todo mais lento ou torná-lo tendencioso no sentido de dar tipos de resposta específicos. Um adversário estrangeiro, por exemplo, poderia querer tornar os LLMs de uso geral tendenciosos no sentido de fornecer informações falsas dentro de um determinado país para fins de propaganda política.

Quais são os tipos de ataques de envenenamento de dados de IA?

Existem várias maneiras de um invasor envenenar os dados de um modelo de IA para seus próprios fins. Algumas das técnicas mais importantes que você precisa conhecer incluem:

Envenenamento de backdoor: esse ataque introduz uma vulnerabilidade oculta de forma que, em resposta a certos gatilhos específicos conhecidos pelo invasor, o modelo se comporte de maneira insegura. O envenenamento de backdoor é particularmente perigoso porque, nas demais situações, um modelo de IA com um backdoor oculto se comportaria normalmente.
Rotulagem incorreta: um invasor poderia alterar a forma como os dados são rotulados dentro do conjunto de dados de treinamento de um modelo, levando o modelo a identificar alguns itens incorretamente após ter sido treinado.
Injeção e manipulação de dados: um ataque como esse iria alterar, adicionar ou remover dados de um conjunto de dados. Esses ataques visam tornar o modelo de IA tendencioso em uma determinada direção.
Ataque de disponibilidade: esse ataque visa paralisar o modelo ou torná-lo mais lento por meio da injeção de dados que degradam seu desempenho de modo geral.

Como evitar o envenenamento de dados

Validação de dados: antes do treinamento, os conjuntos de dados devem ser analisados para identificar dados mal-intencionados, suspeitos ou atípicos.

Princípio do menor privilégio: em outras palavras, somente as pessoas e sistemas com uma necessidade absoluta de acesso aos dados de treinamento devem obtê-lo. O princípio do menor privilégio é um fundamento básico de uma abordagem de segurança Zero Trust, o que pode ajudar a evitar o movimento lateral e o comprometimento de credenciais.

Fontes de dados diversificadas: extrair dados de uma variedade mais ampla de fontes de dados pode ajudar a reduzir o impacto de tornar um determinado conjunto de dados tendencioso.

Monitoramento e auditoria: acompanhar e registrar quem alterou os dados de treinamento, o que foi alterado e quando foi alterado permite que os desenvolvedores identifiquem padrões suspeitos ou rastreiem a atividade de um invasor após o conjunto de dados ter sido envenenado.

Treinamento adversarial: gira em torno de treinar um modelo de IA para reconhecer entradas de dados intencionalmente enganosas.

Outras medidas de defesa de aplicativos, como firewalls, também podem ser aplicadas aos modelos de IA. Para evitar o envenenamento de dados e outros ataques, a Cloudflare oferece o AI Security for Apps, que pode ser implantado na frente dos LLMs para identificar e bloquear violações antes que os modelos sejam atingidos. Saiba mais sobre AI Security for Apps.

Perguntas frequentes

O que é envenenamento de dados de IA?

O envenenamento de dados de IA é uma tentativa deliberada de distorcer os dados de treinamento de um modelo de IA para que ele produza resultados perigosos ou imprecisos. Alguém pode, por exemplo, alterar os dados de um modelo de IA para que ele minta ou engane seus usuários. O envenenamento de dados de IA é uma preocupação específica para os grandes modelos de linguagem (LLMs), por isso é importante que os desenvolvedores de IA protejam e verifiquem cuidadosamente seus dados de treinamento.

Como o envenenamento de dados afeta os modelos de IA?

Ao introduzir pequenas alterações nos dados de treinamento, um invasor pode alterar significativamente os resultados de um modelo de IA, assim como um problema de matemática levará a uma resposta diferente se os valores iniciais mudarem (p. ex., "3 + 3 = 6" vs. "3 + 4 = 7"). Um modelo com dados envenenados, portanto, terá um desempenho diferente do que seus desenvolvedores e usuários esperam e, possivelmente, dará respostas que beneficiem o invasor ou coloquem os usuários em risco.

Quais são os principais tipos de ataques de envenenamento de dados de IA?

Os principais métodos de ataques de envenenamento de dados incluem envenenamento de backdoor, rotulagem incorreta, injeção de dados, manipulação de dados e ataques de disponibilidade. Cada tipo de ataque de envenenamento de dados tem como objetivo distorcer ou degradar o desempenho do modelo de IA.

Quais são os vetores de ataques comuns para o envenenamento de dados de IA?

Os atacantes podem utilizar acesso interno, ataques à cadeia de suprimentos através de dados externos comprometidos, ou acesso não autorizado para manipular ou corromper conjuntos de dados de treinamento.

Quais são as possíveis consequências do envenenamento de dados?

O envenenamento de dados pode alterar permanentemente a saída de um modelo para favorecer o invasor. Isso pode fazer com que um modelo produza propaganda ou discurso de ódio, faça recomendações imprecisas, forneça dados falsos ou promova downloads de malware.

Quais são algumas maneiras de evitar o envenenamento de dados de IA?

Para evitar o envenenamento de dados de IA, é essencial proteger as coleções de dados de treinamento contra alterações não autorizadas. Os métodos de prevenção incluem validação de dados, aplicação do princípio do menor privilégio, uso de diversas fontes de dados, monitoramento e auditoria de alterações de dados e uso de treinamento adversarial para fazer com que os modelos reconheçam entradas enganosas.

COMECE A USAR

Inteligência artificial

Aprendizado de máquina

Big data

Central de Aprendizagem