I malintenzionati possono utilizzare degli strumenti di web scraping per accedere ai dati molto più rapidamente del previsto. Il risultato è che i dati potrebbero essere utilizzati per scopi non autorizzati.
Dopo aver letto questo articolo sarai in grado di:
Argomenti correlati
Cos'è lo scraping dei contenuti?
Cos'è un bot?
Cos'è la gestione dei bot?
Attacco brute-force
Cos'è un attacco di sottrazione e uso illecito delle credenziali?
Abbonati a theNET, il riepilogo mensile di Cloudflare sulle tematiche più discusse in Internet.
Copia link dell'articolo
Per scraping dei dati (più brevemente scraping), nella sua forma più generale, si intende una tecnica in cui un programma informatico estrae dei dati dall'output generato da un altro programma. Lo scraping si esplicita comunemente nel web scraping, che è il processo nel quale una applicazione estrae informazioni di valore da un sito web.
In genere le aziende non vogliono che i propri contenuti vengano scaricati e riutilizzati per scopi non autorizzati. Di conseguenza, tendono a non esporre tutti i propri dati tramite un'API o altre risorse facilmente accessibili. I bot di scraping, dall'altra parte, sono interessati a ottenere i dati dei siti web indipendentemente da eventuali tentativi di limitazione dell'accesso. Di conseguenza, i bot di web scraping e le diverse strategie di protezione dei contenuti sono costantemente impegnati a giocare al gatto col topo, nel tentativo di avere la meglio gli uni sugli altri.
Il processo del web scraping è abbastanza semplice, anche se la sua implementazione può essere notevolmente complicata. Il web scraping avviene in tre fasi:
Gli scraper possono essere progettati per vari scopi, come ad esempio:
In genere, tutti i contenuti che il visitatore di un sito Web è in grado di vedere devono essere trasferiti sull'apparecchio del visitatore, e qualsiasi informazione a cui un visitatore ha accesso può essere raccolta da un bot.
È possibile mettere in atto delle strategie per limitare il volume di web scraping che si subisce. Ecco tre metodi per contenere l'esposizione ai tentativi di scraping:
Un altro metodo di mitigazione, meno diffuso, prevede l'incorporazione dei contenuti all'interno di oggetti multimediali, come ad esempio immagini. Poiché il contenuto non esiste in una stringa di caratteri, copiarlo diviene molto più complicato, e per l'estrazione dei dati dall'immagine è necessario il riconoscimento ottico dei caratteri (OCR). Questo metodo tuttavia può rappresentare un intralcio per quegli utenti che hanno necessità di copiare da un sito Web contenuti quali numeri di telefono o indirizzi, invece di memorizzarli o di ricopiarli.
*Un browser "headless" è un tipo di browser di navigazione, del tutto simile a Chrome o Firefox, che tuttavia non è provvisto di un'interfaccia utente grafica predefinita. Ciò gli consente di spostarsi molto più velocemente rispetto a un normale browser. Dal momento che a tutti gli effetti viene eseguito a livello di comando, un browser headless è in grado di evitare di generare intere applicazioni web. Gli scraper di dati scrivono bot che impiegano browser headless per richiedere i dati più rapidamente, dato che non c'è nessuno che visualizzi ogni pagina sottoposta a scraping.
L'unico modo per fermare completamente il web scraping è evitare di inserire contenuti in un sito web. L'impiego di una soluzione avanzata di gestione dei bot, tuttavia, può aiutare i siti Web a bloccare quasi del tutto l'accesso agli scraper.
Crawling refers to the process large search engines like Google undertake when they send their robot crawlers, such as Googlebot, out into the network to index Internet content. Scraping, on the other hand, is typically structured specifically to extract data from a particular website.
Di seguito presentiamo tre delle attività effettuate da un bot di scraping che differiscono dal comportamento di un bot di crawling:
Cloudflare Bot Management uses machine learning and behavioral analysis to identify malicious bots such as scrapersprotecting unique content and preventing bots from abusing a web property. Similarly, Super Bot Fight Mode, now available on Cloudflare Pro and Business plans, is designed to help smaller organizations defend against scrapers and other bad bots while giving them more visibility into their bot traffic.