攻撃者は意図された速度より速くデータにアクセスするためにWebスクレイピングツールを使用することがあります。 この結果データの不正使用につながる可能性があります。
この記事を読み終えると、以下のことができるようになります。
関連コンテンツ
是非、Cloudflareが毎月お届けする「theNET」を購読して、インターネットで最も人気のある洞察をまとめた情報を入手してください!
記事のリンクをコピーする
データスクレイピングは、最も一般的な形式では、コンピュータープログラムが別のプログラムから生成された出力からデータを抽出する手法を指します。データスクレイピングは、一般に、Webスクレイピング(アプリケーションを使用してWebサイトから貴重な情報を抽出するプロセス)として顕在化します。
通常、会社は無許可の目的のために占有コンテンツがダウンロードされ再使用されることを望みません。その結果、消費可能なAPIやその他容易にアクセス可能なリソースによってデータすべてが露出しないようにしています。それに対して、スクレイパーボットはアクセスを限定しようとする試みをくぐり抜けてWebサイトのデータを得ようとします。その結果、Webスクレイピングボットとさまざまなコンテンツ保護戦略との間でいたちごっこが始まり、互いに相手の裏をかこうとします。
Webスクレイピングのプロセスはかなり単純ですが、実装は複雑になる場合があります。Webスクレイピングには3つのステップがあります。
スクレイパーボットは次のような多くの目的のために設計されます。
通常、Webサイト訪問者が見ることができるコンテンツはすべて訪問者のマシンに転送する必要があるので、訪問者がアクセスできる情報はすべてボットによってスクレイピングすることができます。
発生する可能性のあるWebスクレイピングの量を制限する努力をすることは可能です。データスクレイピング作業への露出を制限する3つの方法を次に示します
もう1つのあまり一般的ではない軽減方法は、画像などのメディアオブジェクト内にコンテンツを埋め込むことです。コンテンツが文字列として存在しないため、コンテンツのコピーははるかに複雑で、画像ファイルからデータを引き出すために光学式文字認識(OCR)が必要です。しかし、これにより、住所や電話番号などのコンテンツを記憶したり再入力したりするのではなく、Webサイトからコピーする必要があるWebユーザーの妨げにもなります。
*ヘッドレスブラウザは、ChromeやFirefoxによく似たWebブラウザの一種ですが、デフォルトでは視覚的なユーザーインターフェイスを持たないため、通常のWebブラウザよりもはるかに高速に動作できます。基本的にコマンドラインレベルで実行されるため、ヘッドレスブラウザはWebアプリケーション全体のレンダリングを回避できます。データスクレイパーは、スクレイピングされている各ページを見る人がいないため、ヘッドレスブラウザを使用するボットを作成してデータをより迅速に要求しようとします。
Webスクレイピングを完全に阻止する唯一の方法は、コンテンツをWebサイトに一切配置しないことです。ですが、高度なボット管理ソリューションを使用することで、Webサイトがスクレイパーボットのアクセスをほとんど完全に排除するよう支援できる可能性があります。
クロールとは、Googlebotなどのロボットクローラーをネットワークに送信してインターネットコンテンツのインデックスを作成するときに、Googleなどの大規模な検索エンジンが実行するプロセスのことです。一方、スクレイピングは通常、特定のWebサイトからデータを抽出するために特別に構成されています。
Webクローラーボットの振る舞いとは異なるスクレイパーボットの3つの挙動があります。
Cloudflare Bot Managementは、機械学習と行動分析を使用し、悪意のあるボットを識別して、スクレイピングなどから独自コンテンツを保護したりボットによるWebプロパティの悪用を防止します。同様に、Cloudflare ProプランとBusinessプランでご利用いただけるSuper Bot Fight Modeは、より小規模な組織が、スクレイパーやその他の悪質ボットからの攻撃に備え、ボットトラフィックを視覚化できるようにします。