攻撃者は意図された速度より速くデータにアクセスするためにWebスクレイピングツールを使用することがあります。 この結果データの不正使用につながる可能性があります。
この記事を読み終えると、以下のことができるようになります。
関連コンテンツ
是非、Cloudflareが毎月お届けする「theNET」を購読して、インターネットで最も人気のある洞察をまとめた情報を入手してください!
記事のリンクをコピーする
データスクレイピングは、最も一般的な形態では、コンピュータプログラムが別のプログラムにより生成された出力からデータを抽出するテクニックを指します。データスクレイピングは、一般にWebスクレイピング(Webサイトから価値ある情報を抽出するためにアプリケーションを使用する過程)で明白となります。
スクレイパーボットは次のような多くの目的のために設計されます。
クロールとは、Googlebotなどのロボットクローラーをネットワークに送信してインターネットコンテンツのインデックスを作成するときに、Googleなどの大規模な検索エンジンが実行するプロセスのことです。一方、スクレイピングは通常、特定のWebサイトからデータを抽出するために特別に構成されています。
スクレイパーボットとWebクローラーボットの行動における3つの違いを次に示します。
誠実さ/透明性 | 高度な操作 | robots.txtを尊重する | |
スクレイパーボット | Webブラウザを装ってスクレイパーをブロックしようとします。 | 制限された情報にアクセスするために、フォームへの入力などの高度なアクションを実行できます。 | 通常、robots.txtを無視します。つまり、Webサイト所有者の希望に反して、明示的にコンテンツを引き寄せることができるということです。 |
クローラーボット | 自らの目的を示し、クローラーが本来とは異なる機能を持つとWebサイトに誤認させようとはしません。 | Webサイトの制限された部分へのアクセスは試行しません。 | robots.txtを尊重します。つまり、どのデータを解析しWebサイトのどのエリアを回避すべきか、Webサイトの所有者の希望に合わせることができます。 |
Webスクレイピングのプロセスはかなり単純ですが、実装は複雑になる場合があります。このプロセスを3つのステップにまとめることができます。
通常、企業は独自のコンテンツが不正な目的でダウンロードされ再利用されることを望まないため、消費可能なAPIやその他容易にアクセス可能なリソースを通じてすべてのデータを公開しないように努めることがあります。それに対して、スクレイパーボットはアクセスを限定しようとする試みをくぐり抜けてWebサイトのデータを得ようとします。その結果、Webスクレイピングボットとさまざまなコンテンツ保護戦略との間でいたちごっこが始まり、互いに相手の裏をかこうとします。
スマートなスクレイピング戦略にはスマートな軽減戦略が必要です。データスクレイピング作業への露出を制限する方法には、次のようなものがあります。
*ヘッドレスブラウザは、ChromeやFirefoxのようなWebブラウザの一種ですが、デフォルトでは視覚的なユーザーインターフェースを持たないため、通常のWebブラウザよりもはるかに高速に動作します。コマンドラインのレベルで作動することによって、ヘッドレスブラウザは、Webアプリケーション全体を表示しないようにすることができます。データスクレイパーは、ヘッドレスブラウザを使用してデータをより迅速に要求するボットを作成します。スクレイピングされる各ページを閲覧する人がいないためです。
Webスクレイピングを完全に阻止することを保証する唯一の方法は、Webサイトにコンテンツを一切掲載しないことです。しかしながら、高度なボット管理ソリューションを使用することで、Webサイトがスクレイパーボットのアクセスを除去するよう支援できる可能性があります。
Cloudflare Bot Managementは、機械学習と行動分析を使用し、悪意のあるスクレイピングアクティビティを特定し、独自のコンテンツを保護し、ボットがWebプロパティを悪用するのを防ぎます。同様に、Super Bot Fight Modeは、より小規模な組織が、スクレイパーやその他の悪意のあるボットの活動から防御できるように設計されており、ボットトラフィックをより詳細に可視化できます。