コンテンツスクレイピングとは?| Webスクレイピング

コンテンツスクレーピングやWebスクレイピングは、ボットがWebサイトからすべてのコンテンツを、ダウンロードしたり「スクレイピング」することで、多くの場合そのコンテンツを悪意をもって使用するためです。

学習目的

この記事を読み終えると、以下のことができるようになります。

  • コンテンツスクレイピングとは何か学ぶ
  • Webスクレイピングボットの仕組みを理解する
  • 攻撃者がコンテンツをスクレイピングする理由を説明する
  • コンテンツのスクレイピングを止める方法を学ぶ

記事のリンクをコピーする

コンテンツスクレイピングとは?

The OSI Model

コンテンツスクレイピング、またはWebスクレイピングとは、Webサイトの所有者の希望に関係なく、ボットがWebサイト上のコンテンツの多くまたはすべてをダウンロードすることを指します。コンテンツスクレイピングは、データスクレイピングの一種です。基本的には、常に自動化されたボットによって実行されます。Webサイトスクレイパーボットは、Webサイト上のすべてのコンテンツを数秒でダウンロードできる場合があります。

コンテンツスクレイピングボットは、攻撃者が所有するWebサイトでSEOのコンテンツを複製する、著作権を侵害する、オーガニックトラフィックを盗むなど、悪意のある目的でコンテンツを再利用するためによく使用されます。コンテンツスクレイピングには、別のゲート付きのコンテンツにアクセスするためのフォームへの入力と送信が含まれる場合があり、副産物として会社のデータベースにジャンクデータが作成されます。さらに、ボットからのHTTPリクエストを実行すると、そうでなければ人間のユーザー専用のサーバーリソースを占有します。

ボットはどのようにコンテンツをスクレイピングするか?

Webサイトスクレイパーボットは、通常、一連のHTTP GETリクエストを送信し、Webサーバーが応答として送信するWebサイトの階層を通過して、すべての情報を複製して保存します。

より洗練されたスクレイパーボットは、JavaScriptを使用して、たとえば、Webサイト上のすべてのフォームに入力し、ゲート付きのコンテンツをダウンロードできます。「ブラウザの自動化」プログラムおよびAPIにより、従来のWebブラウザを使用しているかのように自動化ボットがWebサイトおよびAPIと対話することができ、Webサイトのサーバーをだまして人間のユーザーがコンテンツにアクセスしているように見せかけようとします。

もちろん、個人が代わりにWebサイト全体を手動でコピーして貼り付けることもできますが、ボットは、数百または数千の個別の製品ページがある電子商取引サイトなどの大規模なサイトであっても、Webサイト上のすべてのコンテンツをものの数秒でクロールしてダウンロードすることができます。

コンテンツスクレイピングボットはどのようなコンテンツをターゲットにしますか?

ボットは、テキスト、画像、HTMLコード、CSSコードなど、インターネット上に公開されているものをすべてスクレイピングできます。攻撃者は、スクレイピングされたデータをさまざまな目的に使用できます。テキストを別のWebサイトで再利用して、最初のWebサイトの検索エンジンランキングを盗んだり、ユーザーをだますことができます。攻撃者は、WebサイトのHTMLおよびCSSコードを使用して、正当なWebサイトの外観または別の会社のブランディングを複製する可能性があります。サイバー犯罪者は、盗まれたコンテンツを使用して、 フィッシング Webサイトを作成し、別のWebサイトの実際のバージョンのように見せかけてユーザーをだまし、個人データを入力させます。

他にどんな種類のウェブスクレイピングがありますか?

連絡先スクレイピング

これは、電話番号やメールアドレスなどの連絡先情報についてWebサイトをスキャンし、その情報をダウンロードすることを指します。メール収集ボットは、通常スパムの新しいターゲットを見つける目的で、メールアドレスに特化してターゲットとするスクレイパーボットの一種です。

価格スクレイピング

これは、ある会社が競合会社のWebサイトからすべての価格情報をダウンロードし、それに応じて独自の価格を調整するような場合です。

データスクレイピングとは?を参照してください。

企業はどのようにしてWebスクレイピングを防止できますか?

ボット管理ソリューションは、多くの場合、機械学習の助けを借りて、ボットの行動パターンを識別し、ボットスクレイピングアクティビティを軽減できます。Rate Limitingもコンテンツスクレイピングの防止に役立ちます。実際のユーザーは数秒または数分で数百ページのコンテンツをリクエストする可能性は低く、そのように素早くリクエストをする「ユーザー」はおそらくボットです。CAPTCHAチャレンジも、ボットと実際のユーザーを選別するのに役立ちます。

Cloudflare Bot Management は、他の種類の悪意のあるトラフィックのボット緩和とともに、コンテンツスクレイピング攻撃をブロックするように設計されています。Rate LimitingやCAPTCHAソリューションとは異なり、機械学習ベースのCloudflare Bot Managementは、行動パターンに基づいてボットを識別できるため、ユーザーにとって摩擦が少なくなり、誤検知(ユーザーが誤ってボットとして識別される)も少なくなります。