マウスフロー > UI改善ブログ > 【公式】最新の翻訳記事 > ウェブ解析におけるデータサンプリング：長所と短所

ウェブ解析におけるデータサンプリング：長所と短所

2023年10月26日

※これはMouseflowからの翻訳転載です。配信元または著者の許可を得て配信しています。

Data Sampling in Web Analytics: Pros and Cons

サンプリングするかしないか、それが問題です。データサンプリングは、ウェブサイト分析において常にホットな話題です。それは良いことなのか、悪いことなのか？役に立つのか、それとも問題を引き起こすのか？それとも両方でしょうか？

この記事では、データサンプリングについて深く掘り下げ、その長所と短所、およびウェブサイト分析にサンプリングを使うべきかどうかを考えてみましょう。

データサンプリング

データサンプリングとは、母集団全体を表すために、より大きなデータセットからデータのサブセット（サンプル）を選択する手法です。セット全体のデータをすべて分析するのではなく、このサンプルがデータセット全体の特性を反映することを期待して、ほんの一部だけを確認します。これは通常、時間と労力を節約するために行われます。

リンゴの木箱があると仮定しましょう。リンゴをひとつひとつ検査して虫食いがあるかどうかを判断する代わりに、例えば10個のリンゴをランダムに選択できます。疑わしい穴がない場合、一定の確率で虫の入っていない良質なリンゴの木箱があると結論付けることが可能です。クレート全体を調べるよりも簡単でしたね。

その確率はさまざまな要因に左右されますが、主な要因は次の2つです。

サンプルサイズ：母集団全体と比較して、サンプルはどのくらいの大きさですか？木箱に100個のリンゴが入っている場合、5個を検査するよりも20個を検査した方がより詳しい情報が得られます。サンプルサイズが大きければ大きいほど誤差は少なくなりますが、その分処理にかかる労力は増加します。100個の中から90個のリンゴを選んで検査するのは、100個すべてを検査するのとほとんど変わりません。
サンプリング方法：サンプルのデータポイントはどのように選択しますか？上からリンゴだけを選んだ場合、下で何が起こっているのか（そこにリンゴがあるかどうか）何もわからない可能性が高いです。ランダムに選択することも、いくつかのパラメータに基づいて選択することもできます。（例えば緑と赤の両方、小さいリンゴと大きいリンゴの両方をサンプルに含めるようにしてください）

データサンプリング方法は、取得できる結果に大きな影響を与えかねないので、いくつかの方法を簡単に見てみましょう。

データサンプリング法の簡単な分類

データサンプリング方法の分類の仕方はさまざまです。最も簡単な方法を選択すると、確率サンプリングと非確率サンプリングの2つの主要なグループに分けられます。

確率サンプリングと非確率サンプリング

確率サンプリング、別名ランダムサンプリング：これらの方法は、サンプルに参加する項目を選択するために、ある種のランダム化に依存しています。確率サンプリング法の主な利点は、より正確になる傾向があることです。
比確率サンプリング：非確率サンプリング法では、研究者は、目的、知識、または（多くの場合）利便性に基づいて、グループから項目を意図的に選択します。非確率サンプリングは簡単ですが、バイアスが生じる可能性が非常に高くなります。

研究者はこれらの方法を組み合わせて使うこともあります。各グループにはいくつかの方法があります。最も一般的なものを見ていきましょう。

確率的サンプリング法

単純なランダムサンプリング：名前が示すように、この方法は、母集団のメンバーを純粋に偶然に選択することを含みます。適当に名前を描いたと考えてください。各メンバーが選ばれる確率は等しくなります。この方法は簡単ですが、母集団内のサブグループを表現できない場合があります。
層化サンプリング：ここでは、母集団を共通の特性（年齢、性別、居住地など）に基づいてより小さなグループに分けます。次に、各グループからランダムなサンプルを抽出。これにより、特定のグループがサンプルとして適切に反映され、母集団全体に関するより正確な洞察が得られます。
クラスターサンプリング：多くの場合、母集団は地理的位置やその他自然なグループに基づいてクラスターに分割されます。次に、これらのクラスターからランダムなサンプルを選択し、選択されたクラスター内の全メンバーを調査します。層化サンプリングとクラスターサンプリングの違いは、後者ではすべてのグループがサンプルに含まれるわけではないことです。

非確率サンプリング法

コンビニエンスサンプリング：その名の通り、最も接触しやすい会員をサンプリングする方法です。例えば、ウェブサイト上でオンライン中のユーザーを調査します。便利ではありますが、母集団全体を代表しているとは限らない場合があります。
地理的サンプリング：地理的な場所に基づいて個人を選ぶ便宜サンプリングの一種です。ウェブ分析の場合、地理的サンプリングには特定の国または地域のユーザー行動の調査が含まれることがあります。場所特有の洞察を得られる一方、他の場所に関するデータは提供されません。
クオータサンプリング：このアプローチでは、研究者は特定のサブグループが母集団におけるサイズに比例して代表されることを保証します。層化サンプリングに似ていますが、クオータサンプリングでは、サブグループ内の個人を選択する際、ランダム化が行われていません。

ウェブサイト分析におけるデータサンプリングとは？

ウェブサイト分析におけるデータサンプリングは、分析ツールが追跡したセッションの母集団全体を分析する代わりに、分析のためにセッションのサブセットを選択する手法です。

例えば、ウェブサイト訪問者の30％のセッションを観察し、その70％が特定のボタンをクリックしたことがわかった場合、訪問者を一人ずつ分析するのではなく、同様の割合がすべての訪問者に当てはまると推測できます。

しかし、リンゴと同じように、サンプルだけを使用しただけでは完全に確信が持てません。この確率は、分析プロバイダーが使用するサンプルサイズとサンプリング方法によって異なります。

サンプリングとセグメント化

サンプリングを使用するウェブ分析ソリューションは、ほとんどの場合、確率サンプリング法のいずれかに依存しています。ただし、例えば、オーガニック検索から得られたものだけを見ることによって、ウェブサイトセッションのグループを常にセグメント化することが可能です。このようにして、データに非確率サンプリングを自分で導入します。

しかし、サンプリングとセグメント化の違いはデータの完全性にあります。サンプリングでは、データの一部が取得されないため、必要に応じて分析することができません。ただし、セグメンテーションは通常、キャプチャ段階ではなく分析段階で実行されるものです。意図的に特定のセグメントに焦点を当てて、そのセグメントに関する洞察を得ますが、必要に応じていつでもセグメントされていない母集団に戻ることができます。セグメント化はウェブサイト分析において不可欠であり、サンプリングと区別することが重要です。

特定のセグメントに焦点を当てることを意図的に決定し、そのセグメントに関する洞察を得るために行いますが、必要に応じて常にセグメント化されていない集団に戻ることができます。セグメンティングはウェブ解析において不可欠であり、サンプリングと区別することが重要です。

意図的に特定のセグメントに焦点を当てて、それに関する洞察を得ることにしましたが、必要に応じていつでもセグメント化されていない母集団に戻ることができます。セグメント化はウェブサイト分析において極めて重要であり、サンプリングと区別することが重要です。

ウェブサイト分析プロバイダーによるデータサンプリングのアプローチ

ウェブサイト分析プロバイダーは、サンプリングに対してさまざまなアプローチを採用しています。例えば、ユニバーサルGoogleアナリティクスは、一定のウェブサイトセッション（無料ユーザーは50万、アナリティクス360ユーザーは1億）に達した時点でサンプリングを行っていました。Googleアナリティクス4は、一定のイベント数に達するとサンプリングを開始します（無料のGoogleアナリティクスユーザーは1000万件、有料のGoogleアナリティクス360ユーザーは10億）。

もう一つの分析ツール、Plausibleアナリティクスはデータのサンプリングを行いません。ただし、これは有料のツールであるため、ウェブサイトが月間のセッション数が一定の基準に達すると、追加料金を要求されるだけです。

Hotjarは行動分析ツールであり、データをサンプリング化して、記録されたウェブサイトトラフィックの割合を確認することができます。Hotjarの料金プランでは日ごとに記録できるセッション数が異なるさまざまなプランが提供されており、1日のトラフィックが料金プランの量より多い場合、母集団をサンプリングし、その一部のみを記録します。

Mouseflowでは、デイリーサンプリングはデフォルトで無効になっています。むしろ、日次サンプリングではなく月次サンプリングに依存しており、プランで導入されている月次の記録制限がなくなるまで、ウェブサイト上のすべてのウェブサイトセッションを記録しようとしています。当社では月ごとに記録されるセッションの量が異なるプランを提供していますが、Hotjarのようにデータや毎日のキャプチャを制限することはありません（ちなみに、MouseflowとHotjarの詳細な比較もありますので、ご興味があればご覧ください）。

ただし、Bot Preventionのように、ボットの訪問を認識して記録から除外する機能もあります。この機能はデフォルトで有効になっており、すべてのプランを無料で利用することが可能です。したがって、デフォルトでは、Mouseflowは人間のセッションのみを記録することに焦点を当てていますが、（ユーザーが分析クッキーを受け入れることを選択する限り）すべてのセッションを必ず記録します。

ウェブサイト分析におけるデータサンプリングの長所と短所

これまでの文章からすると、サンプリングは常に悪いもののように聞こえます。それはこれらの確率をもたらします。

セッションを100%追跡および分析=知識に基づいたデータ主導の意思決定を行う。
追跡と分析<100%=正確な意思決定を伴うギャンブル。

しかし、サンプリングにはマイナス面だけが存在するわけではありません。場合によっては、それが実際に役立つこともあります。それでは、ウェブサイト分析におけるデータサンプリングの長所と短所のリストを見てみましょう。

長所

お金の節約
多くの行動分析システムはクレジットベースの支払いモデルを採用しており、月ごとに記録する予定のセッション数に応じて料金を支払います。ウェブサイト訪問者のサンプルのみのセッションを記録すると、セッション数が減るため費用を節約できます。
均等配布
費用を節約しようとすると、1ヶ月あたりに取得できるレコーディング数が、同じ期間のウェブサイトセッション数よりも少なくなる可能性が高いです。一方、サンプリングを使用すると、ある程度の期間にわたって録画を均等に分散できますが、サンプリングを行わないと、重要なイベントが発生する前にクレジットが突然切れてしまう可能性があります。
効率性
サンプリングは、特に膨大な量のデータを扱う場合、処理とストレージへの負荷を軽減することで、データ分析を大幅にスピードアップすることができます。ただし、エンドユーザーにとってではなく、分析サービスプロバイダーにとってのメリットです。しかし、これが一部のプロバイダーが最初にサンプリングを採用する理由であることは間違いありません。

短所

制度に関する懸念
代表的なサンプルであっても、完全なデータセットに存在する特定の詳細やニュアンスを見逃すリスクがあります。例えば、宝くじの全リストがあれば、大当たりを逃すことはありません。しかし、チケットの80%だけを調べた場合、当選チケットがサンプルに含まれていない可能性は20%あります。A/Bテストを実行する場合、バージョンあたりのトラフィックが低いほど偏った結果が得られる可能性が高くなるため、精度の問題は特に重要です。
サンプリング手法への依存（およびサンプリングを正しく行うためのプロバイダーへの依存）
得られる洞察の質は大いにサンプリング方法に依存します。不適切な選択は誤解を招く結果につながる可能性も。サンプリング方法を選ぶのはあなたではないので、プロバイダーを信頼する必要があります。
バイアスの可能性
正しく行われない場合、サンプリングによってバイアスが生じ、結果が歪められる可能性があります。また、サンプリングがどのように行われたかわからないため、バイアスのあるデータが得られるかどうかもわかりません。
粒度の制限
サンプリングデータでウェブサイト全体の統計的有意性を達成できたとしても、より詳細に分析して特定のファネルやページに焦点を当てようとすると、統計的に有意な結果を得るのに十分なサンプリングデータが存在しない可能性があります。サンプリングによって、より詳細な分析のための十分なデータを取得できなくなることがあります。
機会の損失
包括的な視点は、サンプリングデータが見逃す可能性のあるクロスセグメントのパターンや相関関係を明らかにするかもしれません。
稀なイベントを表現していない可能性
稀なユーザーインタラクションのように、稀ではあるが重要なイベントがサンプルに存在しない可能性があり、不完全な理解につながる可能性があります。

これはサンプリングには適用されますが、セグメント化には適用されません。

サンプリングが行動分析ツールに与える影響

従来のウェブサイト分析について考えてみると、すべてのユーザーのクリック、スクロール、インタラクションを分析することは膨大な作業であり、場合によっては全体像を把握するために不要と考えられるかもしれません。ただし、行動分析を詳しく調べると状況は少し複雑になります。

サンプリングが行動分析ツールにどのような影響を与えるかは次の通りです。

セッション記録ツール
セッション記録はユーザーセッションを再生したもので、訪問者がサイトとどのようにやり取りしているかを正確に示すものです。ここでのサンプリングは、インタラクションの一部しか見ていないことを意味します。これは、少数のユーザーだけが経験する可能性のある問題を理解しようとする場合に問題となる可能性があります。
ヒートマップツール
ヒートマップは、ユーザーがページ上でクリック、移動、またはスクロールした場所と注意を払った場所を視覚的に表現します。ユーザーのサブセットのみをサンプリングすると、特定のセグメントの微妙な行動を見逃す可能性があり、より詳細なヒートマップが得られません。基本的に、ヒートマップから得られる洞察は、ヒートマップの精度が低くなるにつれて不明確になる可能性があります。
コンバージョンファネル
コンバージョンファネルは一連のページにおけるユーザーの移動を示し、ユーザーがどこで離脱するかを特定するのに役立ちます。サンプリングデータに基づいている場合、これらのファネルはユーザーが取る可能性のあるすべての経路をキャプチャしていない可能性があり、最も一般的な離脱ポイントを誤って表現する可能性があります。
フォーム分析
これは、サインアップからチェックアウトまで、ユーザーがサイト上のフォームをどのように操作するかを分析するものです。サンプルを観察している場合、ごく一部のユーザーに影響する問題を見逃してしまう可能性があります。どのフィールドの入力に最も時間がかかるか、ユーザーが最も頻繁に離脱するフィールドはどこか、スキップされがちなフィールドはどこか、などといったことが見落とされてしまうかもしれません。
フリクションスコア
このスコアは、ユーザーがサイト上のどこでフリクションや障壁を経験しているかを示し、多くの場合、離脱やサイト放棄につながります。各レコーディングは潜在的な摩擦イベントについて自動的に分析されるため、サンプリングではトラフィックを100％追跡しないとフリクションイベントのあるセッションを見逃す可能性があります。
ユーザーフィードバックツール
収集プロンプト（アンケートやフィードバックウィジェット）は、ユーザーエクスペリエンスについて直接入力するものです。サンプリングする場合、すべてのユーザーにフィードバック収集プロンプトが表示されるわけではありません。これは、特に特定の属性やユーザータイプがサンプルに含まれていない場合、多様な視点を見逃す可能性があることを意味します。例えば、頻繁に利用するユーザーだけがサンプリングされた場合、最初のユーザーエクスペリエンスを理解するために重要な初回訪問者のフィードバックを見落とす可能性があります。

まとめ

行動分析ツールの場合、サンプリングによってもたらされる基本的な課題は、一般的なアイデアを得られるものの、特に異常値行動や特定のユーザーセグメントを理解する際に、より深い洞察を提供できる豊富なデータを見逃してしまう可能性があることです。

他の行動分析プロバイダーと異なり、Mouseflowがデフォルトでトラフィックをサンプリングせず、記録可能なすべてのセッションを記録するのはこのためです。

私たちはサンプリングによってある程度の費用を節約できますが、それがもたらす潜在的な問題、機会損失、不一致の多さを考えると、それだけの価値はないと考えています。

例えば、eコマースの場合、サンプリングにより、パーソナライゼーション、不正や異常の検出、在庫や需要の予測などに関してさらなる問題を引き起こす可能性があります。eコマースにおけるサンプリングの課題については別の記事で説明しています。

Alex Perekalinは、Mouseflowのマーケティングコンテンツマネージャです。

彼は、このブログで読むべき行動分析に関する最も適切で興味深いコンテンツをこのブログで提供できるよう努めています。時々、執筆、編集、企画から離れ、新しい言語の学習を学んだりボードゲームを遊んだりしています。