AAテストでABテストの有意性を見極める|具体的な実践方法と統計的有意性の確保

CATEGORY

Leango

Leango

    目次

無料で改善案も入手できるLPOツール「dejam」。ヒートマップ、Web接客、プロジェクト管理、改善ナレッジなど盛りだくさん!

A/Bテストでパフォーマンスの高かったバージョンを採用してしばらくしたら悪化してしまった……。
このようなことを事前に防ぐ上で、A/Aテストが役に立つかもしれません。

A/Bテストは異なる条件での比較を行い、効果的な改善策を見つけ出すための手法です。
一方で、A/Aテストでは全く同じ条件同士でのテストをおこない、システムの動作性や設定による誤差を発見するための手法です。

これらのテストをどのような目的で実施し、効果的に使いこなしたら良いのか難しいと感じるかもしれません。
実際のプロジェクトで効果を発揮するには、それぞれのテストの特性を理解し、どう適用すれば効果を最大化できるのか、深く理解する必要があります。

本記事では、A/AテストとA/Bテストの特性を詳細に解説し、実際のサイトやUIの改善で活かすための情報を提供しています。
具体的なノウハウの理解を深めつつ、A/Bテストの本質などへの理解を深めてサイト改善に活かしてください。

A/Bテストの重要性と課題について

A/Bテストは、Webサイトやアプリの改善に欠かせない手法となっています。
しかし、その実施には多くの課題と注意点が存在します。

このセクションでは、A/Bテストの目的とその重要性について、メルカリが実際にA/Bテストを活用して顧客の購買率を向上させた事例等を交えて説明します。
また、効果的なA/Bテストを実施する上で問題となる点を整理します。

A/Bテストの目的は仮説を検証すること

A/Bテストの最大の目的は、Webサイトやアプリの課題の背景や施策についての仮説を検証することです。
これはよく言われていることですが、重要となるのはその解像度の高さです。

解像度の高い仮説をもとに施策を実施し、高いインパクトを出した事例として象徴的なのが、メルカリが¥マークのサイズを小さくしたことで購買率が向上したという事例です。
これは、アプリマーケティング研究所というメディアが、メルカリ社のProduct Manager 塚本さんと、UX Design Manager 宮本さんに取材をして調査した内容です。

数値としてどの程度のインパクトがあったのかは公表されていませんが、この改善一つで「めちゃくちゃ売れやすくなりました」との言葉から、かなりのインパクトがあったように想定されます。
実際に、この記事で記載されている¥マークの事例についての引用を見てみましょう。

以前は、¥マークと値段の「文字のサイズ」が同じくらいだったのですが、¥マークをちょっと小さくしただけで、購入率が大きく上がったんです。

理由としては、¥マークを小さくすると「価格への圧迫感」が減って、心理的にすこし安く感じるためではないかと考えています。

もちろん場合にもよるかもしれませんが、¥マークを大きく表示してしまうと、桁数が多いように感じて「価格を高く」感じやすくなる傾向があるのかなと。

もともと仮説としては、¥マークが小さいほうが心理的にすこし安く感じるという研究結果もあって、そうした情報をもとに仮説を立てました。

AmazonなどのECサイトでも、¥マークを小さく表示しているんですよ。これもテストの結果でこうなっているのかもしれないと。

引用:アプリマーケティング研究所|値段の「¥マーク」を小さくしたら購入率が大きく改善された。機能は「体験」で成果が激変する。10周年の「メルカリ」に聞く新機能の開発の裏側。3つの成功施策。

そんなことでと思うかもしれませんが、この施策を実施するに至った仮説には様々な裏付けがあったことが想定されます。実際、この記事では以下のことが記載されていました。

  • ¥マークが桁数を多く感じさせて高く感じさせるという仮説
  • ¥マークの小ささが心理的にやすく感じるという研究結果の裏付け
  • AmazonのECサイトで実際に採用されている手法という事実

このように、裏付けのある深い仮説だからこそ、マネージャーの宮本さんは「そんなに差分はなさそうだし、他のことに時間をつかったほうが生産的では…?」と思ったものの実行してみることに決めたのでしょう。

ちなみに、AmazonのECのアプリを確認したところ、本当に¥マークが小さく表示されていました。

引用:Amazon|[シチズン Q&Q] 腕時計 アナログ 防水 ウレタンベルト VS18-002 メンズ ネイビー

深い仮説を得る上で、他社が採用している手法や、心理学的な裏付けなどの知見があることで何らかの洞察を得ることが可能となることがあります。
A/Bテストを実施する際は、闇雲に施策を実施するのではなく、このような事例の考え方を参考にして施策を実施することでインパクトが生まれるようになるでしょう。

効果的なA/Bテストの実施を妨げる4つの要因

A/Bテストはコツコツと改善を重ねてWebサイトやアプリ等の成果を最大化する有効な手法である一方、実施の際には正しく結果を解釈する上で問題となる要因が存在します。
特に、サンプルサイズが不十分だったり、テスト期間が短すぎたりすると、テスト結果の統計的有意性が低下します。
また、テストのセグメントが不適切な場合、誤った結論に至ってしまうことにも繋がります。

さらに重要な点として、テスト結果がツールの動作性や設定による誤差に依存してしまい、正しく計測できないことがあることが挙げられます。
これは、A/Bテストの効果を過大評価したり、本当に必要な改善点を見逃したりする可能性があるため、注意をする必要があります。

実際、多くのWebやアプリ改善業務をおこなう組織の中ではA/Bテストの結果だけに偏重してしまい、最終的な成果に結び付かなかったという経験をしたことがある人が多いのではないでしょうか?

これらの問題を避けるためには、テストの設計、実施、解析の各フェーズでの慎重な計画と評価が求められます。

効果的なA/Bテストの実施を妨げる4つの要因

  • サンプルサイズが不十分
  • テスト期間が短すぎる
  • セグメントが不適切
  • ツールの動作性や設定による結果の偏り

テスト結果に騙されないためにはA/Aテストを実施しよう

A/Aテストは、A/Bテストに先んじておこなうことで、テスト結果のバイアスを減らし、実際の差異を正確に把握するために不可欠なテスト手法です。
このセクションでは、A/Aテストの定義、その重要性、そしてA/Bテストだけをおこなうことの問題点に焦点を当てます。

A/Aテストとは何か?

A/Aテストとは、同じ内容を2つのグループでテストする手法です。
本来、異なる変数が一切ないため、結果に差が生じるべきではありません。

このテストは、A/Bテストの際に用いるツールやプロセスの信頼性を検証するために実施されます
A/Aテストが正しく実施されていれば、ツールやプロセスのバイアスや誤差があるかどうかが判明し、より精緻なA/Bテストの基盤を築くことができます。

A/Aテストがなぜ重要なのか?

A/Aテストは、A/Bテストの結果の信頼性を高めるために重要です。

たとえば、テストのセットアップに誤りがある場合、その影響はA/Bテストの結果にも同じように現れます。
A/Aテストで先にこれらの誤りを検出することで、誤った分析に基づいて誤った変更を加えるリスクを減らすことができます

A/Bテストのみをおこなうことの問題点

A/Bテストだけを実施すると、ツールやプロセスの欠陥に気づかないまま進行する危険性があります。
たとえば、サンプル分布の偏りや測定誤差が結果に影響を及ぼすことがあるため、A/AテストなしにA/Bテストの結果を信じることは、統計的な判断ミスにつながる可能性があります。
A/Aテストは、このような隠れたリスクを回避し、より正確なデータに基づいた意思決定を可能にします

A/Aテストの実践方法

A/Aテストの理論的背景を理解した上で、具体的な実践方法が求められます。
このセクションでは、A/Aテストの段階的な設計方法と、実践時のポイントや注意点について深く探ります。

A/Aテストを実践する手順とテストの設計の仕方を解説

A/Aテストを実践する際の手順と設計は非常に重要です。
下記はその主要な手順となります。

1.変数の選定:テスト対象とする変数を明確に選定し、2つのグループ間で差がないように設定します。ここでの変数は、ビジネスの成長に直接寄与する重要な要素、例えばクリック率や購買率など、事業の目標に直結するものを選定します。

2.サンプルサイズの計算:必要なサンプルサイズを計算し、測定の精度を高めます。効果量※1、統計的検出力(通常80%)※2、有意水準(通常5%)※3を考慮した上で、適切なサンプルサイズを決定します。これにより、統計的有意性を確保し、テストの信頼性を高めることができます。

3.テスト期間の設定:テストを行う期間を決定し、季節効果や週末効果などの影響を避け、適切な期間内でデータの収集を行います。一般的には、2週間以上で実施することが推奨されます。

4.データの収集:テスト期間中、必要なデータを収集し、その結果を記録、分析します。収集するデータは事前に定義した変数に基づきます。

5.分析:収集したデータを統計的に分析し、結果のバリエーションや有意な差の評価を行います。統計モデルや検定方法の選定が重要です。

6.評価と改善:テスト結果を評価し、実際のA/Bテストを実施した際に、ツールに起因した誤差をどの程度まで考慮に入れるかを決定します。A/Aテストの段階であまりにも誤差が大きく発生してしまっている場合は、誤差が小さくなるように設定し直すための改善点を洗い出したり、最悪の場合にはツールを再検討したりします。

このプロセスを通じて、A/Aテストは効果的に設計され、適切に実行されます。
この手順を丁寧に追い、計画的に行うことで、A/Bテストの前提となる重要なプロセスを確実に進めることが可能です。

 

注釈:

(※1)効果量(Effect Size)……効果量とは、テストの対象となる変数(例:クリック率の増加など)の変化がどれほど大きいかを測る指標です。この数値が大きいほど、変化が明確に現れていると言えます。

(※2)統計的検出力(通常80%)……統計的検出力は、ある効果(例:広告のクリック率向上)が実際に存在するときに、その効果を検出する能力のことです。80%の検出力は、100回中80回だけ効果を正しく検出できているという意味です。

(※3)有意水準(通常5%)……有意水準とは、統計的な分析で得られた結果が偶然である確率を表す数値です。5%の有意水準は、95回中5回結果が偶然である可能性があるということを意味します。この数値が小さいほど、結果の信頼性が高いと言えます。

実践する際のポイントと注意点

A/Aテストを実施する際のポイントとして、テスト期間の設定、ツールの選定、データの分析方法などが挙げられます。

テスト期間については、短すぎず、かつ長すぎないように期間設定する必要があります。
また、使用するツールは信頼性が確保されているものを選ぶことが重要です。
データの分析時には、統計的な方法を正しく適用し、本来は差がない結果を差があるものと誤解してしまうような可能性を最小限に抑えることが求められます。

これらのポイントを押さえることで、A/Aテストの信頼性と効果を高めることができます。

サイト改善への考え方とA/Bテストの効果的な活用

A/BテストとA/Aテストをうまく活用することで、サイトやアプリ等のUI改善の戦略が効果的に進展します。
このセクションでは、KPIの分解、仮説の精緻化、そしてバイアスや誤差の最小化の方法について詳細に解説します。

適切にKPIを分解する

サイトのパフォーマンス向上には、適切なKPI(重要業績評価指標)の分解が必要です。
まず、最初にサイトやアプリなどの媒体の目標に直結する重要な要素や指標を明確にベンチマークします。

例えば、十分なトラフィックがあるにもかかわらず顧客を獲得できていないというケースについて考えます

仮に、顧客がサイトなどに訪問しても、すぐにサイトから離れてしまうためそもそもCTAなどへ到達していないという問題があったとします。
この場合は、直帰率という指標に着目するべきで、改善すべき要素はファーストビューになると考えられます。

他の可能性としては、サイトには十分な時間滞在しているが、CTAがタッチされていなかったりアクションを起こさないままサイトを離れてしまうケースも考えられます。
そのような場合、CTR(クリック率)という指標に注目して、CTAのデザインなどの要素に注目必要があるかもしれません。

次に、改善すると特定した指標をどの程度まで改善するのか数値で目標を設定することでKPIを決定します。
この過程を通じて、サイトやアプリの目指すべき方向性が明確になり、効率的な改善が可能になります。

ただし、この際、改善すると決めた指標がずれていた場合、どんなに目標設定や改善を繰り返しても十分なインパクトが見込めない可能性があるので、適切なKPIを設定することが重要です。
そして、適切なKPIの設定をおこなう上で重要となるのが、次の項目で説明する仮説の解像度を上げることです。

課題についての仮説の解像度を上げる

前の項目では、改善をしてインパクトを出すためには適切なKPIを設定することが重要であると説明しました。
しかし、適切にKPIを設定するには、課題についての仮説の解像度を上げることが重要です。

もちろん、仮説を持たずに改善業務などに当たる人はあまりいないかもしれませんが、高い解像度で仮説を持っているということが重要になります。
なぜなら、解像度の高い仮説を持つことで、無数にある改善施策案の中からインパクトが出そうなものを絞り込むことが可能だからです。

例えば、先ほどの十分なトラフィックがあるにもかかわらず顧客を獲得できていないというケースについてさらに考えてみます。
先ほどは、このケースについて直帰率が高すぎるという課題と、滞在時間が十分なのにユーザーがアクションを起こさないという課題がある場合について考えました。
そこで、以下のような仮説を持つことで、自然と改善施策が絞り込まれるようになります。

直帰率のケースであれば、ファーストビューの印象がどのような価値を訴求しているのかわかりにくいという可能性が挙げられます。その場合は、メッセージを重要な一つのものに絞る、デザインをシンプルにするなどの打ち手が検討されます。
他には、LPなどへの遷移前のユーザーの期待感と実際にLP内で提示する価値が一致していないのではないかと仮説を立てることができます。
その場合は、ユーザーの期待するものについて複数パターン想定してA/Bテストをすることで仮説を検証できます。

ユーザーがアクションを起こさないというケースについては、ユーザーがCTAなどを見付けられている場合と見付けられていない場合に分けて考えることができます。見付けられていない場合は、CTAの配置を変更したり、目立つ色使いに変更するなどが考えられます。
見付けられているのであれば、別の訴求内容を変更するなどが必要となるかもしれません。

サイト改善のための仮説を精緻に構築することは重要です。
そして、その仮説と採用した改善施策が正しかったかどうかを判断するために、A/Bテストを実施します。

一方で、既に仮説を立てたことで、認知にバイアスがかかってしまうこともまた事実でしょう。
そこで、統計的に有意で正確なデータを取得することで、公正な視点から仮説を評価することが重要です。
そのためには、次の項目で説明するA/Aテストを正しく実施することが重要となります。

A/Aテストを用いてバイアスや誤差を最小化する

A/Aテストとは、ツールの動作性やテストの設計を精緻に確認することでA/Bテストの結果に対するバイアスや誤差を最小限に抑え、テスト結果の統計的有意性を高めるための手法です。

しかし、A/Bテストの効果を最大化するためには、A/Aテストの理解と併せて効果的にA/Bテストを実施する方法論や、A/Bテストの本質を理解する必要があります。

A/Aテストは、A/Bテストの前段階としての重要な役割を果たします。
適切なサンプルサイズやテスト期間の設定など、バイアスや誤差を最小化することで、自身が立てた仮説が本当に正しかったのかどうかを、公正な視点から評価することができます。

まとめ

この記事では、A/Bテストに関わる内容についても全体的に触れながら、特にA/Aテストについて深く解説しました。

特に、A/Aテストの具体的な実践方法から、効果的なサイト改善への考え方、そして統計的有意性の確保に至るまでを幅広く解説しました。

統計的有意性を理解し、CVR改善や離脱率の低下、仮説の解像度の向上させるための考え方を学ぶことで、サイトやアプリのパフォーマンスを高めるための有益な洞察を得ることができます。

そこで、以下の4つの視点を意識し、効果的にLPOなどを実施して自社の媒体の成果の最大化に繋げてください。

  • 1.統計的有意性とA/Bテスト自体の問題点を認識する
  • 2.課題を適切に捉えてKPIを分解する
  • 3.仮説の解像度を上げ、検証をして確かめる
  • 4.A/Aテストを用いてバイアスや誤差を最小化する

他の記事でも、A/Bテストについてや、類似する他の分析方法について、CVR改善などLPOに役立つツールについてなど、より詳細に解説しているので参考にしてください。

ABテストの効果的な振り分け方や仕組みを解説|成果を出すコツや考え方

多変量テストはA/Bテストとどう違うのか?CVRを素早く改善する方法と注意点を解説

無料で改善案も入手できるLPOツール「dejam」。ヒートマップ、Web接客、プロジェクト管理、改善ナレッジなど盛りだくさん!

関連記事も読む