こちらのイベントに参加してきたので、会の様子と感想を書いていこうと思います。
- 会の概要
- 会の様子
- ABテストのための統計的検定理論(序論)
- 120回分のABテスト結果を分析して見つけたアンチパターン/成果が出たパターン
- Notionを軸にABテストを効率化する
- QA
- ABテストを行うほうが工数が増える場合はあるか?
- プロダクトが直結しないメトリクスを追いかける時にどのように進めるべきかアドバイスがほしい
- 有意水準5%は重視すべきか?
- サンプルサイズが期待できない状況でできるABテストはあるのか?
- サンプルが少ない/多いはどう判断しているのか?
- ABテストにおける望ましい実施期間はあるのか?
- ABCテストを実施しないといけないときにできる調整はあるのか?
- ABテストを開始するまでにかかる期間はどれくらいある?
- 2要素以上の変更があるABテストについてどう考えているか?
- ABテストをやらなくてもよかったな、と思うパターンは過去にあったか?
- ABテストをするかどうかの基準は?
- ABテストで失敗した後の改善案はどうやって考えていくとよいのか?
- ABテストでいいパターンをたくさん出すコツはあるのか?
- 統計的仮説検定を繰り返す際に有意水準の補正はしているのか?
- 会全体を通した感想
会の概要
以下、イベントページから引用です。
今回は「AB テストの理論と実践」をテーマに、CX Platform「KARTE」を提供するプレイド社 と ソーシャル経済メディア「NewsPicks」を提供するユーザベースの2社の合同勉強会を行います。「他社の AB テスト事情を知りたい」「AB テストの理論を知りたい」など、AB テストを通じてユーザー体験の向上に向き合う2社の取り組みについてご興味ある方、是非ご参加お待ちしております。質疑応答のお時間もございますので、講演者に対する質問もお待ちしております!
会の様子
ABテストのための統計的検定理論(序論)
最初に近藤さんから、ABテストで統計的仮説検定を活用するための入門的な内容の紹介がありました。
ABテストは分析であるというのは言われてみればそりゃそうでしょという話なのですが、分析の本来の定義から紐解いてみると、個々のABテストで分かったテスト結果の成否や成果にこだわりすぎている節があったことを実感するような発表でした。
統計的検定の仕組みに関する解説もわかりやすく、分析対象のユーザー数を増やしすぎてしまうパターンとかは検定の構造を知っておくとより防ぎやすくなるんだろうなあと思いました。
120回分のABテスト結果を分析して見つけたアンチパターン/成果が出たパターン
続いて桐畑さんから、2年弱で120回のABテストを回したことで得られた成功パターン/失敗パターンの紹介がありました。
成功パターンは、どのパターンも仮説を明確に持てていたところが大きいのかなーと思う事例が多く、ABテストの実施方法よりもABテストするテーマの選定方法の重要性を実感する内容でした*1
失敗パターンにあった小さすぎる差分でABテストといった部分は、高頻度でABテストを実施していこうとしたが故に陥ったパターンなのかな?とも思いました。
Notionを軸にABテストを効率化する
最後に七五三さんから、Notionを活用してABテストを効率化した話を聞いていきました。
情報の集約性と適切な粒度/量のテンプレート化を行うことで、数値確認や本来の目的からの逸脱防止ができることがわかる発表で、Notionのテンプレートやプロパティは強力だよなあというのを改めて実感しました。
QA
セッション直後はQAセッションがありました。以下、質問内容と回答を常体で記載していきます。
ABテストを行うほうが工数が増える場合はあるか?
もちろんある。ものによっては2倍くらい工数が増える。現在はPMF後で、コンテンツで購読者がめちゃくちゃ増えてくるため、ABテストを積極的に行っている。
プロダクトが直結しないメトリクスを追いかける時にどのように進めるべきかアドバイスがほしい
- 検索はアルゴリズムチームが見るようにするなど、チーム同士で見ているものが異なるメトリクスはある。その上で、課金ユーザー数などチーム横断で共有する必要性がある
- KPIの責任分界点を明確にするのと、横断でコミュニケーションを取ることが重要
有意水準5%は重視すべきか?
5%は唯一絶対ではないので、10%とかでもいいのではと個人的には思う。これを事業責任者レベルでも認識することが重要。
仮説検定が生まれた背景として、誤差があまりあってはいけない医療分野や工業分野があるので、このような考え方を持っている。
サンプルサイズが期待できない状況でできるABテストはあるのか?
考慮すべき点は普通より多くなるのだが、ある。
サンプルが少ない/多いはどう判断しているのか?
ばしっとした回答はない。サンプルサイズ、CVRの差、有意水準、検出力の4つは自由度を持って動いているパラメータなので、一定の数値を決めないと適切なサンプルサイズはこれだという回答はできない。
ABテストにおける望ましい実施期間はあるのか?
一番考えないといけないのは再現性。シーズナルイベントの重複や土日を挟むのか?などを考えることが重要。
また、リリース後に新機能を追加する場合は、ユーザーは新機能に対して拒否反応を示す傾向があるため、なるべく期間を取れると良い。
ABCテストを実施しないといけないときにできる調整はあるのか?
選択肢が増えていくと、有意水準の値が大きくなっていく(多重検定)ので、そこの調整が必要。
また、有意に出る/出ないがCVRによって敏感に変わってしまうという問題があるため、そこの調整も必要。
やりました/やらなかったの2つのABテストを繰り返すのがいいのかな?と思う。
ABテストを開始するまでにかかる期間はどれくらいある?
最初はユーザーIDを割るみたいなレベルでスタートしていたので、環境整備を期間をかけてするよりはまずはやってみたほうがよいと思う。
2要素以上の変更があるABテストについてどう考えているか?
細かく刻む(要素を一つに絞る)方がよいと思う。
ABテストをやらなくてもよかったな、と思うパターンは過去にあったか?
あまり本質的に意味がないパネル構造の部分などは、やらなくてもよかったなと思う。
ABテストをするかどうかの基準は?
できるならやる。やらないときは検証工数やABテストで確認したいことが担保できるような条件が整っている場合はやらない。
ABテストで失敗した後の改善案はどうやって考えていくとよいのか?
難しい。ユーザーの行動ログを時系列で見てみるとかはやっている。
ABテストでいいパターンをたくさん出すコツはあるのか?
他社のパターンをたくさん見たりするのはやっている。
統計的仮説検定を繰り返す際に有意水準の補正はしているのか?
接客のポップアップなど複数回出すものは有意水準の補正を行っている。
会全体を通した感想
理論的にはABテストをどのようにやっていくのが良いのか?と実際にどのようにABテストを実践しているのかという部分が合わせて説明されていて非常によかったです。
特に統計的仮説検定の部分はABテストに限らず参考になる話が多く、学びになりました。
*1:もちろん実施方法も大切