実験結果は、実験が終了するまで週に1回更新されます。実験結果には、良い結果を獲得したコンテンツがより優れているという確率と共に、コンテンツの各バージョンによって購入者に対する成果がどの程度得られるかについて、詳しく説明されています。実験ダッシュボードで実験名をクリックすると、結果にアクセスできます。
実験中に収集したデータに基づいて、各コンテンツを公開した場合に予測される影響の範囲を算出します。実験で登録されたすべてのASINの結果が集計されます。Amazonは、以下のような結果を提供します。
1年間の影響を予測するには、良い結果を獲得したコンテンツの1日平均の売上増分を算出し、これに365を掛けます。この予測では、季節性、価格変動、実際のビジネスに影響するその他要因は考慮されません。これはあくまで情報提供を目的としており、利益の増分を保証するものではありません。
Likelyの列には、計算結果の見込まれる中央値(50パーセンタイル)が表示されます。Best Case列とWorse Case列には、これらの結果の95%信頼区間が表示されます。
実験は、結果が確定されずに終わることや、あるコンテンツのバージョンが別のバージョンより優れているという信頼度が低い結果で終わることがあります。しかし、このような結果も価値があります。
実験結果が確定しない場合がある理由として、以下のことが考えられます。
確定されない結果を確認する場合は、実験の仮説を参考にしてください。たとえば、変更した内容に応じて、確定されない結果により、特定の種類のコンテンツが購入者の行動に影響しないため、投資する価値がないことがわかります。または、商品を販売促進する2つの方法が、同様に効果的であることがわかります。以前のテストで学んだ内容を確認するために、追加の実験を実施できます。
実験の方法論に関するこれらの注記は、Amazonがどのように獲得コンテンツを選択し、影響を予測するかを理解するのに役立ちます。ただし、これは実験を実施する上で必須ではありません。
実験は個別の購入者アカウントに基づいています。実験中は、コンテンツを閲覧する購入者の各アカウントが実験の一部とみなされます。購入者は、いずれかのコンテンツのバージョンを表示するようランダムに割り当てられます。また、デバイスの種類やその他の要因に関係なく、購入者が特定できる限り、永続的にそのコンテンツが表示されます。購入者を特定できないページへのアクセスは、サンプルの数には含まれません。結果の精度を向上させるために、統計的外れ値など、サンプルから特定の種類のデータを自動的に削除する場合があります。
Amazonでは、実験結果を分析するためにベイズ的アプローチを採用しています。つまり、モデルと実際の実験結果に基づいて確率分布を構築します。Amazonでは、平均効果量(商品数の変化に関して)、および事後確率分布の95%信頼区間を報告します。これは、実験開始以降に収集されたすべての実験データに基づいて、実験中に毎週更新されます。良い結果を獲得したコンテンツの処理についての信頼度とは、販売数の影響がプラスであることを示す確率分布の割合です。
1年間の影響を予測するには、実験期間における現時点までの獲得コンテンツ処理と不獲得コンテンツ処理の1日当たりの売上の平均差を計算し、これに365を掛けます。Amazonでは、事後確率分布に基づいて、影響に関する95%信頼区間を提供します。