http://web-analytics-or-die.org/2011/08/how_to_interpret_abtest/
「A/Bテストの結果をどのように解釈するか?」だけど...
1. 「A/Bテストはどのくらいの期間、実施すれば良いのですか?」
> 期間は関係ありません、両パターン間に有意差が認められるまでです
> CVが各100件集まるくらいが目安です
パワーアナリシスをするべきですね。「有意差が認められるまで」ではなく「『事前に設定した差』を検出するのに必要なサンプルサイズになるまで」ですね。
2. Aパターン、BパターンのCVRが取りうる範囲がかなり被っていることがわかります。範囲が被っているということは、どちらのCVRの方が高くなるのかわからないということです
示された図が box and whisker なのが疑問だが,それはさておき,オーバーラップしていても,差があるという結果になるというのは,この下 2 つ目の記事を参照のこと。
3. ちなみに、区間推定を用いる場合、カイ二乗検定よりも検定力は落ちるはずです。つまり有意差が出にくくなります
ちょっと何を言っているのかわからない。
検定と推定は等価です。例えば,二群の比率の差の検定が有意である場合,二群の比率の差の信頼区間は0を含まない。逆も真。
4. Web アプリの結果がおかしい?
http://web-analytics-or-die.org/abtest/
ページに示されてる例は,30/1000, 35/1000 の例の区間推定値が何によって計算されたか不明
binom.test でも prop.test でもないようだ。
判明:p±1.96√(p(1-p)/n) なんですね。でも,その近似式はあまりよくない。prop.test で使っているのは,n/(n+Z^2)*(p+Z^2/(2n)±Zsqrt(p(1-p)/n+Z^2/(4n^2))) なので,よろしく。
http://web-analytics-or-die.org/abtest/ で
50/100, 35/100 の比較例を表示してみたが,
パターン 下限 確率 上限
オリジナル 40.2% 50% 59.8%
テストパターン 25.65% 35% 44.35%
(下限,上限の計算法はよしとしよう)
また,有意差はあるのに「有意差はありません。」となってしまうが???
数値を変えてやってみたところ,どうやら,「信頼区間が重ならない場合に,有意差がある」と判定しているようだ。
しかし,それが間違いなのは 2. で示したとおり。
> chisq.test(matrix(c(50, 50, 35, 65), 2))
Pearson's Chi-squared test with Yates' continuity correction
data: matrix(c(50, 50, 35, 65), 2)
X-squared = 4.0102, df = 1, p-value = 0.04522
> prop.test(c(50, 35), c(100, 100))
2-sample test for equality of proportions with continuity
correction
data: c(50, 35) out of c(100, 100)
X-squared = 4.0102, df = 1, p-value = 0.04522