「#統計生態学におけるAICの誤用 : AICは正しいモデルを選ぶためのものではないので正しいモデルを…」黒木玄 Gen Kurokiのスレッド

5272022-07-28 11:41:13

#統計 https://t.co/jDabzRCSms 生態学におけるAICの誤用 : AICは正しいモデルを選ぶためのものではないので正しいモデルを選ばない 粕谷 英一 2015 へのコメント そこで扱われている場合は、本質的に  有意水準15.7%の検定では、真のモデルを約15.7%で棄却する と同じです。続く https://t.co/KIDWuTJ2I0

2022-07-28 11:41:13

#統計 AICによるモデル選択の話なので、みんなよく知っていると思われるP値を使う通常の検定との関係が見えなくなりがちだと思います。

2022-07-28 11:52:17

#統計 モデル0がモデル1のパラメータ空間を次元を1次元下げた部分に制限したものになっているとき、それらのAICによるモデル選択は、モデル0を帰無仮説とし、モデル1を対立仮説としたときの、有意水準15.7%の対数尤度比検定と同じです。 自由度1のχ²分布では2以上になる確率≈15.7%

2022-07-28 11:52:18

#統計 サンプルサイズを大きくしても(大きくすると)、帰無仮説=モデル0が正しいときに、帰無仮説=モデル0が棄却される確率は約15.7%になります。 これを知っていれば、検定の知識さえあれば、 https://t.co/ukVR4bOhTm の内容を理解できます。

2022-07-28 11:52:19

#統計 https://t.co/GNtnYQ05w7 Mann-WhitneyのU検定と不等分散 粕谷 英一 2001 への計算例補足。 Y側の分散と標本サイズがともにX側の2倍のとき(どちらも平均0の正規分布)、Mann-WhitneyのU検定では、P値が8.5%の確率で5%未満になる。(約5%であってほしい。) https://t.co/mmzvV0XgoZ https://t.co/KIDWuTJ2I0

2022-07-28 13:21:13

#統計 Mann-WhitneyのU検定のP値の計算では、P値計算用の統計モデルにおいて「2つの母集団分布は等しい」と仮定します。 この2つの分布が等しいという仮定は非常に強く、ほとんどの場合に現実の母集団では成立していないでしょう。 成立していない場合に、Mann-WhitneyのU検定では誤差が生じます。

2022-07-28 13:25:40

#統計 粕谷さんが問題にしたことは、Mann-WhitneyのU検定の使用が適切になるためには厳しい条件が必要なのに、そのことを無視して、みんなで大挙して、安易にMann-WhitneyのU検定を使っているということです。 それは20年前の指摘ですが、現在でも同じ問題が残っているのではないでしょうか?

2022-07-28 13:28:22

#統計 一般にP値の構成では、「帰無仮説下の統計モデルで生成したデータ(モデル内確率変数)について、P値がα未満になる確率はαを近似する」という要請が課されます。 これがひどく成立していないP値の使用は不適切だということになります。 そこで、実際にその確率を計算してみましょう。

2022-07-28 13:31:18

#統計 添付画像は、2つの分布が共に標準正規分布の場合の、Mann-WhitneyのU検定でP値がα以下になる確率(左)とWelchのt検定でP値がα以下になる確率(右)です。 45度線にどちらも近く、それらの確率はαに近い。続く https://t.co/mmzvV0XgoZ

2022-07-28 13:34:48

#統計 今度は、X側は標準正規分布で、Y側は平均0標準偏差2の正規分布の場合。サンプルサイズはどちらも25です。 左側のMann-WhitneyのU検定ではP値がα以下になる確率は上側に少しオーバーシュートするようになりました。 個人的な意見ではこの程度のオーバーシュートは許容範囲。続く

2022-07-28 13:37:57

#統計 Yの側の標準偏差をXの側の2倍にするだけではなく、Xの側の標本サイズをYの側の2倍にすると、Mann-WhitneyのU検定のP値が5%以下になる確率は8.5%程度になっています! これはひどい。 Mann-WhitneyのU検定を安易に使うと、こういう不当な方法で有意差を出せてしまう! https://t.co/mmzvV0XgoZ

2022-07-28 13:41:12

訂正 ❌Y側の分散と標本サイズがともにX側の2倍 ⭕️Y側の分散はX側の2倍で、Y側の標本サイズがともにX側の半分 https://t.co/1vHebphAI1

#統計 https://t.co/GNtnYQ05w7 Mann-WhitneyのU検定と不等分散 粕谷 英一 2001 への計算例補足。 Y側の分散と標本サイズがともにX側の2倍のとき(どちらも平均0の正規分布)、Mann-WhitneyのU検定では、P値が8.5%の確率で5%未満になる。(約5%であってほしい。) https://t.co/mmzvV0XgoZ https://t.co/KIDWuTJ2I0

2022-07-28 13:43:03

#統計 Welchのt検定は、中心極限定理による標本平均の分布の正規分布近似がうまく行っていれば概ね使用可能なのに、正規母集団の仮定が必要だと誤解して、Mann-WhitneyのU検定を使っている人達は、知らず知らずのうちに不当な方法で有意差を出している可能性がある。 過去に遡って確認の必要有り。

2022-07-28 13:46:30

#統計 2つの母集団分布が等しいという現実には保証されることが稀なはずの仮定の下で計算されたMann-WhitneyのU検定のP値によって、中央値が等しいかどうかの検定をできると誤解している人も多いように見えます。 これもちょっと計算すれば誤りだとすぐに分かります。 https://t.co/mmzvV0XgoZ

2022-07-28 13:49:43

#統計 添付画像は、Xが-1と1の間の一様分布に従い、Yが指数分布をシフトした分布に従っている場合です。 左:P(X < Y) = 0.5 になるようにシフトした場合 右:XとYの中央値が一致するようにシフトした場合 左と右で全然違う! https://t.co/mmzvV0XgoZ

2022-07-28 13:53:42

#統計 Mann-WhitneyのU検定のP値は、2つの分布が等しいという仮定の下で計算されます。 2つの分布が等しくなくても、左側のように、P(X < Y) = 0.5 が成り立つようにすると、P値がα以下になる確率がほぼαになることはあります。続く https://t.co/mmzvV0XgoZ

2022-07-28 13:56:30

#統計 同じ場合に、XとYの中央値が一致させて計算してみると(右側のグラフ)、Mann-WhitneyのU検定のP値が5%以下になる確率は32%以上もの値に! これから、2つの分布の一致抜きに、中央値が等しいかどうかの検定をMann-WhitneyのU検定でできないことが分かります。 https://t.co/mmzvV0XgoZ

2022-07-28 14:00:43

#統計 以上におけるグラフの左右でXとYの分布がどうなっているかは添付画像の通り。 形状は同じだが、横方向のシフトの仕方が違う。 左側ではP(X < Y)=0.5となっており、右側では中央値が一致している。 https://t.co/mmzvV0XgoZ

2022-07-28 14:03:39

#統計 要するに、ちょっと計算してみるだけで、以下のことが分かるわけです。 Mann-WhitneyのU検定のP値は、2つの母集団分布が等しいという極めて強い仮定の下で計算されているので、現実の母集団でその条件が成立している保証がないと、不当な方法で有意差を出すことになってしまうかもしれない。

2022-07-28 14:06:32

#統計 さらに、 Mann-WhitneyのU検定のP値が「2つの母集団分布が等しい」という極めて強い仮定の下で計算されていることを忘れて、中央値が等しいかどうかの検定であるかのように語ってはいけない。

2022-07-28 14:07:34

#統計 もしかしたら、上の計算例を見て、Mann-WhitneyのU検定は ❌近似的に「P(X < Y) = 0.5 であるか否か」の検定である と誤解する人がいるかもしれませんが、添付画像を見れば分かるようにそういうことにはなっていません。 私なら「Mann-WhitneyのU検定は原則として使用しない」としたいです。

2022-07-28 14:14:43

#統計 2つの母集団分布は横方向のシフト分の違いしかないことが何らかの理由で非常に確からしいならば、Mann-WhitneyのU検定も実用的になる可能性がある。 しかし、そういう場合は稀だと思います。 あと、違いを測る適切な方法が何であるかについてもきちんと考えるべき。

2022-07-28 14:17:56

#統計 中心極限定理による近似が有効になっている場合における仮説「P(X

2022-07-28 14:21:31

#統計 Brunner-Munzel検定で使用する検定統計量が本質的にMann-WhitneyのU検定におけるUと同じです。 しかし、P値の計算用の統計モデルは異なります(これ重要)。 BM: P(X < Y) + P(X = Y)/2 = 1/2 でかつ中心極限定理による近似が有効。 MW: XとYが従う分布は等しい。 この違いが非常に重要。

2022-07-28 14:25:33

#統計 「ノンパラメトリック」という形容詞が付いている検定であっても、P値の計算で使われる統計モデルの分布には制限が付きます。 その制限がきつい場合には、そのP値による検定の妥当な適用範囲は狭くなります。(Mann-WhitneyのU検定は狭くなり、Brunner-Munzel検定では広くなる。)

2022-07-28 14:28:29

#統計 Brunner-Munzel検定とMann-WhitneyのU検定で使用されるUがデータから全く同じように計算されることから、「BM検定でMW検定と同じなんじゃないか」と誤解する可能性があるので注意が必要です。 P値の計算のために使われる分布に関する仮定(=統計モデル)について常に注意を払う必要があります。

2022-07-28 14:31:32

#統計 パラメトリックであろうが、ノンパラメトリックであろうが、統計モデルを意識せずにまともな(例えば不当な方法で有意差を出してしまわないような)統計学の使用は不可能だと思います。 しかし、その部分は統計学入門の解説で避けて来たことだと思います。 高等教育における今後の課題。

2022-07-28 14:38:58

#統計 https://t.co/Om4sBuZ3YN 裏 RjpWiki Brunner-Munzel 検定 19/05/21 は添付画像のようにひどく間違っています。 Mann-WhitneyのU検定とBrunner-Munzel検定の統計モデルが全然違うことを完全に無視するという誤りをおかしています。 検索するとこういう解説が出て来るので要注意。

2022-07-28 14:47:11

#統計 https://t.co/bboObIxMds Brunner-Munzel検定 川口秀樹 2020年4月20日 09:00 これもひどく間違っています。 2群に関するStudentおよびWelchのt検定では、2群の母集団の正規性は必要ではなく、標本平均の分布について中心極限定理による正規分布近似が有効ならば概ね使用可能です。

2022-07-28 14:53:47

#統計 Welchのt検定を使える場合に、Welchのt検定とは異なる違いの測り方をするノンパラメトリック検定を、違いの測り方を変更することが自分の目的に合わせて適切か否かの考察抜きに、有意差を出すために安易に使う傾向が普遍的に観察される。 私には科学的なふりをしている非科学的な奴らに見える。

2022-07-28 14:57:17

#統計 もしかしたら、2つの分布が等しくなくても、分散が等しければMann-WhitneyのU検定を「中央値が等しいかどうか」の検定には使える、のように誤解している人は2つの添付画像の各々の右側を参照。 「等分布」と「等分散」では条件の強さが段違いです。 https://t.co/mmzvV0XgoZ

2022-07-28 15:09:31

#統計 そもそも順位統計を扱っているノンパラメトリック検定について分散に関する条件を持ち出すのってどうよ?

2022-07-28 15:12:24

#統計 https://t.co/4YLpnWexye Brunner-Munzel 検定 RPubs by hoxo_m 7年前 もWelchのt検定が(母集団の)正規性を前提にしていると誤解しています。 あと、Mann-WhitneyのU検定やBrunner-Munzel検定が中央値に関する検定で__ない__ことも分かっていないように見える。

2022-07-28 15:20:36

#統計 https://t.co/ph5i1QfAEJ マイナーだけど最強の統計的検定 Brunner-Munzel 検定 2015-02-17 の方を見ると、さらに誤解は明瞭になります。 違いの測り方を変えると全然違うことをやっていることになるはずなのに、違いの有無に関する検定として同列に扱うという「伝統的パターン」にも合致。

2022-07-28 15:24:50

#統計 https://t.co/ph5i1QfAEJ の最初の方を見ると、【Brunner-Munzel 検定は、分布が同じことは仮定せず、両群から一つずつ値を取り出したとき、どちらが大きい確率も等しいという帰無仮説を検定する】と正確な説明があるのに、後の方では中央値の検定扱いしている。

2022-07-28 15:29:31

#統計 https://t.co/vo5TGjtPY0https://t.co/l6AlEKz8eS Brunner-Munzel検定 冨田 哲治 これも、両t検定について正規性の仮定が必要だと誤解している。

2022-07-28 15:33:02

#統計 【この前も正規分布しないデータをt検定にかけていたけど、その場合はマンホイットニー等を使うべきだろう。こんなことは医学部1年の4月に習うことだぞ。】 よく見る典型的な誤り。複数の意味でまずい。 本当に医学部でそう教えているなら、憂慮するべき事態になっている。 https://t.co/ZZbZVvA1Tz

いいか、しんのすけ。お前が患者に「平均としては〜」として説明をするとき、その母集団は正規分布に従っているのか。この前も正規分布しないデータをt検定にかけていたけど、その場合はマンホイットニー等を使うべきだろう。こんなことは医学部1年の4月に習うことだぞ。わかっているのかしんのすけ。

2022-07-28 15:39:55

#統計 ちなみに、2群に関するStudentのt検定は、2つの標本のサイズが等しければ、等分散の前提抜きに使用可能です。 2つの母集団の正規性も不要で、2つの標本平均の分布が中心極限定理によって正規分布で近似されていれば概ね十分です。 https://t.co/avGTB0o8pR

#統計 以上のように、Studentのt検定と頑健なWelchのt検定を比較すれば、Studentのt検定は、2つの母集団が等分散であるか、または、2つの標本のサイズが等しいなら使用可能だと分かります。 こういうことは教科書にクリアに書いてあって欲しいことのはずです。

2022-07-28 15:51:46

#統計 2つの標本のサイズが大きく違っていてかつ等分散の条件も保証されない場合には、Studentのt検定ではなく、Welchのt検定の方を使うべき。 その場合にも母集団の正規性の強い仮定は不要で、標本平均の分布が中心極限定理によって正規分布で近似されていれば概ね大丈夫。

2022-07-28 15:54:38

#統計 Mann-WhitneyのU検定を使う場合には、違いの測り方が変わることを受け入れ可能な理由を明瞭に説明できないとダメ。 さらに、Mann-WhitneyのU検定のP値は「等分散」よりも圧倒的に強い「等分布」の下で計算されるので、使える場合が限られていることへの注意が必要。

2022-07-28 15:57:48

#統計 高校生に数学を教えている人達もこういう話題に興味を持つ可能性があるので、コメントを追加。 このスレッドでは使える場合が限られていることを強調したMann-WhitneyのU検定での確率計算は、高校数学的な場合の数の計算に帰着します。 もしかしたら、大学入試問題ネタに既になっているかも。

2022-07-28 16:06:13

#統計 Mann-WhitneyのU検定では、m個の文字xとn個の文字yの並べ方全体を扱います。例えばm=3, n=4なら yxxyyxy のような文字の並び方全体を考える。 それらの文字の並びが全て等確率で生じるという統計モデルを考えます。続く

2022-07-28 16:09:29

#統計 そして、 yxxyyxy のような文字の並びに対して、Uという数を U = (その中のxとそれより右にあるyの組全体の個数) と定義します。yxxyyxyについては、各xごとにそれより右にあるyの個数を数えて和をとって U = 3 + 3 + 1 となる。数uについて、U=uとなる確率を考えます。続く

2022-07-28 16:13:21

#統計 このように、Mann-WhitneyのU検定では、「いかにも高校数学!」と言いたくなるような確率の計算が行うことになります。 高校で数学を教えている人も調べておくと、ネタにできるかもしれません。

2022-07-28 16:15:15

#統計 実践的には、サンプルx_1,…,x_mとサンプルy_1,…,y_nが得られたとき、Mann-WhitneyのU検定では、同じ母集団から2つのサンプルが得られたかどうかを検定できます。

2022-07-28 16:20:24

#統計 この場合のP値の一般的な定義は「同じ母集団から2つのサンプルが得られたという仮定の下で、データの数値以上に極端な値が得られる確率」です。 同じ母集団の母集団の分布についての制限がないので、「データの数値以上に極端な値」の定義の仕方には工夫が必要です。

2022-07-28 16:20:25

#統計 Mann-WhitneyのU検定では、 U = (x_i < y_j となる(i, j)達全体の個数) とおいて、これを「データの数値以上に極端な値」の定義に利用します。 x_i,y_jが同じ分布(連続分布とする)のサンプルならば、x_i < y_j となる確率は 1/2 なので、Uの期待値はmn/2になります。

2022-07-28 16:24:15

#統計 Uの分散も容易に計算できます。E[U]=mn/2とすでに分かっているので、分散は var(U) = E[U²] - E[U]² で計算できる。E[U²] の計算はi≠i', j≠j'のときの P(x_i

2022-07-28 16:28:42

#統計 結果は E[U²] = (1/2)mn + (1/3)mn(n-1) + (1/3)m(m-1)n + (1/4)m(m-1)n(n-1) です。これより、 var(U) = E[U²] - (mn/2)² = mn(m+n+1)/12. この辺の計算について、難しく解説してある場合もあるようなので要注意。

2022-07-28 16:32:20

#統計 x_i, y_j 達が同じ母集団の標本であるという仮定は P(x_i

2022-07-28 16:37:09

#統計 Mann-WhitneyのU検定の具体的な計算例はググれば嫌になるほど得られます。 この「嫌になるほど」という感想をみんなで共有したいところ(笑) 実際に検索 ↓ https://t.co/jtXmIf1wO0 https://t.co/TBAl1ZpuOU

2022-07-28 17:00:58

#統計 https://t.co/o389aSxdxn ノンパラメトリック検定 大森宏 2018.11.13 これもなぜか、t検定達は母集団分布が正規分布であることが疑わしい場合には使わない方が良いことにされている。 あとノンパラメトリック検定は中央値に関する検定ではない。 続く

2022-07-28 19:30:41

#統計 そもそも、「平均の差」に関する検定の代わりに、それとは全く異なる違いの測り方に置き換えるノンパラメトリック検定を使う場合には、違いの測り方を変えても良いことについてはきちんと議論して正当化が必要だと思う。 有意差の「差」の意味をまともに考えようとしないのは非常にまずい。

2022-07-28 19:33:26

#統計 ① θ = P(X < Y) + (1/2)P(X = Y) = 1/2 だが、最悪のケースであってもYはそう悪くなく、Yは良い場合には非常に良い。 ② 中央値が等しくても、θ = P(X < Y) + (1/2)P(X = Y) > 1/2 となる場合。 ③ 中央値はXの方がYよりも大きいが、XがYに負ける確率が 1/2 より大きい場合。

2022-07-28 21:49:33

#統計 違いの大きさと方向を測る指標は無数に作れるので、データを見てから違いの大きさと方向を測る指標を選択することは、検定論的にはもろに不正行為になります。 目的ごとに適切な「違いの大きさ大きさ」の指標はある程度制限されるはずで、それに合わせて検定法も選択しないとまずい。

2022-07-28 21:56:12

#統計 以上の話とは別に、なぜかどうしても平均に差について等分散性が必要なStudentのt検定を使いたい人がいて、等分散性に関するF検定を使いたい人がいるという問題もある。 F検定は、StudentおよびWelchのt検定と違って、母集団の正規性抜きには信用できない検定になります。続き

2022-07-29 02:32:17

#統計 等分散性に関するF検定は正規分布の仮定に大いに依存しており、F検定に付随する信頼区間も母集団分布が正規分布である保証がない場合には信頼できない信頼区間になります。 等分散性に関するF検定を安易に勧める人は信頼できないと思う。

2022-07-29 02:32:19

#統計 さらに後退して、等分散性に関するF検定を使いたいがために、正規性検定を持ち出すというパターンも根強い。 正規分布に十分に近くてかつ分散もほぼ等しいことを確定させるだけ十分なサイズのデータはかなり大きい必要があることを承知でそう述べているなら、少しはまともかもしれませんが。

2022-07-29 02:35:36

#統計 しかし、そこまでしてStudentのt検定にこだわっている人達は、正規分布でないことがわかったり、等分散出ないことがわかったら、どうするんでしょうかね? もしかして、Welchのt検定は最初から考慮外で、Mann-WhitneyのU検定を勧めるといういかにもまずそうなことをしている?

2022-07-29 02:38:26

#統計 統計学入門の教科書を見ると、正規母集団の標本分布を使う検定として、平均を扱うt検定と、分散を扱うF検定を、同列に扱っているものが多いのですが、平均を扱うt検定は中心極限定理のお陰で正規性の条件が保証されない場合にも頑健なのですが、分散に関するF検定の方はそうではありません。

2022-07-29 02:44:02

#統計 統計学入門の教科書で、分散に関するF検定も扱う場合には、 * 平均に関するt検定は正規母集団でなくても中心極限定理が十分に効いていれば使える。 * 分散に関するF検定は正規母集団の保証がない場合には信頼できない検定になる。 とはっきり書くべきだと思います。

2022-07-29 02:47:03

#統計 分散に関するF検定は、標本サイズを大きくしても、正規母集団でない場合にはうまく行かない理由は、  標本の不偏分散の分布の分散(ややこしい(笑)) を計算すると分かります。これ、個人的に非常に良い練習問題だと思う。分散に関するF検定で注意するべきことがわかるおまけ付き!続く

2022-07-29 11:19:56

#統計 分布Dの平均をμ、分散をσ²、歪度をκ̅₃、尖度をκ̅₄と書く。歪度と尖度の定義は、X〜Dのとき、 κ̅₃ = E[((X- μ)/σ)³] κ̅₄ = E[((X- μ)/σ)₄] - 3 すなわち、 log E[exp(t(X- μ)/σ)] = t²/2 + κ̅₃t³/3! + κ̅₄t⁴/4! + O(t⁵). Dが正規分布 ⇔ log E[exp(t(X- μ)/σ)] = t²/2.

2022-07-29 11:25:45

#統計 分布Dのサイズnの標本の標本平均X̅と不偏分散S²の平均、分散、共分散は以下の通り。 E[X̅]=μ E[S²]=σ² var(X̅)=σ²/n cov(X̅,S²)=σ³κ̅₃/n var(S²)=σ⁴(κ̅₄+2/(1-1)/n)/n≈σ⁴(κ̅₄+2)/n 正規分布では0になる尖度κ̅₄が0でなくなると、不偏分散S²の分散が正規分布の場合と違う値になる。

2022-07-29 11:34:26

#統計 だから、標本の不偏分散S²の分布の広がり方が、正規分布の場合と同じ広さになっていることを前提にしている検定や区間推定は、母集団分布の(過剰)尖度κ̅₄が0でない可能性を排除できない場合には信頼できないものになります。

2022-07-29 11:38:52

#統計 標本平均X̅の分布の平均と分散については多くの入門的教科書に書いてあって、その応用としてZ検定やt検定が解説されている。 (標本平均に限らず、確率変数を見たら、平均と分散は計算しておきたいものだと思います。色々御利益がある。)

2022-07-29 11:44:00

#統計 しかし、不偏分散S²については不偏性を示すために平均(期待値)を計算した所で力尽きて、不偏分散S²の確率変数としての分散までは手が回っていない感じ。 しかし、分散に関するF検定がどういう条件の下で使用可能になるかを理解するためにそれは必須。

2022-07-29 11:44:01

#統計 現実には、入門的教科書では、 ①一般の場合(正規分布とは限らない場合)の不偏分散S²の分散には触れない。 ②それにも関わらず、F分布による分散の信頼区間や分散に関するF検定について説明する。 の組み合わせになっていて、ちょっとアレな感じになっていると思います。

2022-07-29 11:46:34

#統計 この「〜の説明までして力尽きる」という感覚は実際に仕事で講義したことがある人達はみんな知っていることだと思う。😅 分散に関するF検定の実践的使用時(正規母集団の仮定は疑わしい場合)に注意するべきことの理解に直結する重要なことだと分かっていても、説明に使える時間は足りない。

2022-07-29 11:51:43

#統計 しかし、その結果が A. t検定は正規母集団の仮定を中心極限定理による標本平均の分布の正規分布近似に緩めても使えるのに、正規母集団の仮定に厳密にこだわる。 B. 分散の違いに関するF検定は、正規母集団の仮定に強く依存しているのに、正規母集団の仮定に余りこだわらない。 だとつらい。

2022-07-29 12:00:48

#統計 https://t.co/FoORbgKL4a 改訂増補版:統計検定を理解せずに使っている人のためにII 池田 郁男 2019 ↑ ひどい。 ⭕️t検定達は中心極限定理が効いていれば使用可能 ⭕️Mann-WhitneyのU検定を中央値に関する検定だと安易にみなすことは誤り ⭕️Mann-WhitneyのU検定の使用可能条件は厳しい

2022-07-29 12:23:15

#統計 あと、ググって気付いたことは、Mann-WhitneyのU検定の使用可能条件として「等分散」を挙げている人が目立つ。 Mann-WhitneyのU検定のP値の計算では「等分散」よりも圧倒的に強い「等分布」を仮定していることを無視するのはまずく、実際に等分散でもまずそうなことを示す例を作れます(既出)。

2022-07-29 12:26:14

#統計 Mann-WhitneyのU検定のようなノンパラメトリック検定は正規母集団の仮定を使わないので広く適用できると安易に考えるのは誤りです。 そういう考え方でMann-WhitneyのU検定を使うと、結果的に不当な方法で有意差を出して、その結果を世間一般に公表することをやってしまうことになります。

2022-07-29 12:28:36

#統計 「何の条件も無しに都合良く使える道具は存在しない」ことを忘れたり、原理的に無理なことを無理でなさそうに見せる行為に走ったりすると、非常にまずいことになります。 あと、統計学は「科学的お墨付きを得るための道具」では__ない__ことにも注意を払うべき。

2022-07-29 12:31:19

#統計 統計学をかじった人が、  「有意差を出すための検定」でP値が  5%を切ったか否かによって、  科学的なお墨付きが得られたかどうかを  判定できるかのように考える ようになっていたら、その人に対して統計学教育は  大変な害 を与えてしまったことになると思います。

2022-07-29 12:35:37

https://t.co/hlHPGtlayn 改訂増補版:統計検定を理解せずに使っている人のために I 池田 郁男 2019 これもひどかった。

2022-07-29 12:42:39

解説:ウイルコクソンの順位和検定とマン・ホイットニーのU検定は同じ検定の違う名前です。

2022-07-29 12:44:56

Wilcoxon-Mann-Whitney検定の使用可能条件を「等分散」と述べている人が多いのはどうしてだろうか? Studentのt検定と同じだと思っている? WMW検定のP値の計算の具体例を見れば、「等分散」よりも圧倒的に強い「等分布」の仮定を使っていることは明らかだと思うのだが。

2022-07-29 12:48:47

#統計 #Julia言語 中央値と分散が互いに等しい2つの分布から取ったサンプルにMann-WhitneyのU検定を適用すると、P値が5%以下になる確率が34%を超えてしまう例。 各種の有意差検定についてこういう知識を沢山持っていてかつ悪意があれば、有意差は幾らでも出せそう。😈 https://t.co/mmzvV0XgoZ

2022-07-29 12:57:47

#統計 Mann-WhitneyのU検定で不当な方法で有意差を出したければ、分散が小さな側の母集団から相対的にサイズが大きなサンプルを得ると良いです。😈 https://t.co/wkPVVBdcyv

#統計 Yの側の標準偏差をXの側の2倍にするだけではなく、Xの側の標本サイズをYの側の2倍にすると、Mann-WhitneyのU検定のP値が5%以下になる確率は8.5%程度になっています! これはひどい。 Mann-WhitneyのU検定を安易に使うと、こういう不当な方法で有意差を出せてしまう! https://t.co/mmzvV0XgoZ

2022-07-29 13:20:25

#統計 Mann-WhitneyのU検定で有意差を出したく__なければ__、分散が__大きな側__から相対的に大きなサイズのサンプルを取得するとよいです。😈 https://t.co/mmzvV0XgoZ

2022-07-29 16:01:34

#統計 Mann-WhitneyのUとWilcoxonの順位和Rの間の関係も高校数学っぽい話になっています。 yxxyyxy でxとそれより左にあるyの組全体の個数はU=7です。 yxxyyxy 1234567 でのyの順位1,4,5,7の和R_Yから1,2,3,4の和を引くとU=7に等しくなる。 これがUと順位和の関係です。 そうなる理由 ↓ https://t.co/gKIHvqB4aw

#統計 そして、 yxxyyxy のような文字の並びに対して、Uという数を U = (その中のxとそれより右にあるyの組全体の個数) と定義します。yxxyyxyについては、各xごとにそれより右にあるyの個数を数えて和をとって U = 3 + 3 + 1 となる。数uについて、U=uとなる確率を考えます。続く

2022-07-29 16:33:01

#統計 私は数学的なことなら「なんでもおもしろい」と思うので問題ないのですが、t分布やF分布の類を主に勉強した人がWilcoxon-Mann-Whitneyのような話を初めて聞くと面食らうのではないかと思います。 Brunner-Munzelの話もその延長線上にあるが、t分布が出て来る。BMの元論文は結構読み易いです。

2022-07-29 16:40:39

#統計 原論文 https://t.co/Jq0K3R0VXQ Brunner-Munzel 2000

2022-07-29 16:43:25

#統計 Mann-Whitney検定ではXとYが同じ分布に従うと仮定してP値を計算しますが、Brunner-Munzel検定では P(X

2022-07-29 16:53:22

#統計 Brunner-Munzel検定の導出では、X,Yそれぞれの累積分布函数をF,Gと書くときの、G(X)とF(Y)の分散の推定が必要になったりします。その辺からt分布を使った補正が出て来る。その辺は原論文を見るのが一番早い。 BM検定でもMann-WhitneyのUと同じものを使うのですが、統計モデルが違う。

2022-07-29 16:53:24

#統計 統計学入門の教科書でt分布を出すための複雑な計算に耐えた人は、検定や信頼区間でのt分布を使うことについて、何かすごそうなことをやっているかのように感じるかもしれませんが、実際には「保守的な補正」という位置付けで、メインの部分ではないです。メインは中心極限定理の方。

2022-07-29 16:56:44

#統計 中心極限定理を使う検定の適度に保守的な補正のためにt分布を使うことについては、Brunner-Munzel 2000 https://t.co/Jq0K3R0VXQ を読んでも学べます。 まずは中心極限定理、それで足りない分はt分布で補正。

2022-07-29 16:59:05

#統計 t分布を使う検定のt分布を使うステップは、検定構築のメインのステップではなく、中心極限定理で作った検定をもっともらしく補正するステップになっていることは、統計学入門の教科書の多くでまともに説明されていないことだと思う。 結局、入門的教科書の問題に帰着される感じ。

2022-07-29 17:02:37

#統計 ありがちな説明では ①まず、現実の母集団では保証されそうもない正規母集団の仮定を前提にしても良いかのように説明して、 ②正規分布の標本分布からt分布が出ることに触れて、 ③それを使ってt分布を使う検定や信頼区間について説明する。 というパターン。中心極限定理は一切出て来ない。

2022-07-29 17:07:20

#統計 そういうありがちな説明をまじめに読んで、t分布が出て来る計算もしっかりやって、よく勉強した立派な人達が、その結果、t検定やt分布を使う信頼区間の計算は「母集団が正規分布に従うという仮定を使うパラメトリック統計だ」と信じるようになってしまう。 ここに地獄が発生している。

2022-07-29 17:10:04

#統計 一方、 ②' 正規分布の標本分布からF分布が出ることに触れて、 ③' それを使ってF分布を使う分散に関する検定や信頼区間について説明する。 という説明は多分適切で、分散に関するF検定では、母集団の正規性に神経質になる必要があります。 実際には、②③と②'③'が並列に解説されている。

2022-07-29 17:18:15

#統計 「等分散」「正規性検定」についてググると気付くこと。 検定論では「帰無仮説が棄却されないことは、帰無仮説が正しいことを意味しない」としつこく言われているはずなのですが、なぜか「等分散である」や「正規分布である」という帰無仮説については例外扱いされているように見える。

2022-07-29 20:58:52

#統計 検定論的には、 ❌「正規分布である」という帰無仮説が検定で棄却されなければ、正規分布であるとみなしてよい。 は誤りで、正しくは、 ⭕️「正規分布である」という帰無仮説が検定で棄却されないときには、「正規分布である」という仮説の成立については判断を保留する。 でしょう。

2022-07-29 21:01:59

#統計 検定論的には、 ❌「等分散」の帰無仮説が検定で棄却されなければ、等分散だとみなしてよい。 は誤りで、正しくは、 ⭕️「等分散」の帰無仮説が検定で棄却されないときには、等分散であるか否かについて判断を保留する。 でなければいけない。

2022-07-29 21:04:15

#統計 ところが、ググると、まるで、正規性の帰無仮説が棄却されなければ正規分布であるとみなして、正規母集団でなければ使えない検定(例えば分散に関するF検定)を使って良いことにしている事例が山ほど見つかる。 これ、どうして放置されているんでしょうか? 私が何か誤解している?

2022-07-29 21:06:53

#統計 同様に、正規母集団でなければ信頼できない等分散性に関するF検定で等分散の仮説が棄却されなければ、等分散性が必要なStudentのt検定を使えることにするのはどうしてなのでしょうか? 正規母集団の前提がないと信頼できないF検定を使って良い理由も、等分散性が保証されることも理解不能。

2022-07-29 21:11:17

#統計 参考になるまとめ https://t.co/pho8nsOc93 等分散検定から t検定,ウェルチ検定,U検定への問題点 井口豊 最終更新:2018年12月8日 そこで批判されていてリンクが切れているページの記録→ https://t.co/CqMGXj49wG

2022-07-30 00:19:05

#統計 情報満載の長大スレッド ↓ https://t.co/cJmQKE3i0h

Wilcoxon rank-sum/Mann–Whitney U testは最近はまとめてWMW検定と呼ばれたりする。 https://t.co/yBNsqeVaUr 同順位(タイ)があると警告が出る場合は、Rの{coin}パッケージwilcox_test()で正確な値が求まる。

2022-07-30 00:37:57

#統計 色々検索しても見つけられないのは、「違いをどのように測るかを安易に変えても良いことにすることによって、パラメトリック検定をノンパラメトリック検定でいつでも代替できる」というやり方がまずいことを明言している文献。 なぜ見つからない?

2022-07-30 00:51:13

#統計 例えば、リスクの違いを「差」「比」「オッズ比」のどれで測るかは統計分析では重大な違いになる(統計モデルが別になる)。 「平均の差」(Welch t)と「P(X

2022-07-30 00:55:48

#統計 違いの有無の検定のために、「違いはない」という仮説の内容を別のものに安易に変えて良いという考え方は、個人的な意見では、科学研究において極めて有害。 以下のリンク先でも紹介した nullism を批判している論文 https://t.co/OQ2NCblpft の話に繋がる。 https://t.co/LiA3pI9cdH

2022-07-30 01:00:25

#統計 論文 https://t.co/OQ2NCblpft の要約: 「違いがない」の型の仮説のP値だけではなく、「違いは○○である」(○○は具体的な数値)の型の無数の仮説についてもP値も計算しよう! P値はデータとモデルの整合性(compatibility, 両立性)の指標であることを忘れずに!

2022-07-30 01:10:21

#統計 Welchのt検定での自由度の式の出し方

2022-07-30 01:30:09

#統計 Brunner-Munzel検定の #Julia言語 での実装を書いてくれるようないい人が、BM検定はMann-WhitneyのU検定と同等なパチもん検定だと言っていることは、個人的に精神的に来るものがある。 BM検定は原論文が読み易いです。 https://t.co/Jq0K3R0VXQ https://t.co/ctOPdIzNjC

2022-07-30 07:35:55

#統計 Mann-WhitneyのU検定では、XとYが同分布であるという設定でP値を計算し、その設定の下でU統計量の平均と分散はXとYの標本サイズm,nだけで決まり、 E[U] = mn/2 var(U) = mn(m+n+1)/12 となる。 Brunner-Munzel検定では、同分布性を仮定しないのでこうならない。 https://t.co/vttRyN370T

2022-07-30 07:41:23

#統計 Brunner-Munzel検定では U = (x_i < y_j となる(i,j)の個数) + (x_i = y_j となる(i,j)の個数)/2 のmn分の1 p̂ = U/(mn) を統計モデルのパラメータ p = P(X < Y) + P(X = Y)/2 の不偏推定量として使います。そして、帰無仮説は p = 1/2 です。無限個のnuisanceパラメータがある状況。

2022-07-30 07:46:24

#統計 Mann-WhitneyのU検定の設定では「XとYの分布が等しい」という統計モデルを採用するので、簡単のため連続分布を仮定すると、サンプルサイズm,nだけで確率変数Uの分布が決まってしまいます。 だから、Uの分布における確率を正確に(高校数学的に)計算できる。 Brunner-Munzel検定の場合は違う。

2022-07-30 07:50:52

#統計 Brunner-Munzel検定では、「P(X < Y) + P(X = Y)/2 = p」という統計モデルを採用して、帰無仮説として「p=1/2」を採用する。標本サイズm,nを決めても、帰無仮説下の統計モデルにおいて、Uの分布はただ一つに確定しません。 この場合には無限個のnuisanceパラメータが残された状況になっている。

2022-07-30 07:55:08

#統計 だから、Brunner-Munzel検定の設定では、Mann-Whitneyの場合と違って、Uに関するモデル内確率を正確に計算してP値を定義することは不可能なのです。 これは、正規分布を仮定しない場合のWelchのt検定の場合とほぼ同じ型の問題になっています。

2022-07-30 07:59:13

#統計 Brunner-Munzel 2000 https://t.co/Jq0K3R0VXQ の本質は、大雑把に言うと、 P(X < Y) + P(X = Y) = p のみが仮定されている状況で、Uの分散の推定量を作ったことです。論文の解説が非常に良いです。 そこから先のストーリーはWelchのt検定と同じです。

2022-07-30 08:03:31

#統計 Brunner-Munzel検定の論文 Brunner-Munzel 2000 https://t.co/Jq0K3R0VXQ のストーリーは、Welchのt検定に似ているので、Welchのt検定への理解を深めるためにも役に立ちます。 特に、正規分布性を仮定しないWelchのt検定の理解にも役に立つ論文だと思います。

2022-07-30 08:07:01

#統計 当たり前のことですが、Brunner-Munzel検定は、平均の差に関するWelchのt検定の代替物ではありません。違いの測り方が全然違う。

2022-07-30 08:19:36

#統計 Welchのt検定では、「平均の差はゼロである: μ_x - μ_y = 0」という仮説だけではなく、任意の数値Δμに関する「μ_x - μ_y = Δμ」という仮説のP値も計算できます。 このΔμを「効果量」を意味するパラメータとして使える。 Brunner-Munzelでどうするかは悩みどころ。続く

2022-07-30 08:24:36

#統計 Brunner-Munzel検定では、 p = P(X < Y) + P(X = Y)/2 とおくとき、「p=1/2」という仮説だけではなく、任意の0≤p₀≤1を満たす数値p₀に関する「p=p₀」の型の仮説のP値も計算でき、パラメータpの信頼区間も構成できます。 だから、このpを効果量の指標の1つとみなすこともできる。続く

2022-07-30 08:29:16

#統計 このpが本当に欲しい効果量の指標かどうかは目的によります。 pはXチームとYチームのそれぞれから無作為に戦闘員を選んで闘わせたときのY側が勝つ確率です。戦闘力がほんの少しでも上回っていれば勝てるので、戦闘力の順位だけが問題になり、戦闘力の値の大きさは無視されることになる。

2022-07-30 08:33:00

#統計 単なる勝ち負けだけではなく、戦闘力の値の大きさが重要な場合には、上のpは効果の大きさと向きを測るための指標として不適切だということになります。

2022-07-30 08:34:34

#統計 個人的な印象では、「効果の大きさと向きをどのように適切に測るか?」に関する議論は科学的に健全に見えるのですが、それとは対照的に、効果をどのように適切に測るかの議論を含まない「有意差を出すためにはどういう手段があるか」の型の議論は極めて不健全で科学的に有害に見える。

2022-07-30 08:37:32

#統計 Mann-WhitneyのU検定については、「XとYの分布は等しい」という仮説を「Xの分布はYの分布をhだけ平行移動して得られる」という仮説に一般化するバリエーションがあります。 この場合には効果量の指標としてhが使える。

2022-07-30 08:41:46

#統計 同様の一般化をBrunner-Munzel検定でもできることは自明。 Xの分布とYの分布をそのまま比較するのではなく、Xの分布とYの分布をhだけ平行移動して得られる分布を比較して、hを効果量の指標として採用することもできる。続く

2022-07-30 08:44:51

#統計 Y側の戦闘員の戦闘力だけにhを加えた場合に、BM検定を適用することと同じ。 戦闘力の数値がすべて正ならば、Y側の戦闘員の戦闘力だけをc倍した場合に、BM検定を適用することにして、cを効果量の指標として採用することもできるでしょう。

2022-07-30 08:47:29

#統計 ゲームは意味のある選択肢が増えた方が楽しい。 単に「有意差を出す」という安易で不健全に見えるゲームを行うよりも、「効果をどのように適切に測るか」のようなゲームで遊んだ方が楽しいと思う。 ↓ https://t.co/OQ2NCblpft

2022-07-30 08:50:33

#統計 この話題は、仮説検定を背理法の確率論的拡張として説明することの教育面での弊害とも直接的に関係があります。 仮説検定を背理法の拡張として説明する場面では、  違いがあることを示すために  違いがないと仮定して云々 のように「有意差検定」の文脈で説明されることが多い。続く

2022-07-30 10:03:55

#統計 科学的な考え方が重要になるほとんどの場面で重要なのは、命題の真偽のような2値的な判断ではなく、量的な判断の方です。効果の大きさと方向が問題になることが多い。 統計学もそういう場面で使われているのに、2値的な判断に焦点をあてた説明は教育的にミスリーディングだと思います。

2022-07-30 10:06:46

#統計 仮説検定を背理法のようなものだと説明することは、厳しい批判にさらされている「違いがないという仮説のみを検定にかけて違いの有無を判断すること」(有意差検定)と相性が良過ぎます。 現代的には「背理法」という説明の仕方は廃するか注意深く説明するべきことになっていると思う。

2022-07-30 10:11:04

#統計 代替的な解説法は繰り返し紹介している以下の論文に書いてあります。 適当な統計モデルの下での「効果は○○である」(○○は具体的な数値)という仮説と観測データの整合性の指標の1つとしてP値を説明し、効果の大きさと方向の分析の重要性を強調する。 https://t.co/OQ2NCblpft

2022-07-30 10:15:44

#統計 2値的判断に焦点を当てたがる統計学に関する有害に見える説明の仕方は、哲学方面からも来ていて、別の頭の痛い問題を引き起こしています。 哲学のダメな側面に影響された人の中には、尤度を「証拠の確率」だと思うようになったりする。これもまた重大な問題。 https://t.co/iHbt9cd395

2022-07-30 10:22:15

#統計 「尤度」は「いぬど」と読んだり、「犬度」と書いても良い。 というのはウソなのですが、「犬度」をググるとちょっと面白いことになっていることに気付けます。 https://t.co/pTwInhZEFf "犬度" site:ac .jp について検索 https://t.co/o9Qre3GT3i

2022-07-30 10:33:57

#統計 情報募集中 尤度 likelihood を証拠 evidence だと言い始めたのは誰なのでしょうか? これ、相当な悪影響があった可能性がある。 https://t.co/XuWVmnS5ug

#統計 Fisherさんが不適切にlikelihoodと名付けた後に、誰かがそれをevidenceと呼び始める愚行を追加しています。 likelihoodをevidenceと呼ぶことは、ELBO=evidence lower boundという用語にも現れている。 誰がevidenceと呼び始めたのかについて知っている人がいたら教えてください。 https://t.co/56fIl06IOv

2022-07-30 10:41:19

#統計 尤度を証拠だと言っている人達の問題は https://t.co/JtAeaSxqdv "証拠" "尤度" を検索 した方が分かりやすいです。 エリオット・ソーバー著『科学と証拠-統計の哲学 入門-』 の悪影響が大きい。 こういう本に知的ステータスの高さを与えている人達の問題があることが分かります。 

2022-08-01 07:35:45

#統計 仮に最尤法が使える場合に制限しても、尤度は、「統計モデルのデータの数値への適合度の指標の1つ」としては使えても、証拠の指標としては不適切です。オーバーフィッティングの問題がある。 制限無しだと最尤法が破綻する場合もあるので、尤度を証拠だと言い張るのは相当におかしい。 https://t.co/yvulOw18c9

#統計 #Julia言語 添付画像の尤度函数は、分布 p(x|μ, t) = 0.5 N(x) + 0.5 N((x-μ)/exp(t)) のサイズ10の標本分布モデルの尤度函数の例です。 ここで、N(x)は標準正規分布の密度函数。 このモデルでは忠実な最尤法は破綻する。 https://t.co/kPlozfsaXv https://t.co/433eOhxeaQ

2022-08-01 07:43:38

#統計 統計モデルをp(x|μ,σ)=0.5N(x)+0.5N((x- μ)/σ)の標本分布としたとき、データの数値x_1,…,x_nに関する尤度函数の最大化は、μ=x_i, σ=0の∞になって、文字通りの尤度最大化は破綻します。 しかし、事前分布または罰則項による正則化でσが0に近付けなくすると意味のある推定ができるようです。 https://t.co/yvulOw18c9

#統計 #Julia言語 添付画像の尤度函数は、分布 p(x|μ, t) = 0.5 N(x) + 0.5 N((x-μ)/exp(t)) のサイズ10の標本分布モデルの尤度函数の例です。 ここで、N(x)は標準正規分布の密度函数。 このモデルでは忠実な最尤法は破綻する。 https://t.co/kPlozfsaXv https://t.co/433eOhxeaQ

2022-08-01 08:04:17

#統計 p(x|μ,σ)=0.5N(x)+0.5N((x- μ)/σ) (N(x)は標準正規分布の密度函数)というモデルの採用は、母集団が 半分は標準正規分布 残りの半分は未知の正規分布 で構成されているとみなすことを意味しています。こういう一見単純に見えるモデルで最尤法は破綻し、事前分布を使う方法はうまく行く。

2022-08-01 08:07:37

#統計 p(x|μ,σ)=0.5N(x)+0.5N((x- μ)/σ) (N(x)は標準正規分布の密度函数)というモデルでは、「尤度はモデルのデータへの適合度の指標」という見方も苦しくなっています。 この場合の尤度はμをデータ中の数値のどれかx_iに設定し、σを0に近づければいくらでも大きくなる。

2022-08-01 08:10:33

#統計 尤度だけに頼る統計分析が破綻するような統計モデルはこのように簡単に作れる。しかもこの手の話は結構有名。 ❌尤度はもっともらしさを意味する。 ❌尤度は証拠を意味する。 ⭕️尤度はモデルのデータへの適合度の指標としては使える場合が多い。 ⭕️尤度を最大化しない方がよいモデルもある。

2022-08-01 08:14:33

#統計 哲学方面からの統計学を害する行為は、主に「Royallの3つの問い」について宣伝している人たちによって行われているように見えます。 これ社会的な信頼度が高い人が宣伝している場合があるので要注意です。 統計学の哲学で有名なMayoさんも、「Royallの3つの問い」の見方を拒否しています。 https://t.co/TLSe4cDQBf

#統計 Mayoさん曰く * Royallの3つの問いの「戒律」によれば ①何を信じるか→ベイジアンの事後分布 ②どう行動するか→Neyman-Pearsonの方法による長期的なパフォーマンスの良さ ③証拠の比較→尤度比較法 となるが、あなたはこれら全部を拒否したいかもしれません。私が拒否しているように。

2022-08-01 08:21:26

#統計 p(x|μ,σ)=0.5N(x)+0.5N((x- μ)/σ) (N(x)は標準正規分布の密度函数)というモデルは以下のような場合に使える。 * 母集団は既知の正規分布と未知の正規分布が半々で混ざってできているっぽい。未知の正規分布の側をデータから推定したい。 たったこの程度のことで単純な最尤法は破綻する。 https://t.co/yvulOw18c9

#統計 #Julia言語 添付画像の尤度函数は、分布 p(x|μ, t) = 0.5 N(x) + 0.5 N((x-μ)/exp(t)) のサイズ10の標本分布モデルの尤度函数の例です。 ここで、N(x)は標準正規分布の密度函数。 このモデルでは忠実な最尤法は破綻する。 https://t.co/kPlozfsaXv https://t.co/433eOhxeaQ

2022-08-01 08:51:32

訂正 https://t.co/2qN6x9gR1t

#統計 訂正 ❌p(x|μ, t) = 0.5 N(x) + 0.5 N((x-μ)/exp(t)) ⭕️p(x|μ, t) = 0.5 N(x) + 0.5 N((x-μ)/exp(t))/exp(t) または ⭕️p(x|μ,t) = 0.5 pdf(Normal(0,1),x) + 0.5 pdf(Normal( μ,exp(t)),x) 今までずっと"/exp(t)"を書き忘れていた。 https://t.co/Tw6wRjEvfL

2022-08-01 14:12:46

#統計 標準正規分布と未知の正規分布が半々で混ざっている 混合正規分布モデル で 最尤法は破綻 しますが、尤度函数をローカルマキシマムにするパラメータ値を推定値として採用すると、結構良さげに推定可能です。 t = log σが-∞にぶっ飛んで行かないように最適化を実行すればよい。

2022-08-01 14:19:08

#統計 特殊な初期値を採用しない限り、数値的な最適化で t = log σ → -∞ となることは起こらないので、以上の話を数値計算で確認するときには注意。

2022-08-01 14:21:30

#統計 ❌尤度が大きいなら尤もらしい ↑ これはひどい誤り 標準正規分布と未知の正規分布が半々で混ざっている混合正規分布の標本分布モデルでは、ある値以上では、尤度を大きくすればするほど尤もらしさは失われる。 https://t.co/kPlozfsIN3

2022-08-01 15:26:45

#統計 小さなP値の値が強い証拠になるとは限らない点にも注意。 P値はデータの数値と統計モデルから計算される値なので、データ取得と統計モデルの設計に問題があったせいで、P値が小さくなった可能性にも配慮しなければいけない。 入門的解説の多くで統計モデルの存在をガン無視している。

2022-08-02 08:53:51

#統計 データもモデルも信用できなくても使えるP値の解釈は、  データの数値とモデル+パラメータ値の整合性の指標の1つ だとP値をみなすことです。 信用できないデータと不適切なモデルの間に整合性が全然ないというような可能性は十分にあり得る。 ASA声明を参照 ↓ https://t.co/nJHD078BDd

@EvidenceObasan #統計 P値の定義が間違っているので訂正が必要です(添付画像①、ALTも参照)。 P値の定義についてはP値に関するASA声明 https://t.co/9BOsnAvBQA を参照。ただし添付画像②の赤字の追加に注意。 統計モデルを変えるとP値も変わるので注意! P値に関する素晴らしい解説→ https://t.co/Rqkf7zO3Ey

2022-08-02 08:58:50

#統計 P値や信頼区間の普遍的に通用する解釈の仕方については、しつこく宣伝している以下の短い論文の解説と提案が今まで読んだものの中でもっともわかりやすかったです。 これ、統計学入門の講義をする人達は目を通しておくべきだと思う。 https://t.co/OQ2NCblpft

2022-08-02 09:01:46

#統計 https://t.co/OQ2NCblpft >an observed p-value is a measure of compatibility (or consonance or consistency) between the observed data and a tested hypothesis, given a set of statistical assumptions (such as linearity and normality) which we will call the background model.

2022-08-02 09:06:39

#統計 続き P値は観測データと検定したい仮説の両立性(協和性、整合性)の尺度である。ただし、線形性や正規性といった統計的仮説群(これを背景モデルと呼ぶ)が与えられた下での尺度になっていることに注意せよ。統計モデルも両立性(協和性、整合性)を測る対象になっている。

2022-08-02 09:19:30

#統計 例えば、2つの標本のデータから「母平均の差はゼロである」という仮説とP値を計算するときには、 2つの標本平均の分布が中心極限定理によって正規分布で近似されているというモデルの仮定を使う。 「2つの標本平均の分布が正規分布で近似されている」という仮定が背景モデルに含まれている。

2022-08-02 09:23:42

#統計 「2つの母集団が正規分布に従っている」という仮定は強過ぎる点に注意。 P値を計算するときに使う背景モデル(=統計モデル)の正確な説明は相当に難しいです。 t検定の説明で「正規母集団を仮定する」という説明だけで済ます教科書群達のせいで大変な被害が生じています。

2022-08-02 09:27:13

#統計 関連 t検定については「正規母集団」という強過ぎる(狭過ぎる)背景モデルを想定する。 Mann-WhitneyのU検定については分布に仮定がないという不適切な背景モデルを想定する。 こういうことを高等教育機関がやりまくっている疑いがある。 https://t.co/nHnbL2bYB0

#統計 【この前も正規分布しないデータをt検定にかけていたけど、その場合はマンホイットニー等を使うべきだろう。こんなことは医学部1年の4月に習うことだぞ。】 よく見る典型的な誤り。複数の意味でまずい。 本当に医学部でそう教えているなら、憂慮するべき事態になっている。 https://t.co/ZZbZVvA1Tz

2022-08-02 09:31:46

#統計 Mann-WhitneyのU検定自体は 2つの母集団分布に何の仮定もせずに実行可能です。 ただし、帰無仮説は「 2つの分布は等しい」(←t検定の帰無仮説「2つの平均は等しい」よりも圧倒的に強い)になります。 例えば、2つの分布の分散や形状が異なっていても帰無仮説は棄却され易くなります。

2022-08-02 09:35:45

#統計 だから、「AよりBが優れている」というような結論をMann-WhitneyのU検定から出すためには、母集団分布について相当に強い仮定が必要になります。 よく言われている仮定は「Aの分布はBの分布を平行移動したものになっている」です。添付画像を参照。

2022-08-02 09:41:12

#統計 「2つの分布の形状が同じ」という仮定は、おそろしく強い仮定です。例えば、分散が違っていたらアウト。分散が等しいだけでも全然ダメ。 分散と中央値が等しくても、有意水準5%のMann-WhitneyのU検定で帰無仮説が34%以上の確率で棄却されてしまう場合も容易に作れます。 https://t.co/eXx4nOBSPW

#統計 #Julia言語 中央値と分散が互いに等しい2つの分布から取ったサンプルにMann-WhitneyのU検定を適用すると、P値が5%以下になる確率が34%を超えてしまう例。 各種の有意差検定についてこういう知識を沢山持っていてかつ悪意があれば、有意差は幾らでも出せそう。😈 https://t.co/mmzvV0XgoZ

2022-08-02 09:45:38

#統計 Mann-WhitneyのU検定は「2つの母集団の分布が定数差の違いを除いて等しい」という極めて強い仮定の下で使わないと、不当な方法で有意差を出す方法になってしまいかねない点に注意が必要です。 教育現場での背景モデルの説明は難しいですが、きちんとやっておかないとまずい。

2022-08-02 09:48:50

#統計 統計学について、現実の高等教育はおそろしく厳しいことになっています。 心理統計の人達は「論文に記載されたt検定を理解するために必ずしも確率分布の概念は必要ない」と言っていた! 確率分布の概念抜きに背景モデル(統計モデル)について考えることは不可能です! 滅茶苦茶過ぎて酷い。 https://t.co/potXMfJ09D

#統計 「論文に記載されたt検定をりかいするために必ずしも確率分布の概念は必要ない」と提案している人達自身の、統計学の理解度を評価するべきだと私は思いました。 ❌t検定では正規母集団の仮定が必須 と述べていたらアウト。さらに ❌多段階検定の問題に触れていない のもアウト。続く https://t.co/RChlqOflGN

2022-08-02 09:53:52

#統計 以下のリンク先の例より、2つの分布に関する強い仮定無しの場合に、Mann-WhitneyのU検定は「分散が等しいという仮定の下での中央値に関する検定」では__ない__ことも分かります。 検索すると、ノンパラだと中央値に関する検定だと誤解していそうに見える人達が沢山いるように見える。 https://t.co/eXx4nOBSPW

#統計 #Julia言語 中央値と分散が互いに等しい2つの分布から取ったサンプルにMann-WhitneyのU検定を適用すると、P値が5%以下になる確率が34%を超えてしまう例。 各種の有意差検定についてこういう知識を沢山持っていてかつ悪意があれば、有意差は幾らでも出せそう。😈 https://t.co/mmzvV0XgoZ

2022-08-02 10:08:43

#統計 しかも、ノンパラメトリック検定は平均ではなく中央値に関する検定であるかのような誤解は、解説を書く側の人達(社会的に統計学に詳しいと評価されているような人達)の多くがしているように見える。 多分、背景モデル(統計モデル)について正確に説明しない慣習のせいでそうなっている。

2022-08-02 10:12:13

#統計 私は正直言って、「背景モデル(統計モデル)について正確に説明しろ」と言われると、難しいと感じるので「うげっ!」となります。 教科書に書いてあれば良いのですが、なぜか慣習的にそうなっていないように見える。インターネット上で公開された講義録の多くでも正確に説明されていない。

2022-08-02 10:14:47

#統計 等分散(または等標本サイズ)の条件が必要なStudentのt検定の代わりにWelchのt検定(使用可能条件は標本平均の分布に中心極限定理がよく効いていること)が使えるのと同じように、Mann-WhitneyのU検定の代わりにBrunner-Munzel検定(使用可能条件には中心極限定理が関係)を使えます。

2022-08-02 10:20:25

#統計 ただし、Brunner-Munzel検定では、中心極限定理を使っているので、標本サイズが小さい場合には誤差が非常に大きくなるリスクがあります。 万能の検定は存在せず、目的に合わせて、トレードオフを考慮して選択する必要がある。

2022-08-02 10:25:47

#統計 個人的に非常にまずいことになっていると思うのは、  効果の大きさと向きをどのように測るか と  検定法の選択 は表裏一体なのに、単に「有意差を出すこと」のみを考えて、パラメトリック検定の代替物としてノンパラメトリック検定を安易に選ぶことです。やっていることが滅茶苦茶。

2022-08-02 10:25:48
シェア

私については https://t.co/4Rn1NBazJQ と https://t.co/WbWjr95AmF と https://t.co/P7WOMn2ay1 と https://t.co/ouhJUcBE7E を見て下さい。

ツイノートは、Twitterのスレッドをまとめるサービスです。まとめたいスレッドの最後のスレッドに「@twinotes まとめて」と返信するとまとめが作成されます

関連するスレッド

黒木玄 Gen Kuroki @genkuroki
2182022-09-22 19:26:25

#統計 参考になります。 なるほど、準一級のワークブックにこういう書き方がしてあるせいで、ノンパラメトリック検定について誤解する人達が継続的に生産され続けているのか! 青線と橙線及び青字と橙字は私による。 Wilcoxonの順位和検定では、母集団分布について非常に強い仮定を使います。 https://t.co/MfD0v58Pz9

黒木玄 Gen Kuroki @genkuroki
221012022-04-01 13:35:06

#統計 https://t.co/eoKrk67JZ7 「仮説検定とP値の誤解」佐藤俊哉 現実への統計学の適切な応用の仕方の理解に繋がる重要事項は、以下に添付画像の形式で引用した「誤解」です。 動画を視聴するときには、このことの理解につながる具体的な事柄に意識を集中するべきです。 https://t.co/meMVVuY6pr

黒木玄 Gen Kuroki @genkuroki
14572022-06-20 20:20:05

#統計 (1) これ↓を見て、フィッシャーの正確確率検定(やピアソンのχ²検定)をいきなり適用しようとした人はちょっとまずすぎ。 (2)あと「ベイズ」とか言っている人達もかなり変なことを言っている人が目立つ感じ。 解説に続く。 https://t.co/YuHHZ4umUC

黒木玄 Gen Kuroki @genkuroki
5282022-08-26 23:05:06

#統計 東大出版会の『統計学入門』を信頼できる教科書だと思ってしまうと、ミスリーディングな解説を受け入れてひどいことになるので要注意。 信頼区間、尤度、パラメトリック、…、基本概念達についてことごとくミスリーディングな解説が並んでいる。 信頼区間の解説のまずさの説明に続く。 https://t.co/DOrKVqjOcN

黒木玄 Gen Kuroki @genkuroki
7332022-06-13 13:28:02

#統計 うけるwww ①標本平均の平均≠母平均❗️ ②標本平均の分布の分散が母分散にほぼ等しく見える❗️ ③仮に母集団の分布の曲線が確率密度関数ならその内側の面積は1になる。標本平均の分布の確率の総和は1にならないらしい(笑) ④標本の分布って経験分布のこと? https://t.co/vOS4m7Z7Sd

黒木玄 Gen Kuroki @genkuroki
34019552022-03-02 10:50:00

#統計 何度も「これはいい!」と言っているのですが、 https://t.co/eoKrk67JZ7 京都大学大学院医学研究科 聴講コース 臨床研究者のための生物統計学「仮説検定とP値の誤解」佐藤 俊哉 医学研究科教授 は非常にいいです。 特に大学で統計学の入門的講義をしている人達はこれをみておくべき。

黒木玄 Gen Kuroki @genkuroki
9322022-07-15 11:19:23

#統計 「統計的に有意でない」の真の意味は「判断を保留する」です。 しかし、「統計的に有意でない」という言い方の強い響きによって「統計的には意味がない」のように誤解されがちだと思う。 さらに、「判断を保留する」と言うだけだと、「何にも分からなかった」という誤解を生むかもしれない。 https://t.co/IkV7sYNjBJ

黒木玄 Gen Kuroki @genkuroki
132022-09-19 16:23:38

#統計 ううむ、ヒストグラムはビンの取り方によって全然違う印象のグラフが出来上がることは、教育のどこかの段階で強調しなければいけないことだと思うのですが、ググってもよい解説を見つけることができないでいます。 よい解説があったら教えて下さい。

食品安全情報blog2「科学者がどう間違っているのか説明するのに子犬が役立つ」https://t.co/OSLmWB7n8n ”https://t.co/gmgKLGdJnf 科学におけるp-ハッキングは悪いことだ。犬の飼い主を例に使って、数学なしでそれが何を意味するのかを理解できる”⇒

ののわ @nonowa_keizai
171728472022-10-02 21:54:06

発足早々各方面から批判を集めている日本ファクトチェックセンター。週末ツイッターを眺めてたら ファクトチェック: 「沖縄県知事選3ヶ月前から那覇市だけでも100人以上人口増」は不正確 との記事が流れてきました。 https://t.co/vz0dUE646H

influenzer @influenzer3
5648732022-05-14 20:39:51

●オピニオン:Long COVIDのリスクを無視するな! →今回は、ワシントンポストに掲載されたopinionを取り上げます。 著者は米国のCOVID-19諮問委員会の委員歴のあるペンシルバニア大学のi医療倫理学者。 「パンデミックは終わった」とする社会の空気に警鐘を鳴らす内容になっています。

「アルミサッシ」が悪者にされているように見えるけど、開口部(ガラス窓)の断熱性に対するアルミサッシの寄与率ってどんなもんなんだろうな? 面積的にはガラス部分が大半を占めているわけで。 https://t.co/muXvUnHyQx

influenzer @influenzer3
36812022-04-12 21:08:08

●ワクチン接種者におけるオミクロン株 vs デルタ株感染の病原性比較 →オミクロン株がデルタ株より病原性が低いのは、すでにコンセンサスが得られた事実です。 今回の報告ではワクチンを2回以上接種している群を対象として、ブレイクスルー感染のオミクロン株 vs デルタ株の病原性比較をしています。

倉持仁 @kuramochijin
216365122022-05-21 13:00:47

みなし陽性、感染爆発期に医師が診断するなら良いですが、保健所がみなしたり、自分で抗原検査してみなしたり、そんな事が横行。診断は医師しかできないはずですが、そんなの関係なく無症状と勝手に診断し、治療が受けられない!きちんとした統計学的データも取れず、薬ワクチン効果の検証もできない

小笠原浩之 @nonamehiero
072022-07-31 11:30:50

@4XikHY8GIhh21oX @genki_sudo 日本人 A様 ご返信いただき心より感謝申し上げます。 医療関係に関して素養は皆無なことを予めお断りいたします。 PCR検査キットも万能ではないでしょうから、種々のウィルスへの反応を示すかもしれません。 そこで、こちらのデータの出所はどちらでしょうか? また、臨床試験等の結果でしょうか?

プログラミングに興味のある医療従事者が結構多いので、自分がどのようにして学習してきたかをまとめておきます。3年半の軌跡です。ちなみに高額なプログラミングスクールを薦めることはありませんのでご安心下さい(そもそも通ったことない) (▶︎続く)

FUKEP2 @FUKEP2
002020-06-18 15:54:00

つぶやく場所を変えて続行します 今までやりたい放題の悪事を重ね 司法のブラック化を推し進めようとして 検察を心の底から怒らせた逮捕劇 検察側は予定通り進めていきます DSが元気だった去年までとは異なります 日本から手を放した様子がうかがえます ꧃இண ௵ୌ x҉ 「見えない幻」検索方法-109

日本におけるマスク 1879(明治12)年 いわしや松本市左衛門「呼吸器広告」 (北多摩薬剤師会〔平井有〕) https://t.co/newvlBmPTY

emuzu @emuzuchan
1274162022-07-16 16:03:41

2022年7月16日GCRによる共和国の復活 チェックメイト 日 2022年7月17日 カムバック・リザレクション ミッション成功 - Well Done, Patriots! 知れば知るほど。 神は常に勝利する 計画を信じる "何が起こるか見るまで待ちなさい。素晴らしいことが起こるだろう。" ...ドナルド・J・トランプ

The Sun Snores Press @taiyonoibiki
1842932022-07-17 21:22:48

ロシア介入4ヶ月後のウクライナ再評価/スコット・リッター シリーズ⑹習近平も決してホラを吹かない。 今年2022年2月24日、ロシアは ❶ウクライナの非ナチス化 ❷ウクライナの非NATO化 という二つの明確な目的を挙げてウクライナに軍事介入しました。