В таком случае, только в том случае, когда объединенное распределение между этими переменными выглядим как описано ниже, — между ними нет общей информации:
(Z1Y1:3/16)(Z1Y2:3/32)(Z1Y3:3/64)(Z1Y3:3/64)(Z1Y1:3/16)(Z1Y2:3/32)(Z1Y3:3/64)(Z1Y3:3/64)
(Z2Y1:5/16)(Z2Y2:5/32)(Z2Y3:5/64)(Z2Y3:5/64)(Z2Y1:5/16)(Z2Y2:5/32)(Z2Y3:5/64)(Z2Y3:5/64)
Это распределение подчиняется закону:
P(Y,Z)=P(Y)P(Z)P(Y,Z)=P(Y)P(Z)
Например,
P(Z1Y2)=P(Z1)P(Y2)=3/8∗1/4=3/32P(Z1Y2)=P(Z1)P(Y2)=3/8∗1/4=3/32
Заметьте, что мы можем узнать маргинальные (независимые) вероятности YY и ZZ просто посмотрев на объединенное распределение:
P(Y1)P(Y1) — полная вероятность всех возможных состояний Y1Y1 в общем распределении:
P(Y1)=P(Z1Y1)+P(Z2Y1)=3/16+5/16=1/2P(Y1)=P(Z1Y1)+P(Z2Y1)=3/16+5/16=1/2
Так что просто проанализировав общее распределение, мы можем определить являются ли маргинальные переменные YY и ZZ независимыми; т.е. когда объединенное распределение разлагается на маргинальные распределение — когда для всех YY и ZZ P(Y,Z)=P(Y)P(Z)P(Y,Z)=P(Y)P(Z).
И это важно, ведь в соответствии с теоремой Байеса:
P(Yi,Zj)=P(Yi)P(Zj)P(Yi,Zj)=P(Yi)P(Zj)
P(Yi,Zj)/P(Zj)=P(Yi)P(Yi,Zj)/P(Zj)=P(Yi)
P(Yi|Zj)=P(Yi)P(Yi|Zj)=P(Yi)
Что можно выразить словами: после того, как мы узнали состояние ZjZj, наше знание о YiYiникак не изменилось.
Так что когда распределение разлагается, когда P(Y,Z)=P(Y)P(Z)P(Y,Z)=P(Y)P(Z), то это равноценно тому, что мы, узнав о YY, не получим никакой информации о ZZ, и наоборот.
И зная это, вы можете, совершенно справедливо, начать подозревать, что между YY и ZZ нет общей информации. А там где нет общей информации, нет и байесианских свидетельств и наоборот.
Предположим, что в вышепоказанном распределении YZYZ мы будем рассматривать каждое возможное сочетание YY и ZZ, как отдельное событие — так что это распределение будет иметь всего 8 возможных вариантов с уже известными вероятностями, тогда мы сможем вычислить энтропию YZYZ точно так же, как и в прошлый раз:
3/16∗log2(3/16)+3/32∗log2(3/32)+3/64∗log2(3/64)+…+5/64∗log2(5/64))3/16∗log2(3/16)+3/32∗log2(3/32)+3/64∗log2(3/64)+…+5/64∗log2(5/64))
У вас получится тот же ответ, как если бы вы отдельно посчитали энтропии систем, а затем сложили бы их. Поскольку между системами нет общей информации, наша неопределенность относительно состояния совмещенных систем точно такая же, как и относительно суммы взятых отдельно. (Вычисления я тут показывать не стану — вы и сами можете это сделать, что касается доказательства — ищите «энтропию Шеннона» («Shannon entropy») или «общую информацию» («mutual information»).)
Но что если объединенное распределение не разлагается? Например:
(Z1Y1:12/64)(Z1Y2:8/64)(Z1Y3:1/64)(Z1Y4:3/64)(Z1Y1:12/64)(Z1Y2:8/64)(Z1Y3:1/64)(Z1Y4:3/64)
(Z2Y1:20/64)(Z2Y2:8/64)(Z2Y3:7/64)(Z2Y4:5/64)(Z2Y1:20/64)(Z2Y2:8/64)(Z2Y3:7/64)(Z2Y4:5/64)
Если вы сложите объединенные вероятности, чтобы получить маргинальные, вы обнаружите, что P(Y1)=1/2,P(Z1)=3/8P(Y1)=1/2,P(Z1)=3/8, и так далее — маргинальные вероятности такие же, как и раньше.
Но объединенные вероятности не всегда равны сумме маргинальных. Например, вероятность P(Z1Y2)=8/64P(Z1Y2)=8/64, где P(Z1)P(Y2)P(Z1)P(Y2) будут 3/8∗1/4=6/643/8∗1/4=6/64. Т.е. вероятность встретить Z1Y2Z1Y2 выше, чем мы бы ожидали, просто учитывая вероятности Z1Z1 и Y2Y2 отдельно.
Что в свою очередь подразумевает:
P(Z1Y2)>P(Z1)P(Y2)P(Z1Y2)>P(Z1)P(Y2)
P(Z1Y2)/P(Y2)>P(Z1)P(Z1Y2)/P(Y2)>P(Z1)
P(Z1|Y2)>P(Z1)P(Z1|Y2)>P(Z1)
И раз тут «необычайно высокая» вероятность P(Z1Y2)P(Z1Y2) определена как более высокая, чем можно предположить, отдельно рассмотрев маргинальные, можно сделать вывод, что наблюдение Y2Y2 увеличит вероятность наблюдать Z1Z1 и наоборот.
Поскольку есть какие-то состояния YY, дающие нам информацию и о ZZ (и наоборот), между ними должна быть общая информация, что вы и обнаружите — я уверен, хоть и не проверял — в результате вычисления энтропии YZYZ вы получите меньше неопределенности, чем в результате вычисления отдельно YY и ZZ. H(Y,Z)=H(Y)+H(Z)−I(Y;Z)H(Y,Z)=H(Y)+H(Z)−I(Y;Z) будут все больше нуля с логической необходимостью.
(Отступлю немного от темы для небольшого замечания. Симметрия общей информации показывает, что YY сообщает нам столько же о ZZ, в среднем, сколько ZZ об YY. В качестве упражнения для читателей я оставлю сопоставление этого и того, что рассказывают на курсах по логике. Что из того, что все вороны черные, следует что все вороны черные, но не следует, что все черные штуки — вороны. Насколько отличается симметричное движение вероятностей байесианства от угловатой логики, даже несмотря на то, что последняя — лишь дегенеративная версия первой?)
И тут вы спросите: «Какое все это имеет отношение к правильному использованию слов?»
и «Замени символ на суть», вы видели пример замены слова его определением с примером:Все [смертные, ~без перьев, двуногие] смертны
Сократ [смертен, ~без перьев, двуногий]