设 X 和 Y 为取值在 {0,1} 中的随机变量。对于参数 α,β,γ∈[0,1],定义概率如下:
- P(X=0)=α
- P(X=1)=1−α
- P(Y=0∣X=0)=β
- P(Y=1∣X=0)=1−β
- P(Y=0∣X=1)=γ
- P(Y=1∣X=1)=1−γ 定义二进制熵函数 h(p) 如下:
h(p)={−plogp−(1−p)log(1−p),0,如果 0<p<1如果 p=0 或 p=1
- 使用二进制熵函数表达条件熵 H(Y∣X)。
- 若 β=1−γ,求使相互信息量 I(X;Y) 最大化的 α 值,并用二进制熵函数及 α,β 表达 I(X;Y) 的最大值。
- 固定 α,β 的值(0<α<1),求使相互信息量 I(X;Y) 最小化的 γ 值,并表示该最小值。
- 固定 α,β 的值(0<α<1,β>21),求使相互信息量 I(X;Y) 最大化的 γ 值。
条件熵 H(Y∣X) 表达了在给定 X 的情况下,随机变量 Y 的不确定性。根据题目中的概率定义,我们可以写出:
H(Y∣X)=x∈{0,1}∑P(X=x)H(Y∣X=x)
根据条件概率的定义,我们知道:
- 当 X=0 时,P(Y=0∣X=0)=β 和 P(Y=1∣X=0)=1−β;
- 当 X=1 时,P(Y=0∣X=1)=γ 和 P(Y=1∣X=1)=1−γ。 因此,对于每个条件,Y 的熵分别为:
H(Y∣X=0)=h(β),H(Y∣X=1)=h(γ)
其中,二进制熵函数 h(p) 定义为:
h(p)=−plogp−(1−p)log(1−p)(如果 0<p<1)
因此,条件熵 H(Y∣X) 为:
H(Y∣X)=αh(β)+(1−α)h(γ)
其中,α 是 P(X=0),而 1−α 是 P(X=1)。
相互信息量 I(X;Y) 定义为:
I(X;Y)=H(Y)−H(Y∣X)
其中,H(Y∣X) 是条件熵,已在第一部分给出:
H(Y∣X)=αh(β)+(1−α)h(γ)
而 H(Y) 是 Y 的熵,它可以通过求解 P(Y=0) 和 P(Y=1) 来得到。我们首先计算 P(Y=0) 和 P(Y=1):
P(Y=0)=P(Y=0∣X=0)P(X=0)+P(Y=0∣X=1)P(X=1)=αβ+(1−α)γ
P(Y=1)=P(Y=1∣X=0)P(X=0)+P(Y=1∣X=1)P(X=1)=α(1−β)+(1−α)(1−γ)
因此,H(Y) 为:
H(Y)=h(αβ+(1−α)γ)
结合 H(Y∣X),我们得到相互信息量 I(X;Y) 为:
I(X;Y)=h(αβ+(1−α)γ)−[αh(β)+(1−α)h(γ)]
现在,要求 I(X;Y) 最大化。题目中给定了 β=1−γ,因此我们可以将其代入并进行求解。为了最大化 I(X;Y),我们需要找到使 h(p) 最大的 p,而二进制熵函数 h(p) 在 p=0.5 时最大。所以,要求:
αβ+(1−α)γ=0.5
将 β=1−γ 代入,得到:
α(1−γ)+(1−α)γ=0.5
解这个方程,得到 α 的最优值。通过整理:
α−αγ+(1−α)γ=0.5
α−αγ+γ−αγ=0.5
α+γ(1−2α)=0.5
这给出的是关于 α 和 γ 的关系。为了进一步分析,可以根据具体的 γ 值来求解 α。
我们从相互信息的定义出发:
I(X;Y)=H(Y)−H(Y∣X),
其中:
H(Y∣X)=αh(β)+(1−α)h(γ).
边缘熵 H(Y) 计算如下:
P(Y=0)=αβ+(1−α)γ,P(Y=1)=1−P(Y=0),
H(Y)=h(P(Y=0))=h(αβ+(1−α)γ).
因此,相互信息为:
I(X;Y)=h(αβ+(1−α)γ)−[αh(β)+(1−α)h(γ)].
要使 I(X;Y) 最小化,可以通过调整 γ 来让 H(Y)−H(Y∣X) 的差最小。
- 当 γ=β 时:
P(Y=0)=αβ+(1−α)β=β.
此时:H(Y)=h(β),H(Y∣X)=αh(β)+(1−α)h(β)=h(β).
相互信息:I(X;Y)=h(β)−h(β)=0.
当 γ=β 时,相互信息 I(X;Y) 取得最小值,且最小值为:
I(X;Y)=0.
相互信息最大化的关键是调整 γ 使 H(Y)−H(Y∣X) 的差最大化。为此,我们需要最大化 H(Y) 并最小化 H(Y∣X)。
H(Y∣X)=αh(β)+(1−α)h(γ).
γ 应选择使 h(γ) 最小,即:
γ=0或γ=1.
此时 h(γ)=0,有:
H(Y∣X)=αh(β).
当 γ=0 或 γ=1 时:
P(Y=0)=αβ+(1−α)γ.
- 若 γ=0,则 P(Y=0)=αβ。
- 若 γ=1,则 P(Y=0)=αβ+(1−α)=α(β−1)+1。 我们选择 γ 使 P(Y=0) 接近 0.5,从而使 H(Y) 最大化。