几何均数 (geometric mean, G)

用来描述对数正态分布(呈倍数关系)资料。

1.几何均数定义为:

$$ G = \sqrt[n]{X_{1} \cdot X_{2} \cdots \cdot X_{n}} $$

$$ = \lg^{-1}\left(\frac{\lg X_{1} + \lg X_{2} + \cdots + \lg X_{n}}{n}\right) = \lg^{-1}\left(\frac{\sum \lg X}{n}\right) $$

2. 对数正态分布的性质:

  • 若一个随机变量 ( X ) 的对数 ( Y = ln(X) ) 服从正态分布,则 ( X ) 服从对数正态分布。
  • 对于对数正态分布的数据,通常是呈现右偏态,数据中的极端值会影响算术均数,但几何均数更为稳健。

3. 几何均数与算术均数的比较:

根据阿默-哈斯比不等式,对于任何非负数$$ x_1, x_2, \ldots, x_n $$:

$$ \frac{x_1 + x_2 + \ldots + x_n}{n} \geq \sqrt[n]{x_1 \times x_2 \times \ldots \times x_n} $$

  • 当且仅当所有 ( x_i ) 相等时,等号成立。这意味着几何均数 ( G ) 在数据分布不均匀的情况下更能代表数据的中心位置。

4. 几何均数的稳健性:

  • 在对数正态分布中,数据的乘法关系使得几何均数更适合度量中央趋势。
  • 它对极端值(例如特别大或特别小的数据点)不敏感,这使得几何均数在财务和生物统计等领域更为常用。

    5. 示例:可以用一个简单的例子来说明:

假设有数据集:1, 10, 100

  • 算术均数:

    $$ \frac{1 + 10 + 100}{3} = 37.00 $$

  • 几何均数:

    $$ \sqrt[3]{1 \times 10 \times 100} \approx 10.00 $$

在这个例子中,算术均数受到较大值的影响,而几何均数更能反映数据的中心趋势。

  1. 直接法

$$ G = \sqrt[n]{X_{1} \cdot X_{2} \cdots \cdot X_{n}} $$

$$ = \lg^{-1}\left(\frac{\lg X_{1} + \lg X_{2} + \cdots + \lg X_{n}}{n}\right) = \lg^{-1}\left(\frac{\sum \lg X}{n}\right) $$


例子 测得10人血清滴度的倒数分别为2, 2, 4, 4, 8, 8, 8, 8, 32, 32,求平均血清滴度。

$$ G = \lg^{-1}\left(\frac{\sum \lg X}{n}\right) = \lg^{-1}\left(\frac{\lg 2 + >\lg 2 + \cdots + \lg 32}{5}\right) \approx 7 $$

# 定义数据
data <- c(2, 2, 4, 4, 8, 8, 8, 8, 32, 32)

# 计算几何均数
geometric_mean <- exp(mean(log(data)))

# 输出结果 6.964405
geometric_mean

2.加权法(用于大样本、频数表资料)

$$ \begin{align*} G &= \lg^{-1}\left(\frac{f_{1}\lg X_{1} + f_{2}\lg X_{2} + \ldots + f_{K}\lg X_{K}}{f_{1} + f_{2} + \ldots + f_{K}}\right) \\ &= \lg^{-1}\left(\frac{\sum f \lg X}{\sum f}\right) \end{align*} $$

示例 某疾病预防控制中心对40名麻疹易感儿童经气溶胶免疫1个月后,测得其血凝抑制抗体滴度见表6-2。
平均抗体滴度为
表6-2 20名麻疹易感儿童免疫后血凝抑制抗体滴度倒数抗体滴度倒数204080160320
例数 681286
# 给定抗体滴度倒数和例数
titers <- c(20, 40, 80, 160, 320)
weights <- c(6, 8, 12, 8, 6)

# 计算加权对数的几何均数
log10_geometric_mean <- sum(weights * log10(titers)) / sum(weights)

# 计算几何均数 80
geometric_mean <- 10^log10_geometric_mean
geometric_mean