| 方法 | 统计量 | 公式 | 条件 |
|---|---|---|---|
| 单样本t | t | t=(x̄-μ)/(s/√n) | 正态分布 |
| 独立t | t | t=(x̄₁-x̄₂)/√(s²(1/n₁+1/n₂)) | 正态+方差齐 |
| 配对t | t | t=d̄/(sd/√n) | 差值正态 |
| 卡方 | χ² | χ²=Σ(O-E)²/E | 期望≥5 |
| Pearson r | r | r=Cov(X,Y)/(sx·sy) | 双变量正态 |
| 线性回归F | F | F=MSR/MSE | 线性+正态 |
| Logistic OR | OR | OR=exp(β) | 二分类Y |
| 灵敏度Se | Se | Se=TP/(TP+FN) | 金标准 |
| 特异度Sp | Sp | Sp=TN/(TN+FP) | 金标准 |
P值是统计学中最常用的概念。它衡量在原假设为真的条件下,观察到当前结果或更极端结果的概率。P<0.05常被视为统计学显落,但这只是约定俗成的阈值。ASA发布的官方声明强调,P值不能代表效应大小或结果重要性。
CI是参数估计的区间范围。95%CI含义: 重复抽样100次,约95次区间会包含总体真实值。CI展示效应大小和精度,比P值提供更多临床相关信息。
正态性检验判断数据是否服从正态分布,是t检验、ANOVA、线性回归的前提。Shapiro-Wilk适用于小样本(n<50),K-S适用于大样本。大样本时微小偏离也会显著,建议结合Q-Q图和偏度/峰度综合判断。
方差齐性指各组总体方差相等。Levene检验对非正态数据较稳健;Bartlett对正态敏感。ANOVA方差不齐时可用Welch校正或非参数替代。
独立样本t检验比较两组独立(不配对)样本的均值差异。要求数据近似正态且方差齐。不满足可用Welch校正或Mann-Whitney U检验。
配对t检验用于同一组受试者在两个时间点或匹配条件下的均值比较。本质是对差值进行单样本t检验。优点: 消除个体间变异,统计效能更高。
ANOVA用于比较三个或以上组的均值差异。F统计量=组间方差/组内方差。ANOVA显著只表明至少有一组不同,需要事后检验进行两两比较。
重复测量ANOVA用于同一组受试者在三个或以上时间点的测量数据。需满足球形假设(Mauchly检验)。不满足时用Greenhouse-Geisser校正。
Mann-Whitney U检验是独立t检验的非参数替代。基于秩次而非原始值,不要求正态分布。适用于有序分类变量或偏态连续变量。
Wilcoxon符号秩检验是配对t检验的非参数替代。计算差值的绝对值排序后比较正负秩和。不要求差值正态。
Kruskal-Wallis检验是ANOVA的非参数替代。基于秩次比较分布差异。显著后需Dunn检验进行事后两两比较。
卡方检验检验两个分类变量间的关联性。基本思想是比较观测频数与期望频数的差异。公式χ²=Σ(O-E)²/E。条件: 总样本≥40且所有期望频数≥5。
Fisher精确检验适用于2×2表期望频数<5时。基于超几何分布精确计算P值。提供OR值和精确置信区间。
线性回归建模连续因变量与自变量的线性关系。Y=β₀+β₁X₁+...+ε。核心前提: 线性关系、残差独立、残差正态、方差齐。R²解释模型拟合度。
Logistic回归用于二分类因变量建模。自变量对log-odds线性影响,指数化转为OR。最大似然估计参数。似然比检验用于模型比较。
Poisson回归用于计数数据建模。连接函数为log,系数指数化为发生率比(IRR)。要求均值=方差(等离散)。过离散时用负二项回归。
Pearson相关系数r衡量线性相关强度。|r|<0.3弱,0.3-0.7中等,>0.7强相关。前提: 两变量近似正态且关系呈线性。
Spearman秩相关是Pearson的非参数替代。基于秩次,衡量单调相关。对异常值不敏感,适用于有序变量或偏态分布。
ICC用于评价连续变量测量一致性。不同类型对应不同设计: ICC(1,1)随机选评价者; ICC(2,1)固定评价者; ICC(3,1)一致性测量。
Kappa系数评价两个评价者对分类变量的一致性,校正了随机一致。Kappa≥0.75一致性好,0.4-0.75中等,<0.4差。加权Kappa用于有序分类。
诊断试验指标评价诊断方法的准确性。Se=TP/(TP+FN),Sp=TN/(TN+FP)。PPV为阳性预测值,NPV为阴性预测值。LR+=Se/(1-Sp),LR-=(1-Se)/Sp。约登指数=Se+Sp-1。
ROC曲线以1-特异度为横轴、灵敏度为纵轴绘制。AUC综合评价: 0.5无判别,0.7-0.8可接受,0.8-0.9优秀。最佳切点用约登指数确定。DeLong检验比较两个AUC。
校准曲线展示预测概率与实际观测概率的一致性。完美校准沿45°对角线。HL检验不显著=校准良好。Brier Score综合评估判别和校准。
PCA将多个相关变量转为不相关主成分(原始变量的线性组合)。第一主成分方差最大。需对变量标准化。用于降维、去共线性、探索数据结构。
EFA假设观测变量由潜在因子决定,用于问卷结构效度评价。与PCA不同,因子分析有测量误差模型。旋转使因子载荷更清晰。KMO>0.6且Bartlett P<0.05表示适合做EFA。
K-means将数据划分为K个簇,每个样本属于最近的质心。需指定K值。最佳K可通过肘部法则(降低曲线)或轮廓系数选择。
层次聚类按层次聚合(自底向上)或分裂(自顶向下)。不需预指定K,树状图直观展示聚类层次。常见连接法: ward.D2、complete、average。
中介分析检验X是否通过M影响Y。总效应=直接效应(c')+间接效应(a×b)。Bootstrap法检验间接效应(不要求正态)。
调节效应检验X对Y的效应是否依赖于调节变量W。核心是交互项X×W的回归系数。交互项显著即存在调节效应。连续变量需中心化。
MCAR:完全随机缺失,与数据值无关
MAR:随机缺失,与其他观测变量有关
MNAR:非随机缺失,与缺失值本身有关
AUC:0.5=无区分,0.7-0.8可接受,0.8+优秀
最佳切点:约登指数(灵敏度+特异度-1)
多模型比较:DeLong检验
校准曲线:预测概率vs实际概率
ETS(Error Trend Seasonal)是指数平滑方法的统一框架,用于处理时间序列的误差、趋势和季节性。ETS(A,N,N)表示可加性误差、无趋势、无季节;ETS(A,A,A)表示可加性误差、可加性趋势、可加性季节。通过拟合优度选择最优模型。
Prophet由Facebook于2017年开源,基于可分解时间序列模型:趋势 + 季节性 + 节假日效应。Prophet能自动处理缺失值、异常值和变点,且对非专业用户友好。适合具有明显季节性和多年历史数据的预测场景。
LSTM(Long Short-Term Memory)是循环神经网络的变种,通过徘徊门机制解决了传统RNN的梯度消失问题。LSTM能捕捉时间序列中的长期依赖关系,适合复杂模式的时间序列预测。需要注意:需要先处理数据创建观测窗口,通常比统计方法需要更多数据。
VAR(Vector Autoregression)是多变量时间序列的经典模型,同时建模多个时间序列的动态关系。VAR(p)表示包含P阶滞后项。核心优势:无需区分内生和外生变量,所有变量均等待处。通常用于宏观经济和卫生政策评估。
α值:一类错误,通常0.05
β值:二类错误,通常0.2,效能80%
效应量:组间预期差异
脱落率:10–20%
ANOVA样本量计算基于Cohen's f效应量。f = σm/σ(组间标准差/组内标准差)。小效应f=0.10,中等f=0.25,大效应f=0.40。需设定组数k、检验效能(通常0.80)、显著性水平α。
相关分析样本量基于相关系数r的效应量。小效应|r|=0.10,中等|r|=0.30,大效应|r|=0.50。需设定相关系数ρ、检验效能、显著性水平α。使用Fisher z变换计算所需样本量。
回归分析样本量常用经验法则:每变量10-20个事件(EPV)。Cohen's f²效应量:小f²=0.02,中等f²=0.15,大f²=0.35。包含预测因子数量p、期望R²、检验效能等参数。推荐同时使用EPV法则和pwr.f2.test进行综合估算。
生存分析样本量基于事件数(不是总人数)。常用Schoenfeld公式:事件数d = (zα/2+zβ)² / [p(1-p)(log HR)²]。p为分组比例,HR为风险比。总样本量 = 事件数 / 事件率。需考虑随访时间和删失比例。
非劣效性样本量基于单侧检验。核心参数:非劣效界值Δ(临床上可接受的最大差异)、预期疗效差异、标准差。公式基于单侧z检验:n/组 = 2(zα+zβ)²(σ/Δ)²。等效性试验需双侧检验并交换α分配。
PSM(Propensity Score Matching)通过Logistic回归估计每个个体接受处理的概率(倾向性得分),然后在处理组和对照组之间进行匹配。常用匹配方法:最近邻匹配、校准匹配、占比匹配、分数匹配。核心假设:无未观测纺成(强忽略性)。
IPTW(Inverse Probability of Treatment Weighting)不会丢失样本,而是对每个个体赋予一个权重:W = T/PS + (1-T)/(1-PS)。加权后的幻想人群中处理分配与协变量独立。常用积极稳定化IPTW:SW = T*P(PS的均值)/PS + (1-T)*(1-P)/(1-PS)。
DID(Difference-in-Differences)比较处理组和对照组在干预前后结局变化的差异。交互项系数即为因果效应。核心假设:平行趋势假设——处理组和对照组在干预前结局的变化趋势一致。
反事实框架由Donald Rubin提出。每个个体有两个潜在结局:受处理(Y1)和未受处理(Y0),但只能观测其一。个体处理效应ATE = E[Y1-Y0]。解决方案:匹配、分层、加权、工具变量。核心假设:无干扰因素、存在正确的偏向数据。
ITS(Interrupted Time Series)是评价干预措施影响的准实验设计。通过分段线性回归分析比较干预前后的截距变化(瞬时效应)和斜率变化(渐变效应)。需要假设干预前的趋势线性、干预时点明确。常用于政策评估、公共卫生干预效果评价。
工具变量(IV)法解决未观测纺成问题。有效的IV需满足:(1)相关性——Z与X强相关;(2)外生性——Z仅通过X影响Y。常用方法:2SLS二阶段最小二乘、工具变量选择:化疗距离作为治疗方案的IV。
RDD(Regression Discontinuity)利用分配变量的阈值划分处理组和对照组。在阈值附近的个体可视为随机分配。核心假设:纺成因素在阈值处连续。Sharp RDD(阈值严格分配)和Fuzzy RDD(阈值概率分配)。
DAG(Directed Acyclic Graph)是因果推断的图论工具。符号规则:X→Y表示X是Y的原因。基础概念:纺成因子(Confounder)——同时影响X和Y,需控制;中介变量(Mediator)——位于X→Y路径上,不应控制;操控变量(Collider)——被多个变量共同影响,控制会引入偏误。
核心公式:P(θ|D) ∝ P(D|θ)×P(θ)
先验:基于已有知识设定的参数分布
似然:数据的分布假设
后验:结合先验和数据后的参数分布
MCMC:Gibbs采样、Metropolis-Hastings
模型:固定效应、随机效应
效应量:OR/RR/HR、均数差(SMD)
异质性:I²统计量、Q检验
偏倚:发表偏倚(funnel plot)、Begg检验、Egger检验
软件:R(meta/metafor)、Stata、RevMan
传染病建模是预测疾病传播、评估防控措施的核心方法。
| 符号 | 名称 | 计算 | 参考 |
|---|---|---|---|
| β | 传染率 | 接触率×感染概率 | CDC |
| σ | 潜伏率 | 1/潜伏期 | 临床数据 |
| γ | 康复率 | 1/传染期 | 疾病自然史 |
| R₀ | 再生数 | β/γ | WHO |
SIR模型将人群分为三个分室:S(易感者)、I(感染者)、R(康复者)。微分方程组:dS/dt = -βSI/N,dI/dt = βSI/N – γI,dR/dt = γI。基本再生数R₀ = β/γ,表示一个感染者在完全易感人群中平均传播的人数。
SEIR模型在SIR的基础上增加E(潜伏者)分室。微分方程组:dS/dt = -βSI/N,dE/dt = βSI/N – σE,dI/dt = σE – γI,dR/dt = γI。σ表示潜伏期转染率(1/潜伏期)。适用于新冠、麻疹、结核等具有潜伏期的传染病。
随机SEIR模型使用二项分布/泊松分布替代微分方程,反映传染过程的随机性。在小人群中,随机性可能导致疫情自行熔灭或爆发。每步计算新感染者~Binom(S, βI/N),新潜伏转感染者~Binom(E, σ),新康复者~Binom(I, γ)。
Branching过程将传染病传播视为一个传播链,每个感染者产生的二代病例数服从某分布(如泊松分布、负二项分布)。核心概念:时空再生数R(复制数),R<1时传播链必然熔灭,R>1时有正概率爆发。
医学研究报告规范是高质量科研的基石。以下是各类型研究应遵循的报告规范,投稿前请逐项核对。
观察性研究报告规范
横断面/队列/病例对照
查看详情 →
随机对照试验报告规范
含流程图模板
查看详情 →
系统评价/Meta分析报告规范
27项核查清单
查看详情 →
诊断准确性试验报告规范
25项核查清单
查看详情 →
报告规范总库
500+指南汇总
查看详情 →
真实世界数据研究报告规范
常规收集数据
查看详情 →
量表/测量工具报告规范
信效度评价
查看详情 →
动物实验报告规范
10项核心清单
查看详情 →
预测模型研究报告规范
个体化预测
查看详情 →
临床试验方案报告规范
含SPIRIT图
查看详情 →
国际顶级医学期刊对统计方法报告有严格要求,投稿前请对照核查。
统计要求:
• 详细描述所有统计方法,引用文献
• 报告效应量(OR/RR/HR)及95%CI
• P值精确报告(如P=0.03而非P<0.05)
• ITT原则分析RCT数据
• 多重比较需校正(Bonferroni等)
• 亚组分析需报告交互作用检验
统计要求:
• 遵循CONSORT/STROBE等报告规范
• 提供统计分析计划(SAP)
• 效应量+95%CI优先于P值
• 所有分析需注明软件版本
• 缺失数据需说明处理方法
• 倾向性评分需说明匹配方法
统计要求:
• 统计学专家需列为共同作者或致谢
• 注册临床试验需提供注册号
• 完整报告所有结局(含阴性结果)
• 亚组分析需预先指定并控制假阳性
• 需报告数据监测委员会(DMC)信息
统计要求:
• 公开原始数据和代码(鼓励)
• 使用STAT-CHECK统计核查流程
• 报告绝对效应和相对效应
• 需报告Number Needed to Treat(NNT)
• 贝叶斯分析需说明先验选择
统计要求:
• 详细统计方法需在Methods中描述
• 生物信息分析需提供代码仓库
• 多重假设检验需控制FDR
• 高维数据分析需说明过拟合控制
• 效应量报告需含变异度量
统计要求:
• 遵循国内统一统计学报告规范
• 需说明随机分组方法及隐藏方案
• 对照组需说明是否同期对照
• 需报告所有统计方法的引用来源
• 伦理审批需注明批件号
始终遵循EQUATOR网络的相关报告规范,在Methods部分详细描述所有统计方法(含软件版本),提供充分的效应量和精度估计,并请统计学专家审阅稿件。
错误:P<0.05=有差异,P>0.05=无差异
正确:P值仅为连续度量,需结合效应量和CI解读。P>0.05可能因样本量不足。避免"P值黑客"(P-hacking)。
建议:报告精确P值和95%CI,而非仅标P<0.05
错误:多次检验直接使用α=0.05
正确:多组比较用ANOVA(而非多组t检验),多重终点需Bonferroni/FDR校正。探索性分析结果需明确说明。
建议:预先指定主要和次要结局
错误:直接做参数检验不验证前提
正确:参数检验前必须检验正态性(Shapiro-Wilk)和方差齐性(Levene)。不满足时用非参数检验或数据变换。
建议:将前提检验结果附在补充材料
错误:亚组分析发现某组显著即下结论
正确:亚组结果需做交互作用检验(interaction test),阳性交互作用才是真正差异。未预先指定的亚组分析为探索性。
建议:亚组结果仅作为假设生成
错误:观察性研究直接比较组间差异
正确:需多因素回归控制混杂,或使用PSM、IPTW、DID等因果推断方法。需报告混杂因素选择依据(DAG图)。
建议:使用有向无环图(DAG)识别混杂
错误:直接删除(complete-case analysis)
正确:需说明缺失机制(MCAR/MAR/MNAR),推荐多重插补(MICE),进行敏感性分析比较不同处理方法的结果。
建议:在方法部分详细描述缺失处理策略
错误:事后用效力分析解释阴性结果
正确:研究设计阶段即应进行样本量计算,需明确假设的效应量来源和检验效能(通常80%或90%)。
建议:在研究方案中纳入样本量计算部分
错误:只报告有统计学意义的结果
正确:需报告所有预先指定结局,无论阳性或阴性。阴性结果同样有发表价值,避免发表偏倚。
建议:预先注册研究方案(ClinicalTrials.gov/中国临床试验注册中心)
量表用于量化患者症状、功能、生活质量,需经严格信效度验证。
信度:Cronbach's α、重测信度、分半信度
效度:内容效度、结构效度、效标效度
结构分析:EFA、CFA
以下是完整的医学统计R语言分析案例,包含模拟数据、完整代码和结果解读。
Abel医研统计公众号26周系统性教程,覆盖从基础到前沿的60篇医学统计方法。点击文章标题展开全文。
研究方向:医学统计学、临床流行病学、生物信息学、真实世界研究、临床预测模型、传染病数学建模
微信公众号:Abel医研统计
宗旨:让医学科研更简单,让统计方法更易懂