Stata/描述性统计
外观
< Stata
在本节中,我们展示了如何使用 Stata 进行汇总统计。本节包括三个小节。第一个介绍描述整个数据集的命令,第二个介绍描述单个变量的命令,第三个介绍描述一组变量的命令。
- 'des' (describe) : 提供文件大小、观察值数量、变量数量、每个变量的列表、标签和类型。
- 'des, s' (describe short) : 仅提供文件大小、观察值数量、变量数量。
- 'des' 返回自上次保存以来的更改次数、变量数量 'r(k)'、观察值数量 'r(N)'。
. sysuse cancer, clear (Patient Survival in Drug Trial) . describe . des, s . ret list
- codebook
- inspect
- su
- su, d
- robmean : 稳健均值
- ta
- corr 返回一组变量之间线性相关系数的矩阵。
- corr, cov 返回协方差矩阵。
以下是一个示例。我们首先模拟一个 y 和 x,它们之间存在正相关关系。我们绘制这两个变量并查看它们的关联性。
. clear . set obs 1000 . gen x = invnorm(uniform()) . gen u = invnorm(uniform()) . gen y = x + u . tw sc y x || lfit y x . corr y x (obs=1000) | y x -------------+------------------ y | 1.0000 x | 0.7197 1.0000
- wincorr 返回 Winsorized 相关性 : 极端值被替换为极限值。如果一些极端值对相关系数有很大影响,这将很有用。
- spearman 和 spearman2 给出两个变量之间的 Spearman 秩相关系数。该统计量对异常值的敏感度低于 Pearson 线性相关系数。这通常用作稳健性检查。
. spearman y x Number of obs = 1000 Spearman's rho = 0.7090 Test of Ho: y and x are independent Prob > |t| = 0.0000
- ta
- catgraph : 绘制按类别划分的连续变量的均值
- table