跳转到内容

Stata/描述性统计

来自维基教科书,开放的书籍,开放的世界

在本节中,我们展示了如何使用 Stata 进行汇总统计。本节包括三个小节。第一个介绍描述整个数据集的命令,第二个介绍描述单个变量的命令,第三个介绍描述一组变量的命令。

描述数据集

[编辑 | 编辑源代码]
  • 'des' (describe) : 提供文件大小、观察值数量、变量数量、每个变量的列表、标签和类型。
  • 'des, s' (describe short) : 仅提供文件大小、观察值数量、变量数量。
  • 'des' 返回自上次保存以来的更改次数、变量数量 'r(k)'、观察值数量 'r(N)'。
. sysuse cancer, clear
(Patient Survival in Drug Trial)
. describe
. des, s
. ret list
  • codebook
  • inspect

单变量统计

[编辑 | 编辑源代码]

连续变量

[编辑 | 编辑源代码]
  • su
  • su, d
  • robmean : 稳健均值

离散变量

[编辑 | 编辑源代码]
  • ta

多变量统计

[编辑 | 编辑源代码]

连续变量

[编辑 | 编辑源代码]
  • corr 返回一组变量之间线性相关系数的矩阵。
    • corr, cov 返回协方差矩阵。

以下是一个示例。我们首先模拟一个 y 和 x,它们之间存在正相关关系。我们绘制这两个变量并查看它们的关联性。

. clear
. set obs 1000 
. gen x =  invnorm(uniform())
. gen u =  invnorm(uniform())
. gen y = x + u
. tw sc y x || lfit y x
. corr y x
(obs=1000)

             |        y        x
-------------+------------------
           y |   1.0000
           x |   0.7197   1.0000

  • wincorr 返回 Winsorized 相关性 : 极端值被替换为极限值。如果一些极端值对相关系数有很大影响,这将很有用。
  • spearmanspearman2 给出两个变量之间的 Spearman 秩相关系数。该统计量对异常值的敏感度低于 Pearson 线性相关系数。这通常用作稳健性检查。
. spearman y x

 Number of obs =    1000
Spearman's rho =       0.7090

Test of Ho: y and x are independent
    Prob > |t| =       0.0000

离散变量

[编辑 | 编辑源代码]
  • ta

连续和离散变量

[编辑 | 编辑源代码]
  • catgraph : 绘制按类别划分的连续变量的均值
  • table
华夏公益教科书