Stata/自然语言处理

读取文本文件

如果行很短（少于 244 个字符串字符），可以使用insheet。此命令将读取文本文件到 Stata 的内存中。

. insheet using toto.txt, clear

首先查看Stata中已包含的字符串函数列表。

. h string functions

Stata 包含用于正则表达式的命令 regexm()、regexr() 和 regexs()。

Ken Benoit、Michael Laver 和 Will Lowe 开发了wordscores，这是一组 Stata 命令，用于读取文本文件，计算每个词的频率，并计算文本之间的一些相似性指标。