Stata/自然语言处理
外观
< Stata
如果行很短(少于 244 个字符串字符),可以使用insheet。此命令将读取文本文件到 Stata 的内存中。
. insheet using toto.txt, clear
首先查看Stata中已包含的字符串函数列表。
. h string functions
Stata 包含用于正则表达式的命令 regexm()、regexr() 和 regexs()。
Ken Benoit、Michael Laver 和 Will Lowe 开发了wordscores,这是一组 Stata 命令,用于读取文本文件,计算每个词的频率,并计算文本之间的一些相似性指标。