跳转到内容

Stata/自然语言处理

来自维基教科书,开放书籍,为开放的世界

读取文本文件

[编辑 | 编辑源代码]

如果行很短(少于 244 个字符串字符),可以使用insheet。此命令将读取文本文件到 Stata 的内存中。

. insheet using toto.txt, clear

字符串函数

[编辑 | 编辑源代码]

首先查看Stata中已包含的字符串函数列表。

. h string functions

正则表达式

[编辑 | 编辑源代码]

Stata 包含用于正则表达式的命令 regexm()、regexr() 和 regexs()。

词语得分

[编辑 | 编辑源代码]

Ken Benoit、Michael Laver 和 Will Lowe 开发了wordscores,这是一组 Stata 命令,用于读取文本文件,计算每个词的频率,并计算文本之间的一些相似性指标。

华夏公益教科书