R 中的数据挖掘算法/包/RWeka/Weka 分词器
外观
R 与 Weka 分词器的接口。
AlphabeticTokenizer(x, control = NULL)
NGramTokenizer(x, control = NULL)
WordTokenizer(x, control = NULL)
x,一个字符向量,包含要分词的字符串。
control,一个 Weka_control 类对象,或者一个控制选项的字符向量,或者 NULL(默认值)。
AlphabeticTokenizer 是一个字母字符串分词器,其中分词仅由连续的字母序列组成。
NGramTokenizer 将字符串拆分为 n 元组,并具有给定的最小和最大元组数量。
WordTokenizers 是一个简单的单词分词器。
一个包含分词字符串的字符向量。