跳转到内容

R 中的数据挖掘算法/包/RWeka/Weka 分词器

来自维基教科书,开放的书籍,为开放的世界

R 与 Weka 分词器的接口。

AlphabeticTokenizer(x, control = NULL)

NGramTokenizer(x, control = NULL)

WordTokenizer(x, control = NULL)

x,一个字符向量,包含要分词的字符串。

control,一个 Weka_control 类对象,或者一个控制选项的字符向量,或者 NULL(默认值)。

AlphabeticTokenizer 是一个字母字符串分词器,其中分词仅由连续的字母序列组成。

NGramTokenizer 将字符串拆分为 n 元组,并具有给定的最小和最大元组数量。

WordTokenizers 是一个简单的单词分词器。

返回值

[编辑 | 编辑源代码]

一个包含分词字符串的字符向量。

华夏公益教科书