跳转到内容

R 中的数据挖掘算法/包/RWeka/Weka 分词器

来自华夏公益教科书，开放的书籍，为开放的世界

< R 中的数据挖掘算法 | 包 | RWeka

描述

[编辑 | 编辑源代码]

R 与 Weka 分词器的接口。

用法

[编辑 | 编辑源代码]

AlphabeticTokenizer(x, control = NULL)

NGramTokenizer(x, control = NULL)

WordTokenizer(x, control = NULL)

参数

[编辑 | 编辑源代码]

x，一个字符向量，包含要分词的字符串。

control，一个 Weka_control 类对象，或者一个控制选项的字符向量，或者 NULL（默认值）。

细节

[编辑 | 编辑源代码]

AlphabeticTokenizer 是一个字母字符串分词器，其中分词仅由连续的字母序列组成。

NGramTokenizer 将字符串拆分为 n 元组，并具有给定的最小和最大元组数量。

WordTokenizers 是一个简单的单词分词器。

返回值

[编辑 | 编辑源代码]

一个包含分词字符串的字符向量。

检索自 "https://wikibooks.cn/w/index.php?title=Data_Mining_Algorithms_In_R/Packages/RWeka/Weka_tokenizers&oldid=1967873"

书籍：R 中的数据挖掘算法

华夏公益教科书