转换
| 含义
|
map(func)
| 返回一个新分布式数据集,由每一个输入元素经过func函数转换后组成
|
filter(func)
| 返回一个新数据集,由经过func函数计算后返回值为true的输入元素组成
|
flatMap(func)
| 类似于map,但是每一个输入元素可以被映射为0或多个输出元素(因此func应该返回一个序列,而不是单一元素)
|
distinct([numTasks]))
| 返回一个包含源数据集中所有不重复元素的新数据集
|
groupByKey([numTasks])
| 在一个(K,V)对的数据集上调用,返回一个(K,Seq[V])对的数据集注意:默认情况下,只有8个并行任务来做操作,但是你可以传入一个可选的numTasks参数来改变它
|
reduceByKey(func[numTasks])
| 在一个(K,V)对的数据集上调用时,返回一个(K,V)对的数据集,使用指定的reduce函数,将相同key的值聚合到一起。类似groupByKey,reduce任务个数是可以通过第二个可选参数来配置的
|
sortByKey([ascending[numTasks])
| 在一个(K,V)对的数据集上调用,K必须实现Ordered接口,返回一个按照Key进行排序的(K,V)对数据集。升序或降序由ascending布尔参数决定
|
join(otherDataset[numTasks])
| 在类型为(K,V)和(K,W)类型的数据集上调用时,返回一个相同key对应的所有元素对在一起的(K, (V, W))数据集
|