Spark MLib 数据类型-白红宇

Spark MLib 数据类型

阅读量：5889 次

发布时间：2019-06-19

本文共 2895 字，大约阅读时间需要 9 分钟。

1. MLlib

Apache Spark's scalable machine learning library, with APIs in Java, Scala and Python.

2. 数据类型

本地向量，标注点，本地矩阵，分布式矩阵

3. 本地向量 Local Vector

稠密向量 dense 一个double数组，例如 (1.0, 0.0, 0.0, 0.0, 3.0)

稀疏向量 sparse 两个并行的数组(indices和values)，例如 (5, [0, 4], [1.0, 3.0])，其中5表示向量元素的个数，[0，4] 是indices，[1.0,3.0]是values

基类是Vector, org.apache.spark.mllib.linalg.vector引入

import org.apache.spark.mllib.linalg.{Vector, Vectors}  val dv: Vector = Vectors.dense(1.0, 0.0, 3.0)                        // 创建一个dense vector (1.0, 0.0, 3.0).val sv1: Vector = Vectors.sparse(3, Array(0, 2), Array(1.0, 3.0))   // 创建一个sparse vector (1.0, 0.0, 3.0).val sv2: Vector = Vectors.sparse(3, Seq((0, 1.0), (2, 3.0)))        // 等同于sv2

4. 标注点（Labeled Point）

用于有监督学习的训练样本称为标注点。

一个标注点就是一个本地向量（或稠密或稀疏），这个向量和一个标签或者响应相关联。

我们用一个double存储标签，这样我们就可以在回归和分类中使用标注点。

对于二分类，一个标签可能是0或者是1；对于多分类，一个标签可能代表从0开始的类别索引。

样本类是LabeledPoint, org.apache.spark.mllib.regression.LabeledPoint 引入。

import org.apache.spark.mllib.linalg.Vectorsimport org.apache.spark.mllib.regression.LabeledPointval pos = LabeledPoint(1.0, Vectors.dense(1.0, 0.0, 3.0))  // a positive label and a dense feature vector.val neg = LabeledPoint(0.0, Vectors.sparse(3, Array(0, 2), Array(1.0, 3.0)))  // a negative label and a sparse feature vector.

5. 本地矩阵（Local Matrix）

稠密矩阵按列顺序存储，用一个数组，加上(列，行) 表示数组大小。

稀疏矩阵非零条目值保存为压缩稀疏列 CSC（Compressed Sparse Column）格式，这种格式也是以列顺序存储

例： 9.0 0.0

（ 0.0 8.0）

0.0 6.0

稠密矩阵可以表示为，[3, 2, (9.0 , 0.0, 0.0, 0.0, 8.0, 6.0) ] 其中3为

稀疏矩阵？？不懂

基类是Matrix, 可以导入 org.apache.spark.mllib.linalg.Matrices

import org.apache.spark.mllib.linalg.{Matrix,Matrices}val dm: Matrix=Matrices.dense(3,2,Array(9.0,0.0,0.0,0.0,8.0,6.0)              // dense Matrixval sm: Matrix=Matrices.sparse(3,2,Array(0,1,3),Array(0,2,1),Array(9,8,6)) //sparse Matrix