当前位置：首页 > news >正文

Spark等大数据处理框架的Java API

news 2025/7/6 17:40:09

Apache Spark 是一个非常流行的大数据处理框架，以其高性能和灵活性著称。Spark 支持多种编程语言，包括 Scala、Java 和 Python。本节将重点介绍 Spark 的 Java API，以及如何使用这些 API 进行大数据处理。

Spark 的主要组件

Spark Core：提供基础的分布式计算能力，包括任务调度、内存管理、容错恢复等。
Spark SQL：用于处理结构化数据，支持 SQL 查询和 DataFrame API。
Spark Streaming：用于处理实时流数据。
MLlib：用于机器学习算法的库。
GraphX：用于图计算。

Spark Core Java API

创建 SparkConf 和 SparkContext

创建 SparkConf：

import org.apache.spark.SparkConf;public class SparkConfExample {public static void main(String[] args) {SparkConf conf = new SparkConf().setAppName("SparkCoreExample").setMaster("local[*]");}
}

创建 SparkContext：

import org.apache.spark.api.java.JavaSparkContext;public class SparkContextExample {public static void main(String[] args) {SparkConf conf = new SparkConf().setAppName("SparkCoreExample").setMaster("local[*]");JavaSparkContext sc = new JavaSparkContext(conf);}
}

使用 RDD（Resilient Distributed Datasets）

创建 RDD：

import org.apache.spark.api.java.JavaRDD;
import org.apache.spark.api.java.JavaSparkContext;public class RDDCreationExample {public static void main(String[] args) {SparkConf conf = new SparkConf().setAppName("RDDCreationExample").setMaster("local[*]");JavaSparkContext sc = new JavaSparkContext(conf);JavaRDD<String> lines = sc.textFile("data/input.txt");}
}

转换操作：

import org.apache.spark.api.java.JavaRDD;
import org.apache.spark.api.java.JavaSparkContext;public class TransformationExample {public static void main(String[] args) {SparkConf conf = new SparkConf().setAppName("TransformationExample").setMaster("local[*]");JavaSparkContext sc = new JavaSparkContext(conf);JavaRDD<String> lines = sc.textFile("data/input.txt");JavaRDD<String> words = lines.flatMap(line -> line.split("\\s+"));JavaRDD<Integer> wordLengths = words.map(word -> word.length());}
}

行动操作：

import org.apache.spark.api.java.JavaRDD;
import org.apache.spark.api.java.JavaSparkContext;public class ActionExample {public static void main(String[] args) {SparkConf conf = new SparkConf().setAppName("ActionExample").setMaster("local[*]");JavaSparkContext sc = new JavaSparkContext(conf);JavaRDD<String> lines = sc.textFile("data/input.txt");JavaRDD<String> words = lines.flatMap(line -> line.split("\\s+"));JavaRDD<Integer> wordLengths = words.map(word -> word.length());long totalWords = words.count();int maxLength = wordLengths.reduce((a, b) -> Math.max(a, b));System.out.println("Total words: " + totalWords);System.out.println("Max length: " + maxLength);}
}

Spark SQL Java API

创建 SparkSession

创建 SparkSession：

import org.apache.spark.sql.SparkSession;public class SparkSessionExample {public static void main(String[] args) {SparkSession spark = SparkSession.builder().appName("SparkSQLExample").master("local[*]").getOrCreate();}
}

处理 DataFrame

创建 DataFrame：

import org.apache.spark.sql.Dataset;
import org.apache.spark.sql.Row;
import org.apache.spark.sql.SparkSession;public class DataFrameCreationExample {public static void main(String[] args) {SparkSession spark = SparkSession.builder().appName("DataFrameCreationExample").master("local[*]").getOrCreate();Dataset<Row> df = spark.read().format("csv").option("header", "true").load("data/input.csv");}
}

执行 SQL 查询：

import org.apache.spark.sql.Dataset;
import org.apache.spark.sql.Row;
import org.apache.spark.sql.SparkSession;public class SQLQueryExample {public static void main(String[] args) {SparkSession spark = SparkSession.builder().appName("SQLQueryExample").master("local[*]").getOrCreate();Dataset<Row> df = spark.read().format("csv").option("header", "true").load("data/input.csv");df.createOrReplaceTempView("people");Dataset<Row> result = spark.sql("SELECT name FROM people WHERE age > 30");result.show();}
}

Spark Streaming Java API

创建 StreamingContext

创建 StreamingContext：

import org.apache.spark.streaming.Duration;
import org.apache.spark.streaming.api.java.JavaStreamingContext;public class StreamingContextExample {public static void main(String[] args) {SparkConf conf = new SparkConf().setAppName("StreamingContextExample").setMaster("local[*]");JavaStreamingContext ssc = new JavaStreamingContext(conf, new Duration(1000)); // Batch interval of 1 second}
}

处理流数据

从 Socket 接收数据：

import org.apache.spark.api.java.JavaPairRDD;
import org.apache.spark.api.java.JavaRDD;
import org.apache.spark.api.java.function.Function;
import org.apache.spark.streaming.Duration;
import org.apache.spark.streaming.api.java.JavaDStream;
import org.apache.spark.streaming.api.java.JavaPairDStream;
import org.apache.spark.streaming.api.java.JavaStreamingContext;
import scala.Tuple2;public class SocketStreamExample {public static void main(String[] args) throws InterruptedException {SparkConf conf = new SparkConf().setAppName("SocketStreamExample").setMaster("local[*]");JavaStreamingContext ssc = new JavaStreamingContext(conf, new Duration(1000)); // Batch interval of 1 secondJavaDStream<String> lines = ssc.socketTextStream("localhost", 9999);JavaDStream<String> words = lines.flatMap(line -> line.split("\\s+"));JavaPairDStream<String, Integer> wordCounts = words.mapToPair(word -> new Tuple2<>(word, 1)).reduceByKey((a, b) -> a + b);wordCounts.print();ssc.start();ssc.awaitTermination();}
}

Spark MLlib Java API

创建 SparkSession

创建 SparkSession：

import org.apache.spark.sql.SparkSession;public class SparkSessionExample {public static void main(String[] args) {SparkSession spark = SparkSession.builder().appName("SparkMLlibExample").master("local[*]").getOrCreate();}
}

训练机器学习模型

训练线性回归模型：

import org.apache.spark.ml.regression.LinearRegression;
import org.apache.spark.ml.regression.LinearRegressionModel;
import org.apache.spark.sql.Dataset;
import org.apache.spark.sql.Row;
import org.apache.spark.sql.SparkSession;public class LinearRegressionExample {public static void main(String[] args) {SparkSession spark = SparkSession.builder().appName("LinearRegressionExample").master("local[*]").getOrCreate();Dataset<Row> data = spark.read().format("libsvm").load("data/sample_linear_regression_data.txt");LinearRegression lr = new LinearRegression().setMaxIter(100).setRegParam(0.3).setElasticNetParam(0.8);LinearRegressionModel model = lr.fit(data);model.summary().r2();}
}

Spark GraphX Java API

创建 SparkSession

创建 SparkSession：

import org.apache.spark.sql.SparkSession;public class SparkSessionExample {public static void main(String[] args) {SparkSession spark = SparkSession.builder().appName("SparkGraphXExample").master("local[*]").getOrCreate();}
}

创建图

创建 VertexRDD 和 EdgeRDD：

import org.apache.spark.api.java.JavaRDD;
import org.apache.spark.graphx.Graph;
import org.apache.spark.graphx.VertexRDD;
import org.apache.spark.sql.SparkSession;
import scala.Tuple2;public class GraphXExample {public static void main(String[] args) {SparkSession spark = SparkSession.builder().appName("GraphXExample").master("local[*]").getOrCreate();JavaRDD<Tuple2<Long, String>> vertices = spark.sparkContext().parallelize(new Tuple2<>(1L, "Alice"),new Tuple2<>(2L, "Bob"),new Tuple2<>(3L, "Charlie")).toJavaRDD();JavaRDD<Tuple2<Long, Long>> edges = spark.sparkContext().parallelize(new Tuple2<>(1L, 2L),new Tuple2<>(2L, 3L)).toJavaRDD();VertexRDD<String> vertexRDD = JavaVertexRDD.fromJavaRDD(vertices);VertexRDD<Long> edgeRDD = JavaEdgeRDD.fromJavaRDD(edges);Graph<String, Long> graph = Graph.apply(vertexRDD, edgeRDD, null);System.out.println(graph.vertices.collect());System.out.println(graph.edges.collect());}
}