主分区与扩展分区

Question

mon

Asked: 2016-09-27 14:42:41 +0800 CST2016-09-27 14:42:41 +0800 CST 2016-09-27 14:42:41 +0800 CST

Apache Spark 中 RDD 分区的数量是如何决定的？

772

问题

Spark的分区数量是如何决定的？
我是否需要在某处明确指定可用 CPU 内核的数量，以便分区数量相同（例如并行化方法的 numPartition arg，但每当内核数量发生变化时需要更新程序）？

背景

在环境中安装了 Spark 集群，没有更改 spark-env.sh、spark-defaults.conf 文件和程序中的 SparkConf 对象。

对于 N Queen 程序，分区数为 2，仅分配一个节点任务。对于字数统计程序，分区数为 22，任务分配给所有节点。对这两个程序都使用了 spark-submit。

程式

N皇后

val sparkConf = new SparkConf().setAppName("NQueen").set("spark.files.overwrite", "true")
val sc = new SparkContext(sparkConf)
val sqlContext = new org.apache.spark.sql.SQLContext(sc)
def isSafe(column: Int, placement: List[Int]): Boolean = { ... }
def placeQueensAt(row: Int, placements: Set[List[Int]]): Set[List[Int]] = { ... }

val initial = sc.parallelize(queensAtFirst)
//val initial = sc.parallelize(queensAtFirst, 12)
println("Partitions = %d".format(initial.partitions.size))

val result = initial.flatMap(x => placeQueensAt(1, Set(x))).collect()

字数

val sparkConf = new SparkConf().setAppName("WordCount").set("spark.files.overwrite", "true")
val sc = new SparkContext(sparkConf)
val sqlContext = new org.apache.spark.sql.SQLContext(sc)

val lines = sc.textFile("hdfs:/user/wynadmin/sfpd.csv")
println("Patitions = %d".format(lines.partitions.size))

val words = for (line <- lines; word <- line.split(",") if word.toLowerCase.matches("[a-z]+")) yield (word, 1)
val counts = words.reduceByKey(_ + _)

环境

Ubuntu 14.04 上的 Spark 2.0.1（3 个节点，每个节点有 4 个 CPU）。
独立部署（不是 YARN 也不是 Mesos）

1 个回答

Voted

mon · Answer 1 · 2016-09-27T20:34:25+08:00

在How-to: Tune Your Apache Spark Jobs (Part 2)中找到信息。

这个数字是如何确定的？上一篇文章中描述了 Spark 将 RDD 分组为阶段的方式。（快速提醒一下，像 repartition 和 reduceByKey 这样的转换会导致阶段边界。）阶段中的任务数与阶段中最后一个 RDD 中的分区数相同。RDD 中的分区数与其所依赖的 RDD 中的分区数相同，但有几个例外：coalesce 转换允许创建一个分区数少于其父 RDD 的 RDD，union 转换创建一个具有其父母的分区数的总和，笛卡尔用他们的产品创建一个RDD。

没有父母的RDD怎么办？由 textFile 或 hadoopFile 生成的 RDD 的分区由使用的底层 MapReduce InputFormat 确定。通常，每个被读取的 HDFS 块都会有一个分区。由 parallelize 生成的 RDD 的分区来自用户给定的参数，或者 spark.default.parallelism 如果没有给出。

spark.default.parallelism 选项修复了症状。

--conf spark.default.parallelism=24

设置为 12（与核心数相同）会导致节点使用不均。

Apache Spark 中 RDD 分区的数量是如何决定的？

问题

背景

程式

环境

新安装后 postgres 的默认超级用户用户名/密码是什么？

SFTP 使用什么端口？

命令行列出 Windows Active Directory 组中的用户？

什么是 Pem 文件，它与其他 OpenSSL 生成的密钥文件格式有何不同？

如何确定bash变量是否为空？

Apache Spark 中 RDD 分区的数量是如何决定的？

问题

背景

程式

环境

1 个回答

相关问题