我有 zstd 压缩的镶木地板文件。有可能以某种方式解压吗?我尝试使用 zstd 命令,但没有任何运气:
[x@xyz tmp]# zstd -d part-00016-303a375a-e443-4f86-a59e-b5d82d15bd26.c000.zstd.parquet -o test.parquet
zstd: part-00016-303a375a-e443-4f86-a59e-b5d82d15bd26.c000.zstd.parquet: unsupported format
我有 zstd 压缩的镶木地板文件。有可能以某种方式解压吗?我尝试使用 zstd 命令,但没有任何运气:
[x@xyz tmp]# zstd -d part-00016-303a375a-e443-4f86-a59e-b5d82d15bd26.c000.zstd.parquet -o test.parquet
zstd: part-00016-303a375a-e443-4f86-a59e-b5d82d15bd26.c000.zstd.parquet: unsupported format
在环境中安装了 Spark 集群,没有更改 spark-env.sh、spark-defaults.conf 文件和程序中的 SparkConf 对象。
对于 N Queen 程序,分区数为 2,仅分配一个节点任务。对于字数统计程序,分区数为 22,任务分配给所有节点。对这两个程序都使用了 spark-submit。
N皇后
val sparkConf = new SparkConf().setAppName("NQueen").set("spark.files.overwrite", "true")
val sc = new SparkContext(sparkConf)
val sqlContext = new org.apache.spark.sql.SQLContext(sc)
def isSafe(column: Int, placement: List[Int]): Boolean = { ... }
def placeQueensAt(row: Int, placements: Set[List[Int]]): Set[List[Int]] = { ... }
val initial = sc.parallelize(queensAtFirst)
//val initial = sc.parallelize(queensAtFirst, 12)
println("Partitions = %d".format(initial.partitions.size))
val result = initial.flatMap(x => placeQueensAt(1, Set(x))).collect()
字数
val sparkConf = new SparkConf().setAppName("WordCount").set("spark.files.overwrite", "true")
val sc = new SparkContext(sparkConf)
val sqlContext = new org.apache.spark.sql.SQLContext(sc)
val lines = sc.textFile("hdfs:/user/wynadmin/sfpd.csv")
println("Patitions = %d".format(lines.partitions.size))
val words = for (line <- lines; word <- line.split(",") if word.toLowerCase.matches("[a-z]+")) yield (word, 1)
val counts = words.reduceByKey(_ + _)
Ubuntu 14.04 上的 Spark 2.0.1(3 个节点,每个节点有 4 个 CPU)。
独立部署(不是 YARN 也不是 Mesos)
我编写了一个example.jar
使用火花上下文的程序。如何在使用 Slurm 的集群上运行它?这与https://stackoverflow.com/questions/29308202/running-spark-on-top-of-slurm有关,但答案不是很详细,也不是关于 serverfault。