AskOverflow.Dev

AskOverflow.Dev Logo AskOverflow.Dev Logo

AskOverflow.Dev Navigation

  • 主页
  • 系统&网络
  • Ubuntu
  • Unix
  • DBA
  • Computer
  • Coding
  • LangChain

Mobile menu

Close
  • 主页
  • 系统&网络
    • 最新
    • 热门
    • 标签
  • Ubuntu
    • 最新
    • 热门
    • 标签
  • Unix
    • 最新
    • 标签
  • DBA
    • 最新
    • 标签
  • Computer
    • 最新
    • 标签
  • Coding
    • 最新
    • 标签
主页 / server / 问题

问题[apache-spark](server)

Martin Hope
Jacfal
Asked: 2020-09-23 06:00:03 +0800 CST

zstd拼花解压

  • 1

我有 zstd 压缩的镶木地板文件。有可能以某种方式解压吗?我尝试使用 zstd 命令,但没有任何运气:

[x@xyz tmp]# zstd -d part-00016-303a375a-e443-4f86-a59e-b5d82d15bd26.c000.zstd.parquet -o test.parquet
zstd: part-00016-303a375a-e443-4f86-a59e-b5d82d15bd26.c000.zstd.parquet: unsupported format
linux apache-spark
  • 1 个回答
  • 582 Views
Martin Hope
mon
Asked: 2016-09-27 14:42:41 +0800 CST

Apache Spark 中 RDD 分区的数量是如何决定的?

  • 1

问题

  1. Spark的分区数量是如何决定的?
  2. 我是否需要在某处明确指定可用 CPU 内核的数量,以便分区数量相同(例如并行化方法的 numPartition arg,但每当内核数量发生变化时需要更新程序)?

背景

在环境中安装了 Spark 集群,没有更改 spark-env.sh、spark-defaults.conf 文件和程序中的 SparkConf 对象。

对于 N Queen 程序,分区数为 2,仅分配一个节点任务。对于字数统计程序,分区数为 22,任务分配给所有节点。对这两个程序都使用了 spark-submit。

程式

N皇后

val sparkConf = new SparkConf().setAppName("NQueen").set("spark.files.overwrite", "true")
val sc = new SparkContext(sparkConf)
val sqlContext = new org.apache.spark.sql.SQLContext(sc)
def isSafe(column: Int, placement: List[Int]): Boolean = { ... }
def placeQueensAt(row: Int, placements: Set[List[Int]]): Set[List[Int]] = { ... }

val initial = sc.parallelize(queensAtFirst)
//val initial = sc.parallelize(queensAtFirst, 12)
println("Partitions = %d".format(initial.partitions.size))

val result = initial.flatMap(x => placeQueensAt(1, Set(x))).collect()

字数

val sparkConf = new SparkConf().setAppName("WordCount").set("spark.files.overwrite", "true")
val sc = new SparkContext(sparkConf)
val sqlContext = new org.apache.spark.sql.SQLContext(sc)

val lines = sc.textFile("hdfs:/user/wynadmin/sfpd.csv")
println("Patitions = %d".format(lines.partitions.size))

val words = for (line <- lines; word <- line.split(",") if word.toLowerCase.matches("[a-z]+")) yield (word, 1)
val counts = words.reduceByKey(_ + _)

环境

Ubuntu 14.04 上的 Spark 2.0.1(3 个节点,每个节点有 4 个 CPU)。
独立部署(不是 YARN 也不是 Mesos)

partition apache-spark
  • 1 个回答
  • 4993 Views
Martin Hope
mxmlnkn
Asked: 2016-05-14 13:46:27 +0800 CST

如何使用 Slurm 在集群上运行 Spark?

  • 6

我编写了一个example.jar使用火花上下文的程序。如何在使用 Slurm 的集群上运行它?这与https://stackoverflow.com/questions/29308202/running-spark-on-top-of-slurm有关,但答案不是很详细,也不是关于 serverfault。

apache-spark
  • 2 个回答
  • 5253 Views

Sidebar

Stats

  • 问题 205573
  • 回答 270741
  • 最佳答案 135370
  • 用户 68524
  • 热门
  • 回答
  • Marko Smith

    新安装后 postgres 的默认超级用户用户名/密码是什么?

    • 5 个回答
  • Marko Smith

    SFTP 使用什么端口?

    • 6 个回答
  • Marko Smith

    命令行列出 Windows Active Directory 组中的用户?

    • 9 个回答
  • Marko Smith

    什么是 Pem 文件,它与其他 OpenSSL 生成的密钥文件格式有何不同?

    • 3 个回答
  • Marko Smith

    如何确定bash变量是否为空?

    • 15 个回答
  • Martin Hope
    Tom Feiner 如何按大小对 du -h 输出进行排序 2009-02-26 05:42:42 +0800 CST
  • Martin Hope
    Noah Goodrich 什么是 Pem 文件,它与其他 OpenSSL 生成的密钥文件格式有何不同? 2009-05-19 18:24:42 +0800 CST
  • Martin Hope
    Brent 如何确定bash变量是否为空? 2009-05-13 09:54:48 +0800 CST
  • Martin Hope
    cletus 您如何找到在 Windows 中打开文件的进程? 2009-05-01 16:47:16 +0800 CST

热门标签

linux nginx windows networking ubuntu domain-name-system amazon-web-services active-directory apache-2.4 ssh

Explore

  • 主页
  • 问题
    • 最新
    • 热门
  • 标签
  • 帮助

Footer

AskOverflow.Dev

关于我们

  • 关于我们
  • 联系我们

Legal Stuff

  • Privacy Policy

Language

  • Pt
  • Server
  • Unix

© 2023 AskOverflow.DEV All Rights Reserve