apache-spark有关的问题


Spark属性 “缺失” (执行器内核,内存,数字等)

我试图从spark-shell直接访问spark属性-或者以编程方式访问。我不想依赖Spark Web UI。
更重要的是,通过命令行d设置启动时的执行程序数量.


火花上的Kedro气流

在spark上寻找kedro气流实现。该插件现在可用于spark吗?
查看了PipelineX但在spark上找不到相关的例子?


Spark-忽略Dataset.as[SomeCaseClass] 的不存在的列

Spark Dataset.as函数对未找到的列抛出异常-org.apache.spark.sql.AnalysisException: 无法解析 'attr_3' 给定输入列: [attr_1,attr_2];
Case class SomeCaseClass(at.


捕获spark结构化流的架构更改

我正在研究应用程序,以便将不同来源的数据引入parquet格式的数据湖 (HDFS)。
我们有多个批处理作业,我们还添加了一些流媒体作业。


如何提取属性 “estimators _” 并用PySpark GBTRegressor计算置信区间

我在Pyspark中使用GBTRegressor算法 ( https://spark.apache.org/docs/2.2.0/api/java/index.html?org/apache/spark/ml/regression/GBTRegressor.html ),有500棵树,我使用


如何在spark中用视图替换一些表名

我有spark sqls像下面这样:
Select * from db::table;
但是spark无法识别db::table,所以我尝试以下策略
使用自定义函数将db::table加载到DataFr中.


Spark driver pod以 “oomkilled” 状态被杀

我们正在使用Spark 2.4.5在Kubernetes集群上运行spark Streaming应用程序。
应用程序通过Kafka主题接收大量数据 (每3ms一条消息)。4遗嘱执行人.


N个任务序列化结果总大小 (x MB) 大于spark.driver.maxResultSize

我在spark数据帧上做简单的计数操作时收到以下错误。
Org.apache.spark.SparkException: 由于阶段失败导致作业中止: 4的序列化结果的总大小.


单个位置的Spark模式管理

问题
什么是管理Spark表的架构的最佳方式?你看到选项2有什么缺点吗?你能提出更好的选择吗?
我看到的解决方案
选项1: 保留单独的定义.


重新分区后的Spark非确定性结果

有没有办法从dataframe重新分区获得确定性的结果而不排序?在下面的代码中,我在执行相同操作时得到不同的结果。
从pyspark.sql.functions导入


YARN如何在launch_container.sh中执行PYSPARK环境设置

在分析spark作业的yarn launch_container.sh日志时,我被日志的某些部分弄糊涂了。
我会在这里一步一步地指出这些问题
当您将使用spark-submit提交spark作业时


具有不同列的两个Spark dataframe的联合

我试图用不同的列来联合两个Spark dataframe。为此,我提到了以下链接:-
如何对具有不同数量列的两个数据帧执行union.


Pyspark中如何解决分析异常错误

我在Pyspark中得到一个错误:
分析异常: u 'resolved attribute(s) 第 5230 周缺失
经度 #4976,地址 #4982,分钟 #4986,方位角 #4977,省 #4979,
Action_type #4972,user_id #4969,week #.


Spark delta lake merge上的分区修剪

我正在使用delta lake (“io.de lta” % % “delta-core” % “0.4.0”) 并在foreachBatch中合并,如下所示:
ForeachBatch { (s,batchid) =>
DeltaTable.alias("t")
。合并 (
S.as("s"),.


Spark SQL无法读取带有org.apache.hadoop.HIVE.contrib.serde2.MultiDelimitSerDe serde的hive表

Hive表属性:
| 行格式SERDE |
| 'Org.apache.hadoop.hive.contrib.serde2.MultiDelimitSerDe' |
| 与SERDEPROPERTIES ( .


Spark结构化流式处理多个聚合选项

在我的用例中,我需要在spark结构化流中执行多个聚合。虽然到目前为止还没有直接支持 2.4.x,但是已经看到了这个线程 (Spark中的多个聚合


Java.lang.NoClassDefFoundError: 在IntelliJ和SBT中找不到org/slf4j/Logger类

我试图运行一个spark scala程序,其中我使用了 “import org.apache.spark.int ernal.Logging”。
程序在本地运行良好,直到我尝试构建一个fat jar并添加了assembb.


如何在pyspark中处理异常?

我有一个下面的代码写在pyspark,基本上做一定的转换。
Df2 = df1.select('*',F.explode(F.col('usedata')).alias('UseData1' ))\
。Select ('*',F.explode(F.col('


在Spark SQL中按日和月比较日期

如何在Spark SQL查询中仅按月份和日比较 2 个日期?我的表有 2 列,date1 和date2。我需要比较它们来检查date1 (组合) 的dd & MM部分是否更大.


Spark 3.0.0 停止支持多个上下文

我正在尝试升级到Spark 3.0.0 (Java 11)
以前在Spark 2.4.6,Scala 2.11 中工作的代码现在因错误
线程 “main” org.apache.spark.SparkException中的异常:.


Spark结构化流Kafka错误 -- 偏移量已更改

我的Spark结构化流应用程序运行了几个小时之前,它失败了这个错误。
Java.lang.IllegalStateException: Partition [partition-name] 偏移量从 361037 改为 355053,.