apache-spark有关的问题


以字符串开头的Spark数据帧搜索列

我有一个基于列值应该以预定义的字符串开头的条件来过滤数据帧的要求。
我正在尝试以下操作:
val domainConfigJSON = sqlContext.read
。jd...


火花独立vs纱线

纱线的哪些功能使它比Spark独立模式运行的多租户群集仅运行Spark应用程序?也许除了身份验证之外。
在Google有很多答案,漂亮...


在pyspark [非熊猫] 中为dataframe的每一行调用一个函数

pyspark中有一个函数:
def sum(a,b):
c = a b
退货c
它必须在使用spark sql的非常大的dataframe的每个记录上运行:
x = sum(df.select["NUM1"].first()["NUM1"],df.


如何从PyCharm连接Databricks社区版集群

我想在一些小的运动项目上工作,我希望使用databricks集群。可以做到这一点。我希望有一些方法可以通过databricks-connect实用程序连接databricks集群。J...


如何挑选spark结构化流媒体加入的最新记录

我使用spark-sql 2.4.x版本,datastax-spark-cassandra-connector Cassandra-3.x版本。和卡夫卡一起。
我的汇率元数据如下:
val ratesmetadatadf=s。。


HDP 2.6.5中如何使用蜂巢仓库连接器

我有一个要求从spark读取蜂巢表,这是ACID启用。
Spark by native不支持读取ORC文件是ACID启用,唯一的选项是使用spark jdbc。
我们也可以使用蜂巢


Spark Structured Streaming: “最早” 作为 “startingOffsets” 不起作用

当我将 “startingOffsets” 设置为 “最新” 时,我的Spark结构化流作业工作正常。当我简单地将其更改为 “最早” 时 & 指定了一个新的 “检查点


Mesos失败,错误: 无法加载类。..命令退出状态101 Spark3,Mesos 1.9.0,Jdk无头11 RHEL 7

我们目前的项目与jdk8,Cent7,Spark 2.3.1和MESOS 1.4.1。我们正在升级到jdk11无头和RHEL7,Spark 3.0.0和Mesos 1.9.0。
在我使用升级创建的新集群上,


Spark cassandra连接器连接超时

我需要加入两个Spark dataframes,并将结果返回到Hive。以下是数据框架:
Dataframe1: Cassandra table - PARTITION和聚类键 :( ID,PART_NBR)
val df1 = spark.read.Fo…


Spark SQL: 从另一个数据库中减去一个数据库的相应行

我有2个数据库,它们具有相同的模式
Df1
Col1 col2
23 89
Df2
Col1 col2
57 72
我想从df2 rowwise中减去df1。所以我想看看
结果
Col1 col2
34...


Org.apache.spark.sql.AnalysisException: 未定义函数: 'coalesce'

火花 (2.4.5) 在尝试执行类似如下所示的select查询时,会引发以下错误。
Org.apache.spark.sql.AnalysisException: 未定义函数: 'coalesce'这个功能...


如何在PySpark中将两个rdd合并为一个

我得到两个RDD,想concat并组合成一个RDD如下:
Rdd_1 = ['a1 ','a2','a3','a4','a5',]
Rdd_2 = ['b1 ','b2','b4','b4','b5',]
# Concat并将这两个rdd合并为一个
...


在PYSPARK中屏蔽模块。不可访问

我是Pyspark的新手。我试图运行pyspark代码。我运行了一个名为 “time.py” 的代码,因为pyspark现在无法运行。我得到下面的错误。
Traceback (最.


在dataframe上使用head(1) 导致spark超时异常

我正在运行一个简单的spark-scala代码:-
Val df = spark.read.json("/home/files/data/date_20200811.json")
Df.Persent
If (!df.head(1).isEmpty){
Val validDF = df.where("status = OLD")
Va.


Spark属性 “缺失” (执行器内核,内存,数字等)

我试图从spark-shell直接访问spark属性-或者以编程方式访问。我不想依赖Spark Web UI。
更重要的是,通过命令行d设置启动时的执行程序数量.


火花上的Kedro气流

在spark上寻找kedro气流实现。该插件现在可用于spark吗?
查看了PipelineX但在spark上找不到相关的例子?


Spark-忽略Dataset.as[SomeCaseClass] 的不存在的列

Spark Dataset.as函数对未找到的列抛出异常-org.apache.spark.sql.AnalysisException: 无法解析 'attr_3' 给定输入列: [attr_1,attr_2];
Case class SomeCaseClass(at.


捕获spark结构化流的架构更改

我正在研究应用程序,以便将不同来源的数据引入parquet格式的数据湖 (HDFS)。
我们有多个批处理作业,我们还添加了一些流媒体作业。


如何提取属性 “estimators _” 并用PySpark GBTRegressor计算置信区间

我在Pyspark中使用GBTRegressor算法 ( https://spark.apache.org/docs/2.2.0/api/java/index.html?org/apache/spark/ml/regression/GBTRegressor.html ),有500棵树,我使用


如何在spark中用视图替换一些表名

我有spark sqls像下面这样:
Select * from db::table;
但是spark无法识别db::table,所以我尝试以下策略
使用自定义函数将db::table加载到DataFr中.


Spark driver pod以 “oomkilled” 状态被杀

我们正在使用Spark 2.4.5在Kubernetes集群上运行spark Streaming应用程序。
应用程序通过Kafka主题接收大量数据 (每3ms一条消息)。4遗嘱执行人.


N个任务序列化结果总大小 (x MB) 大于spark.driver.maxResultSize

我在spark数据帧上做简单的计数操作时收到以下错误。
Org.apache.spark.SparkException: 由于阶段失败导致作业中止: 4的序列化结果的总大小.


单个位置的Spark模式管理

问题
什么是管理Spark表的架构的最佳方式?你看到选项2有什么缺点吗?你能提出更好的选择吗?
我看到的解决方案
选项1: 保留单独的定义.


重新分区后的Spark非确定性结果

有没有办法从dataframe重新分区获得确定性的结果而不排序?在下面的代码中,我在执行相同操作时得到不同的结果。
从pyspark.sql.functions导入


YARN如何在launch_container.sh中执行PYSPARK环境设置

在分析spark作业的yarn launch_container.sh日志时,我被日志的某些部分弄糊涂了。
我会在这里一步一步地指出这些问题
当您将使用spark-submit提交spark作业时


具有不同列的两个Spark dataframe的联合

我试图用不同的列来联合两个Spark dataframe。为此,我提到了以下链接:-
如何对具有不同数量列的两个数据帧执行union.


Pyspark中如何解决分析异常错误

我在Pyspark中得到一个错误:
分析异常: u 'resolved attribute(s) 第 5230 周缺失
经度 #4976,地址 #4982,分钟 #4986,方位角 #4977,省 #4979,
Action_type #4972,user_id #4969,week #.


Spark delta lake merge上的分区修剪

我正在使用delta lake (“io.de lta” % % “delta-core” % “0.4.0”) 并在foreachBatch中合并,如下所示:
ForeachBatch { (s,batchid) =>
DeltaTable.alias("t")
。合并 (
S.as("s"),.


Spark SQL无法读取带有org.apache.hadoop.HIVE.contrib.serde2.MultiDelimitSerDe serde的hive表

Hive表属性:
| 行格式SERDE |
| 'Org.apache.hadoop.hive.contrib.serde2.MultiDelimitSerDe' |
| 与SERDEPROPERTIES ( .


Spark结构化流式处理多个聚合选项

在我的用例中,我需要在spark结构化流中执行多个聚合。虽然到目前为止还没有直接支持 2.4.x,但是已经看到了这个线程 (Spark中的多个聚合


Java.lang.NoClassDefFoundError: 在IntelliJ和SBT中找不到org/slf4j/Logger类

我试图运行一个spark scala程序,其中我使用了 “import org.apache.spark.int ernal.Logging”。
程序在本地运行良好,直到我尝试构建一个fat jar并添加了assembb.


如何在pyspark中处理异常?

我有一个下面的代码写在pyspark,基本上做一定的转换。
Df2 = df1.select('*',F.explode(F.col('usedata')).alias('UseData1' ))\
。Select ('*',F.explode(F.col('


在Spark SQL中按日和月比较日期

如何在Spark SQL查询中仅按月份和日比较 2 个日期?我的表有 2 列,date1 和date2。我需要比较它们来检查date1 (组合) 的dd & MM部分是否更大.


Spark 3.0.0 停止支持多个上下文

我正在尝试升级到Spark 3.0.0 (Java 11)
以前在Spark 2.4.6,Scala 2.11 中工作的代码现在因错误
线程 “main” org.apache.spark.SparkException中的异常:.


Spark结构化流Kafka错误 -- 偏移量已更改

我的Spark结构化流应用程序运行了几个小时之前,它失败了这个错误。
Java.lang.IllegalStateException: Partition [partition-name] 偏移量从 361037 改为 355053,.