dataframe有关的问题


Panda在PySpark中的value_counts() 是什么等价物?

我有以下python/pandas命令:
df.groupby ('column_name ').agg (λ x: x.value_counts().max()
我正在获取DataFrameGroupBy对象中所有列的值计数。
...


Plotly Apache火花地图框

有没有办法将Apache Spark Dataframes绘制到MapBox中?
我已经尝试过了,但是只需要Pandas Dataframes就可以在地图上绘制。
更新:
当我将Spark转换为Pandas dataframe时,我得到


替换嵌套列的pyspark数据框中的字符 (错误: pyspark.sql.utils.AnalysisException)

在架构下面有一个pyspark数据帧。也需要在列名称和嵌套列中替换 ('-','_')。尝试了不同的方法

| -- Call-birds: array (nullable = true)
| | --


开始问题: 在dataframe上创建许多新变量 (在Python中),每个变量都基于当前现有的变量:

我有一个dataframe由一系列变量,X1 - X100和另一个系列f1到f100组成。
我需要计算X1 * f1,X2 * f2等。
抱歉,但是,是的,我是个新手。
我已经谷歌了.


Hive alter table使用pyspark运行时添加列的问题

我有输入dataframe如下: df_input
| A | b | c | mon | src_id |
| 5 | 2 | 3 | 1 | A |
| 1 | 5 | 4 | 2 | A |
| 1 | 5 | 3 | 2 | B |
在mon和src_id上分区。
现在,我想添加一个新的列到.


如何根据dataframe中不同级别内的变化条件分配TRUE/FALSE?

我有一个带有以下变量的dataframe:
“ID”: 不同级别的因子
“小时”: 小时间隔不规则的数字变量
一个逻辑列X,其中所有v.


如何保留表格中分号分隔字段的第一个、最小值和最大值?

我有一个制表符分隔的文件,每个字段有许多分号分隔的值。这里是文件:
名字第一个最后一个
Foo3; foo3 11869;12010;12179;12613 12227;12057;12227;12721;12697