dataframe有关的问题


开始问题: 在dataframe上创建许多新变量 (在Python中),每个变量都基于当前现有的变量:

我有一个dataframe由一系列变量,X1 - X100和另一个系列f1到f100组成。
我需要计算X1 * f1,X2 * f2等。
抱歉,但是,是的,我是个新手。
我已经谷歌了.


Hive alter table使用pyspark运行时添加列的问题

我有输入dataframe如下: df_input
| A | b | c | mon | src_id |
| 5 | 2 | 3 | 1 | A |
| 1 | 5 | 4 | 2 | A |
| 1 | 5 | 3 | 2 | B |
在mon和src_id上分区。
现在,我想添加一个新的列到.


如何根据dataframe中不同级别内的变化条件分配TRUE/FALSE?

我有一个带有以下变量的dataframe:
“ID”: 不同级别的因子
“小时”: 小时间隔不规则的数字变量
一个逻辑列X,其中所有v.


如何保留表格中分号分隔字段的第一个、最小值和最大值?

我有一个制表符分隔的文件,每个字段有许多分号分隔的值。这里是文件:
名字第一个最后一个
Foo3; foo3 11869;12010;12179;12613 12227;12057;12227;12721;12697