Question

我的数据范围为55049列,667列。

抽样数据框架结构如下:


import pandas as pd

data = {
     g1 : [1],
     g2 : [2],
     g3 : [3],
     st1_1 : [1],
     st1_2 : [1],
     st1_3 : [1],
     st1_4 : [1],
     st1_5 : [1],
     st1_6 : [1],
     st1_7 : [1],
     st1_8 : [1],
    
     st2_1 : [2],
     st2_2 : [2],
     st2_3 : [2],
     st2_4 : [2],
     st2_5 : [2],
     st2_6 : [2],
     st2_7 : [2],
     st2_8 : [2],
    
     ft_1 : [1],
     ft_2 : [0],
     ft_3 : [1],
     ft_4 : [1],
     ft_5 : [1],
     ft_6 : [0],
     ft_7 : [0],
     ft_8 : [1]
}

df = pd.DataFrame(data)
print(df)

为了获得我所期望的产出,我有以下代码:pd.wide_to_long。

ilist = [ g1 , g2 , g3 ]
stublist = [ st1 , st2 , ft ]

df_long = pd.wide_to_long(
      df.reset_index(),
      i=[ index ]+ilist ,
      stubnames= stublist,
      j= j , sep= _ ).reset_index()

df_long = df_long[df_long[ ft ]==1]

高于法典的是按预期结果进行罚款。

我从这个广域名到长期应用过滤器码。

问题在于广泛开展“长期”行动,围绕2个主题进行。我有800多份源文件,处理整个过程,需要1 600名高的污染物。

页: 1 寻找任何替代建议以转换数据。

我的Terryed ,但我的工作体异。

Answer 1

一种选择是 pivot_longer ,其中你通过新的头盔姓名到 姓名_to ,以及 regexes 名单>。


# pip install pyjanitor
import pandas as pd

df.pivot_longer(index=ilist,names_to=stublist,names_pattern=stublist)
   g1  g2  g3  st1  st2  ft
0   1   2   3    1    2   1
1   1   2   3    1    2   0
2   1   2   3    1    2   1
3   1   2   3    1    2   1
4   1   2   3    1    2   1
5   1   2   3    1    2   0
6   1   2   3    1    2   0
7   1   2   3    1    2   1

另一种选择是重塑一栏,然后是pd.stack:
reshaped = df.set_index(ilist)
reshaped.columns = reshaped.columns.str.split( _ ,expand=True).set_names([None, drop ])
reshaped.stack(level= drop ).droplevel( drop ).reset_index()
   g1  g2  g3  st1  st2  ft
0   1   2   3    1    2   1
1   1   2   3    1    2   0
2   1   2   3    1    2   1
3   1   2   3    1    2   1
4   1   2   3    1    2   1
5   1   2   3    1    2   0
6   1   2   3    1    2   0
7   1   2   3    1    2   1

友情链接