Question

我有一份CSV文件,其中载有近2亿行(数据千兆字节)。它只有5列。我想重复数据,进行简单的计算,首先是各栏,然后是各行之间。

抽样数据:

DateTime,Width,Length,Count,Age
01.01.2010 00:00:00,0.55,0.25,1,4
07.02.2010 00:00:01,0.53,0.28,2,3
21.02.2010 00:00:01,0.55,0.25,2,3
20.03.2010 00:00:01,0.55,0.25,1,3
09.05.2010 00:00:02,0.55,0.25,4,7
11.05.2010 00:00:02,0.5,0.3,3,5

我用Pandas语阅读了楚克语中的数据,但我不相信如何进入每行各栏以进行基本的算术。

这里,我目前还没有工作。

import pandas as pd

file_in = r"B:UsersuserDocumentshuge-dataset.csv"
file_out = r"B:UsersuserDocumentsaggregate.csv"

data = pd.read_csv(file_in, chunksize=100000)

for idx, chunk in enumerate(data):
    for row in chunk:
        print("row: ", row)
        diff = row[1] - row[2]
        data_out.append([row[0],diff])
        if row[0] == 0:
            prevrow = row
        else:
            rowdiff = row[1] - prevrow[1]

pd.write_csv(file_out, data_out)

例如,我想使用一栏的名称:

<代码>ratio =row[ Width]/row[Length]

我然后想将每一行与以往各行进行比较,例如:

<代码>width_diff = row[width] - prev_row[ width]/code>

任何要点/标准?

Answer 1

让我们说数据框架的名称是df。为了计算第一种公式,你可以轻松写:

ratio = df[ Width ]/df[ Length ]

如果你想将其储存在你的数据库中,你可以写:

df[ ratio ] = df[ Width ]/df[ Length ]

For the second formula you can use diff() function.

width_diff = df[ Width ].diff()

最后,将数据框架储存为文档,可使用<代码>至_csv(功能。在安达没有<条码>。

df.to_csv(file_out)

友情链接