我有一份CSV文件,其中载有近2亿行(数据千兆字节)。 它只有5列。 我想重复数据,进行简单的计算,首先是各栏,然后是各行之间。
抽样数据:
DateTime,Width,Length,Count,Age
01.01.2010 00:00:00,0.55,0.25,1,4
07.02.2010 00:00:01,0.53,0.28,2,3
21.02.2010 00:00:01,0.55,0.25,2,3
20.03.2010 00:00:01,0.55,0.25,1,3
09.05.2010 00:00:02,0.55,0.25,4,7
11.05.2010 00:00:02,0.5,0.3,3,5
我用Pandas语阅读了楚克语中的数据,但我不相信如何进入每行各栏以进行基本的算术。
这里,我目前还没有工作。
import pandas as pd
file_in = r"B:UsersuserDocumentshuge-dataset.csv"
file_out = r"B:UsersuserDocumentsaggregate.csv"
data = pd.read_csv(file_in, chunksize=100000)
for idx, chunk in enumerate(data):
for row in chunk:
print("row: ", row)
diff = row[1] - row[2]
data_out.append([row[0],diff])
if row[0] == 0:
prevrow = row
else:
rowdiff = row[1] - prevrow[1]
pd.write_csv(file_out, data_out)
例如,我想使用一栏的名称:
<代码>ratio =row[ Width]/row[Length]
我然后想将每一行与以往各行进行比较,例如:
<代码>width_diff = row[width] - prev_row[ width]/code>
任何要点/标准?