使用什么参数来提高将数据帧写入Parquet文件的性能?

我正在处理一些数据,而我的代码要花一分钟以上的时间才能将一个dataframe写入到一个Parquet文件中。数据帧大约有90000行和10列。这是我第一次使用spark,所以我不确定这里的时间性能,但我认为这时间太长了。我已经阅读了一些文本,以获得更好的性能,写给Parquet,但它还没有帮助。我想知道我可以使用什么类型的参数来获得更好的性能,或者如果我的数据太小,这是正常的时间。

我有一个在dataframe date列中迭代的for循环。它每天迭代并写入文件。目前在测试中,我只有一天的时间,所以它只在这个for循环中迭代一次,并且大约需要10秒来执行所有其他操作(我没有在dataframe中包含其他操作的代码),但是当它到达此行以写入文件时,它需要超过1分钟。

if i == 0:
    df.write.mode('overwrite').parquet(self.files['parquet'])
else:
    df.write.mode('append').parquet(self.files['parquet'])

转载请注明出处:http://www.lvguanye.net/article/20230526/1534830.html