S3AbortableInputStream warning when reading large file from S3 IN Pyspark in AWS EMR

Question

I keep getting this error on AWS EMR when reading a large dataset from S3 in Pyspark.

INFO FileScanRDD: Reading File path: s3a://bucket/dir1/dir2/dir3/2018-01-31/part-XXX-YYYY-c000.snappy.parquet, 
range: 0-11383, partition values: [empty row]

WARN S3AbortableInputStream: Not all bytes were read from the S3ObjectInputStream, aborting HTTP connection. 
This is likely an error and may result in sub-optimal behavior. 
Request only the bytes you need via a ranged GET or drain the input stream after use.

The read is fairly standard:

df = spark.read.parquet(s3_path)

Has anyone encountered this error before ? Any suggestions ? Thanks in advance.

S3AbortableInputStream warning when reading large file from S3 IN Pyspark in AWS EMR

Answers (1)

Related Questions