How to read files of size 10+ GB in dataflow?

Question

trying to read a CSV file of size 10+ GB using apache beam FileIO in the dataflow job by calling the function ReadableFile.readFullyAsUTF8String. And, its failing with below error.

Looks like reading the file with size exceeding INTEGER.MAX_VALUE is failing. please advice.

    at java.io.ByteArrayOutputStream.hugeCapacity(ByteArrayOutputStream.java:123)
    at java.io.ByteArrayOutputStream.grow(ByteArrayOutputStream.java:117)
    at java.io.ByteArrayOutputStream.ensureCapacity(ByteArrayOutputStream.java:93)
    at java.io.ByteArrayOutputStream.write(ByteArrayOutputStream.java:153)
    at org.apache.beam.sdk.util.StreamUtils.getBytes(StreamUtils.java:64)
    at org.apache.beam.sdk.io.FileIO$ReadableFile.readFullyAsBytes(FileIO.java:419)
    at org.apache.beam.sdk.io.FileIO$ReadableFile.readFullyAsUTF8String(FileIO.java:424) ```

How to read files of size 10+ GB in dataflow?

Answers (1)

Related Questions