java.lang.StringIndexOutOfBoundsException: String index out of range: -650599791

Question

The error here:

org.apache.spark.SparkException: Job aborted due to stage failure: Task 0 in stage 132.0 failed 4 times, most recent failure : Lost task 0.3 in stage 132.0: 
java.lang.StringIndexOutOfBoundsException: String index out of range: -650599791
     at java.lang.String.(String.java:196)
     at com.esotericsoftware.kryo.io.Input.readString(Input.java:484)
     at com.esotericsoftware.kryo.serializers.DefaultSerializers$StringSerializer.read(DefaultSerializers.java:195)
     at com.esotericsoftware.kryo.serializers.DefaultSerializers$StringSerializer.read(DefaultSerializers.java:184)
     at com.esotericsoftware.kryo.readClassAndObject(kryo.java:790)
     at arg.apache.spark.Serializer.kryoDeserializationStream.readObject(kryoSerializer.scala:244)
     at arg.apache.spark.Serializer.DeserializationStream.readKey(Serializer.scala:157)
     at arg.apache.spark.Serializer.DeserializationStream.$$anon$2.getNext(Serializer.scala:189)
     at arg.apache.spark.Serializer.DeserializationStream.$$anon$2.getNext(Serializer.scala:186)
     at org.apache.spark.util.NextIterator.hasNext(NextIterator.scala:73)
     at scala.collection.Iterator$$anon$12.hasNext(Iterator.scala:438)
     at scala.collection.Iterator$$anon$11.hasNext(Iterator.scala:408)
     at org.apache.spark.util.completionIterator.hasNext(CompletionIterator.scala:32)
     at org.apache.spark.InterruptibleIterator.hasNext(InterruptibleIterator.scala:39)
     at org.apache.spark.util.collection.ExternalAppendOnlyMap.insertAll(ExternalAppendOnlyMap.scala:154)
     at org.apache.spark.Aggregator.combineValuesBykey(Aggregator.scala:41)
     at org.apache.spark.rdd.PairRDDFunctions$$anonfun$combineByKeyWithClassTag$1$$anonfun$apply$11.apply(PairRDDFunctions.scala:99)
     org.apache.spark.rdd.PairRDDFunctions$$anonfun$combineByKeyWithClassTag$1$$anonfun$apply$11.apply(PairRDDFunctions.scala:97)

The error occurred when I called spark grouping method in Java. Spark version is 2.1.0 and Java verson is 1.8.

JavaPairRDD> combineRdd = pairRDD.partitionBy(new HashPartitioner(mission.getCombineCount()))
                .combineByKey(new Function>() {
                    private static final long serialVersionUID = 6592724289900217307L;

                    @Override
                    public List call(String v1) throws Exception {
                        List re = new ArrayList<>();
                        re.add(v1);
                        return re;
                    }
                }, new Function2, String, List>() {
                    private static final long serialVersionUID = -5882646966686065803L;

                    @Override
                    public List call(List v1, String v2) throws Exception {
                        v1.add(v2);
                        return v1;
                    }
                }, new Function2, List, List>() {
                    private static final long serialVersionUID = -1624057077103693447L;

                    @Override
                    public List call(List v1, List v2) throws Exception {
                        v1.addAll(v2);
                        return v1;
                    }
                });
  System.out.println("group rdd count: " + combineRdd.count());

The reason I can think of is too much data. Should I do something before group data. Any other reason?

java.lang.StringIndexOutOfBoundsException: String index out of range: -650599791

Answers (1)

Related Questions