How to write dataframe (obtained from hive table) into hadoop SequenceFile and RCFile?

Question

I am able to write it into

ORC
PARQUET

directly and
TEXTFILE
AVRO

using additional dependencies from databricks.

    
        com.databricks
        spark-csv_2.10
        1.5.0
    
    
        com.databricks
        spark-avro_2.10
        2.0.1

Sample code:

    SparkContext sc = new SparkContext(conf);
    HiveContext hc = new HiveContext(sc);
    DataFrame df = hc.table(hiveTableName);
    df.printSchema();
    DataFrameWriter writer = df.repartition(1).write();

    if ("ORC".equalsIgnoreCase(hdfsFileFormat)) {
        writer.orc(outputHdfsFile);

    } else if ("PARQUET".equalsIgnoreCase(hdfsFileFormat)) {
        writer.parquet(outputHdfsFile);

    } else if ("TEXTFILE".equalsIgnoreCase(hdfsFileFormat)) {
        writer.format("com.databricks.spark.csv").option("header", "true").save(outputHdfsFile);

    } else if ("AVRO".equalsIgnoreCase(hdfsFileFormat)) {
        writer.format("com.databricks.spark.avro").save(outputHdfsFile);
    }

Is there any way to write dataframe into hadoop SequenceFile and RCFile?

nicoring · Accepted Answer

You can use void saveAsObjectFile(String path) to save a RDD as a SequenceFile of serialized objects. So in your case you have to to retrieve the RDD from the DataFrame:

JavaRDD rdd = df.javaRDD;
rdd.saveAsObjectFile(outputHdfsFile);

How to write dataframe (obtained from hive table) into hadoop SequenceFile and RCFile?

Answers (1)

Related Questions