Curation process with Delta Lake libraries (without Databricks)

Question

I am using

AWS DMS to pull data from Oracle
It lands into S3 Raw Bucket
Using AWS Glue, I want to write pyspark code WITHOUT using databricks product to merge CDC data with initial load.

What libraries would I need to import specifically in spark context in order to create Delta tables?

I added delta-core_2.12-0.7.0.jar into Glue Dependent Path under "Security configuration, script libraries, and job parameters (optional)" I get error below error--------

File "script_2020-11-08-19-29-39.py", line 54, in fullload_str_metrics_df = spark.read.parquet('s3://rawbucket/.../fullload/.../STR_METRICS/LOAD00000001.parquet') File "/mnt/yarn/usercache/root/appcache/application_1604863378634_0002/container_1604863378634_0002_01_000001/pyspark.zip/pyspark/sql/readwriter.py", line 291, in parquet File "/mnt/yarn/usercache/root/appcache/application_1604863378634_0002/container_1604863378634_0002_01_000001/py4j-0.10.4-src.zip/py4j/java_gateway.py", line 1133, in call File "/mnt/yarn/usercache/root/appcache/application_1604863378634_0002/container_1604863378634_0002_01_000001/pyspark.zip/pyspark/sql/utils.py", line 63, in deco File "/mnt/yarn/usercache/root/appcache/application_1604863378634_0002/container_1604863378634_0002_01_000001/py4j-0.10.4-src.zip/py4j/protocol.py", line 319, in get_return_value py4j.protocol.Py4JJavaError: An error occurred while calling o74.parquet.

Curation process with Delta Lake libraries (without Databricks)

Answers (1)

Related Questions