PySpark Snowflake Data Warehouse Operasi Baca Tulis – Part1 (Hanya Baca) – Menuju AI – Teknologi, Sains, dan Teknik Terbaik

Penulis: Vivek Chaudhary

Pemrograman

PySpark Snowflake Data Warehouse Operasi Baca Tulis – Part1 (Hanya Baca)

Tujuan dari cerita ini adalah untuk membangun pemahaman tentang operasi Baca dan Tulis pada tabel gudang Data Snowflake menggunakan Apache Spark API, Pyspark.

Snowflake adalah solusi Data Warehousing berbasis cloud, dirancang untuk skalabilitas dan kinerja. Di site saya yang akan datang, saya pasti akan membagikan wawasan terperinci tentang Snowflake dan komponennya, tetapi untuk saat ini menganggapnya sebagai sistem sebagai berbasis cloud dengan pemrosesan paralel besar-besaran dan kekuatan komputasi yang sangat besar, jadi untuk sekarang saya akan membatasi diri saya di sini hanya untuk Hal-hal terkait kepingan salju dan percikan.

Info Pyspark-SnowflakeLoad dari tabel Amazon S3 Bucket ke Snowflake DB

Snowflake memberikan uji coba gratis selama 30 hari. Buat akun tingkat gratis Anda dan nikmati manfaat belajar.

Info ada di bucket AWS S3:

Installation sebelum memuat info ke dalam Snowflake Table:

Buat Akun Tingkat Gratis Snowflake dan Buat Database seperti di bawah ini:

2. ) Buat Tahap yang akan mengarah ke bucket AWS S3:

3. Di bawah tab Format File, buat format document CSV untuk digunakan saat memuat info dari AWS S3 ke Snowflake Table.

4. ) Langkah selanjutnya adalah membuat Snowflake Table “EMP”, buka tab Worksheets dan jalankan perintah SnowSQL DDL untuk membuat tabel.

Buat tabel emp (empno INTEGER,
ename series,
akan berintegrasi,
deptno integer,
bilangan bulat comm);
DDL salju

5. ) Selanjutnya, salin information dari AWS S3 ke tabel Snowflake.

salin ke learning_db. emp
dari @ csv_data_loads / emp.csv file_format = csv_loads
on_error = ‘skip_file’;
Perintah salin info

csv_data_loads mewakili lokasi Tahap tempat kami menunjuk ke bucket S3 csv_loads adalah structure document yang kami buat untuk place info csv.

Verifikasi dataset menggunakan SnowSQL:

Info berhasil dimuat ke Snowflake.

2. ) Baca Snowflake Table menggunakan PySpark.

Impor prasyarat dan setel konfigurasi percikan:

Publish findspark
findspark.init (‘D: spark-2.3.3-bin-hadoop2.7’)
import pyspark
dari pyspark.sql impor SparkSession
dari pyspark impor SparkContext, impor SparkConf os
lingkungan[‘PYSPARK_SUBMIT_ARGS’] =’- paket net.snowflake: snowflake-jdbc: 3.11.1, net.snowflake: spark-snowflake_2.11: 2.5.7-spark_2.4 pyspark-shell’ spark = SparkSession.builder.appName (‘Pyspark_snowflake’). GetOrCreate ()
spark. ) _jvm.net.snowflake.spark.snowflake.SnowflakeConnectorUtils.enablePushdownSession (spark. _jvm.org.apache.spark.sql.SparkSession.builder (). getOrCreate ())

Setel properti koneksi kepingan salju:

sfOptions = {
“SfURL”: “wa29709.ap-south-1. aws.snowflakecomputing.com”,
“SfAccount”: “xxxxxxx”,
“SfUser”: “xxxxxxxx”,
“SfPassword”: “xxxxxxx”,
“SfDatabase”: “learning_db”,
“SfSchema”: “publik”,
“SfWarehouse”: “compute_wh”,
“SfRole”: “sysadmin”,
}

SNOWFLAKE_SOURCE_NAME = “net.snowflake.spark.snowflake”

Df = spark.read.format (SNOWFLAKE_SOURCE_NAME) .options (** sfOptions) .option (“question”,”pilih * dari emp”). Load ()
df.show ()

Validasi Data berhasil, kami dapat terhubung ke spark dan membaca information dari tabel Snowflake ke Spark.

Ringkasan:

· Muat info AWS S3 ke dalam tabel Snowflake DB

· Pembuatan Snowflake Stage dan File Format.

· Perintah SnowSQL seperti DDL dan menyalin info.

· Gunakan Pyspark untuk membaca information tabel Snowflake

Terima kasih untuk semua telah membaca website saya. Bagikan pandangan dan umpan balik Anda.

Operasi Tulis Data Warehouse PySpark Snowflake – Part1 (Hanya Baca) awalnya diterbitkan di Limit AI on Moderate, di mana orang-orang melanjutkan percakapan dengan menyorot dan menanggapi cerita ini.

Diterbitkan melalui Towards AI