Bernardus Ari Kuncoro

Pendidik Data Science dan Musisi....

Selengkapnya
Navigasi Web

DATAFRAME DALAM SPARK

Tantangan Menulis Hari ke-125

Oleh: Bernardus Ari Kuncoro

Dalam Spark, struktur data yang utama disebut sebagai RDD atau Resilient Distributed Dataset. RDD ini merupakan obyek yang paling bawah (low level) sedemikian sehingga Spark dapat bekerja memecah-mecahkan data ke setiap node dalam sebuah kluster. Namun, pengerjaan langsung dengan RDD ini termasuk ribet alias sulit, sehingga Spark DataFrame disarankan untuk dipelajari. Spark DataFrame ini dibuat di atas RDD.

Spark DatafFrame ini dirancang untuk memiliki perilaku yang mirip dengan tabel SQL. Tidak hanya mudah untuk dipahami, DataFrame secara operasi juga dapat dioptimasi ketimbang menggunakan RDD secara langsung.

Untuk mulai ngulik Spark DataFrame, Anda harus membuat sebuah obyek SparkSession dari SparkContext. SparkContext sebagai koneksi Anda ke kluster. Sedangkan SparkSession ini adalah interface Anda dengan koneksi tersebut. Ibarat kata Anda sedang menangani beragam kamera yang terpasang di seluruh kota, dan Anda berada di sebuah ruang kendali. Kabel-kabel yang terhubung ke CCTV dapat Anda analogikan sebagai SparkContext. Sedangkan ruang kendali yang sedang menyala adalah SparkSession.

(Disadur dan diterjemahkan dari Kursus Daaring Datacamp: Introduction to Pyspark)

Kalideres, 3 Desember 2020

DISCLAIMER
Konten pada website ini merupakan konten yang di tulis oleh user. Tanggung jawab isi adalah sepenuhnya oleh user/penulis. Pihak pengelola web tidak memiliki tanggung jawab apapun atas hal hal yang dapat ditimbulkan dari penerbitan artikel di website ini, namun setiap orang bisa mengirimkan surat aduan yang akan ditindak lanjuti oleh pengelola sebaik mungkin. Pengelola website berhak untuk membatalkan penayangan artikel, penghapusan artikel hingga penonaktifan akun penulis bila terdapat konten yang tidak seharusnya ditayangkan di web ini.

Laporkan Penyalahgunaan

Komentar




search

New Post