g2QFCKwavghUp2yzjKrIFwEeG13RASCerFTCMH35

Pengertian ETL (Extraction, Transformation, Loading)



ETL ( Extraction, Transformation, Loading )


ETL adalah kumpulan proses menyiapkan data dari operational source untuk datadata-1. Proses ini terdiri dari Extraction, Transformation, Loading, dan beberapa proses yang dilakukan sebelum dipublikasikan ke dalam data warehouse. Jadi, ETL atau extract, transform, loading adalah fase pemrosesan data dari sumber data masuk ke dalam data warehouse. Tujuan ETL adalah mengumpulkan, menyaring, mengolah dan menggabungkan data-data yang relevan dari berbagai sumber untuk disimpan ke dalam data warehouse. ETL juga dapat digunakan untuk mengintegrasikan data.



Sistem ETL merupakan dasar dari pengolahan data khususnya Big Data. Sistem ETL terdiri dari komponen sebagai berikut :

1. Menghapus kesalahan dan mengoreksi data yang hilang

Terkadang data yang hilang dan input data yang salah menjadi sebuah masalah. Salah satu syarat agar data tersebut dapat diolah dengan baik adalah adanya kekonsistenan data. Semisalnya ada contoh data seperti tabel 1. Pada tabel 1. terdapat data yang salah yaitu ‘QWERT’ maupun data hilang yang ditandai dengan warna hijau pada tabel, data tersebut perlu dihapus, karena data menjadi tidak konsisten lagi.
Source Image : https://miro.medium.com/max/266/1*zE9D9q1-uu1EtMOZjuvptA.png

Tabel 1. Data inputan salah dan data kosong atau hilang

2. Menyediakan kepercayaan data yang terukur dan terdokumentasi

Artinya data yang digunakan haruslah sesuai dengan fakta. Kesesuaian data dengan fakta membuat data tersebut memiliki kualitas. Data juga harus terdokumentasi dengan benar. Misalnya penulisan ‘population’ pada tabel 1, harus terdokumentasi secara konsisten. Sehingga pada tabel yang lain tidak boleh ditulis ‘populasi’ karena konteksnya akan berbeda dengan ‘population’.

3. Menangkap alur transaksi data untuk pengamanan

4. Menyesuaikan data yang berasal dari berbagai sumber data



Gambar 2 : Basic ETL Functionality

Dengan sistem yang sudah ada sebelumnya. Hasil dari proses ETL adalah dihasilkannya data yang memenuhi kriteria data warehouse seperti data historis, terpadu, terangkum, statis dan memiliki struktur yang dirancang untuk keperluan proses analisis. Proses ETL terdiri dari tiga tahap, yaitu :



1. Extraction

Langkah pertama dari proses ETL adalah proses penarikan data dari satu atau lebih sistem operasional sebagai sumber data (bisa diambil dari sistem OLTP, tapi bisa juga dari sumber data di luar system database). Kebanyakan proyek data warehouse menggabungkan data dari sumber-sumber yang berbeda. Pada hakekatnya, proses ekstraksi adalah proses penguraian dan pembersihan data yang diekstrak untuk mendapatkan suatu pola atau struktur data yang diinginkan. Terdapat beberapa fungsi ekstraksi data, yaitu :
  • Ekstraksi data secara otomatis dari aplikasi sumber.
  • Penyaringan atau seleksi data hasil ekstraksi.
  • Pengiriman data dari berbagai platform aplikasi ke sumber data.
  • Perubahan format layout data dari format aslinya.
  • Penyimpanan dalam file sementara untuk penggabungan dengan hasil ekstraksi dari sumber lain.

2. Transformation

Proses transformasi data merupakan proses mengubah data dari format operasional menjadi format data warehouse. Proses transformasi berupa tugas-tugas seperti mengkonversi tipe data, melakukan beberapa perhitungan, penyaringan data yang tidak relevan, dan meringkasnya. Proses transformasi dibutuhkan untuk memenuhi kebutuhan bisnis suatu perusahaan. Langkah-langkah dalam transformasi data adalah sebagai berikut :
  • Memetakan data input dari skema data aslinya ke skema data warehouse.
  • Melakukan konversi tipe data atau format data.
  • Pembersihan serta pembuangan duplikasi dan kesalahan data.
  • Penghitungan nilai-nilai derivat atau mula-mula.
  • Penghitungan nilai-nilai agregat atau rangkuman.
  • Pemerikasaan integritas referensi data.
  • Pengisian nilai-nilai kosong dengan nilai default.
  • Penggabungan data.

3. Loading

Fase load merupakan tahapan yang berfungsi untuk memasukkan data ke dalam target akhir, yaitu ke dalam suatu data warehouse. Waktu dan jangkauan untuk mengganti atau menambah data tergantung pada perancangan data warehouse pada waktu menganalisa keperluan informasi. Fase load berinteraksi dengan suatu database, constraint didefinisikan dalam skema database sebagai suatu trigger yang diaktifkan pada waktu melakukan load data (contohnya : uniqueness,referential, integrity, mandatory fields), yang juga berkontribusi untuk keseluruhan tampilan dan kualitas data dari proses ETL.

Daftar Referensi :
https://putuandiprayoga.wordpress.com/2015/10/18/data-mart-data-warehouse-etl-olap/
https://medium.com/@moch.wijayarizky/etl-extract-transform-load-697e8d050027


Related Posts

Related Posts

Posting Komentar