g2QFCKwavghUp2yzjKrIFwEeG13RASCerFTCMH35


Pengertian Data Science

Menurut Urban Institute, data science merupakan keterampilan yang membutuhkan ilmu komputer, pemrograman, teknologi, dan statistik yang berada di luar rangkaian pelatihan standar bagi peneliti ilmu sosial. Keterampilan ini mencakup teknologi dan teknik seperti memanfaatkan komputasi cloud, analisis big data, pemrosesan natural language, pembelajaran tanpa pengawasan (unsupervised learning) seperti analisis cluster, Web Scraping, teknik fuzzy, machine learning, dan lain sebagainya. 


Data science dapat membantu peneliti agar dapat bekerja lebih efektif untuk menghasilkan informasi baru yang tepat waktu, menjelajahi kumpulan data yang benar-benar baru dengan cara baru, mengubah pemodelan simulasi, dan lain sebagainya dengan tujuan untuk meningkatkan kuantitas dan kualitas bukti yang diperlukan untuk membuat kebijakan yang lebih baik, memperkuat komunitas, dan meningkatkan kehidupan masyarakat. 


Seseorang yang memahami data science disebut data scientist. Seorang data scientist tidak harus memahami semua kemampuan yang dibutuhkan karena biasanya data scientist bekerja pada tim yang memiliki kemampuan dan keterampilan yang berbeda-beda sehingga dapat saling melengkapi. Secara umum, keterampilan dasar terpenting untuk data scientist adalah kemampuan untuk membuat kode dalam setidaknya dua bahasa pemrograman yaitu Python dan R. Keterampilan umum lain yang diperlukan oleh seorang data scientist adalah keterampilan organisasi yang baik, komunikasi yang jelas, dan kemampuan untuk menguasai konsep dan teknik baru dengan cepat.

Alat untuk Data Science

Setelah memahami pengertian data science, kita wajib memahami alat yang umum digunakan dalam data science. Alat tersebut antara lain big data, machine learning, data mining, deep learning, dan artificial intelligence. Kali ini kita akan membahasnya satu persatu. Alat pertama yang akan kita bahas adalah big data. Dengan menggunakan big data, data scientist dapat membantu perusahaan untuk memprediksi produk apa yang akan dijual, membantu perusahaan telekomunikasi untuk memprediksi kapan dan mengapa pelanggan mengganti operator, dan membantu perusahaan asuransi mobil untuk memahami seberapa baik pelanggan mereka mengemudi, memprediksi penyebaran dan lain sebagainya. Alat yang kedua adalah machine learning. Machine learning bersifat interdisipliner dan menggunakan teknik dari bidang ilmu komputer, statistik, dan artificial intelligence. Komponen utama machine learning adalah algoritma yang dapat belajar secara otomatis dari pengalaman untuk memperbaiki kinerjanya. Algoritma ini dapat diterapkan di berbagai bidang. Alat selanjutnya adalah data mining. Data mining adalah penerapan algoritma khusus untuk mengekstraksi pola pada sebuah kumpulan data.

Data mining berhubungan erat dengan machine learning. Data mining adalah sebuah proses yang menggunakan algoritma machine learning untuk mengekstrak pola-pola informatif yang disimpan dalam kumpulan data. Alat berikutnya adalah deep learning. Deep learning adalah istilah yang relatif baru yang sedang banyak dibicarakan belakangan ini. Deep learning adalah proses penerapan teknologi deep neural network. Deep neural network adalah arsitektur jaringan saraf dengan beberapa lapisan tersembunyi untuk memecahkan masalah. Alat terakhir untuk data science adalah artificial intelligence. Artificial intelligence atau biasa disebut AI adalah bidang ilmu komputer yang menekankan pada penciptaan mesin cerdas yang bekerja dan bereaksi seperti manusia. Komponen inti dari artificial intelligence adalah pemrograman komputer untuk sifat-sifat tertentu seperti pengetahuan, penalaran, pemecahan masalah, persepsi, pembelajaran, perencanaan, dan lain sebagainya.

Contoh Penerapan Data Science

Setelah memahami definisi dan alat yang digunakan dalam data science, saatnya kita pelajari lebih jauh mengenai data science. Data science dapat diterapkan di semua bidang mulai dari bidang jurnalisme, sosial, finansial, dan lain sebagainya. Penerapan data science di dunia nyata yang pertama adalah menggunakan pemrosesan natural language dan machine learning pada artikel berita untuk mengidentifikasi reformasi zonasi. Data scientist di Pusat Kebijakan Perumahan dan Komunitas Metropolitan Urban ingin memperkirakan dampak reformasi zonasi pada pasokan perumahan di sejumlah wilayah metropolitan di Amerika Serikat. Data scientist tidak mungkin mendapatkan data historis dari ribuan kotamadya di area metro ini sehingga mereka menggunakan data dari lebih dari 2.000 sumber berita lokal untuk mengidentifikasi reformasi lokal. Dengan menerapkan pemrosesan natural language dan machine learning, mereka dapat menandai artikel yang menyebutkan reformasi besar dan menambahkan metadata yang relevan seperti apakah artikel tersebut menyebutkan parkir, batas ketinggian, atau karakteristik lainnya. Dengan menggunakan metode ini, data scientist dapat mengumpulkan kumpulan data berdasarkan jenisnya. 


Penerapan lainnya adalah menyalin catatan pengadilan untuk menginformasikan kebijakan pemeriksaan latar belakang kriminal. Para data scientist di Pusat Kebijakan Kehakiman ingin membuat perkiraan jumlah orang di Washington DC yang mungkin memiliki catatan kriminal. Tim data scientist bekerja sama dengan tim researcher untuk mengumpulkan data dari alat penelusuran online Pengadilan Tinggi Washington yang digunakan oleh para data scientist untuk  membuat statistik mengenai latar belakang kriminal masyarakat di Washington DC.


Mengapa kita membutuhkan Data Science

Data yang kita miliki saat ini sebagian besarnya tidak terstruktur dan ukurannya terlalu kecil untuk dapat dianalisis menggunakan alat BI sederhana. Tidak seperti dahulu dimana sebagian besar data yang ada di dalam sistem adalah data yang terstruktur, sekarang sebagian besar data menjadi tidak terstruktur dan semi-terstruktur. Mari kita lihat tren data pada gambar yang diberikan di bawah ini yang menunjukkan bahwa pada tahun 2020, lebih dari 80% dari data akan tidak terstruktur.

Source Image : https://www.kdnuggets.com/2019/10/data-scientist-data-management.html

Data ini dihasilkan dari berbagai sumber seperti log keuangan, file teks, bentuk multimedia, sensor, dan instrumen. Alat BI sederhana tidak dapat memproses volume besar dan berbagai data. Inilah sebabnya mengapa kita perlu alat analitik dan algoritma yang lebih kompleks dan canggih untuk mengolah, menganalisis, dan menarik wawasan yang berarti dari itu.


Ini bukan satu-satunya alasan mengapa Data science menjadi begitu populer. Mari kita menggali lebih dalam dan melihat bagaimana ilmu pengetahuan digunakan di berbagai bidang data.

  • Sebuah perusahaan pasti ingin member produk yang sesuai untuk pelanggannya, bagaimana jika anda bisa membuat sebuah prediksi yang mem=nentukan produk yang sesuai dengan pelanggan tersebut berdasarkan data yang ada seperti sejarah masa lalu pencarian, sejarah pembelian, usia, dan gaji. tentunya hal tersebut akan meningkatkan penjualan di perusahaan tersebut.
  • di masa depan, seluruh mobil akan bisa mengendarai dirinya sendiri, lalu bagaimana mobil tersebut dapat mengenali lingkungan sekitarnya? Self-driving car akan mengumpulkan data langsung dari sensor, termasuk radar, kamera dan laser untuk membuat peta sekitarnya. Berdasarkan data ini, dia membuat keputusan seperti kapan harus mempercepat, saat menyalip,dan berhenti menggunakan algoritma machine learning canggih
  • Mari kita lihat bagaimana data sains dapat digunakan dalam analisis prediktif. Mari kita ambil sebagai contoh ramalan cuaca. Data dari kapal, pesawat, radar, satelit dapat dikumpulkan dan dianalisa untuk membangun model. Model-model ini tidak hanya akan memprediksi cuaca tetapi juga membantu dalam memprediksi terjadinya setiap bencana alam. Ini akan membantu Anda untuk mengambil tindakan yang tepat sebelum dan menyelamatkan banyak nyawa yang berharga.
Menurut Towards Data Science, menjelaskan proses data science adalah hal yang tidak mudah.

Namun, kira-kira prosesnya dapat dirangkum dalam lima poin OSEMN sebagai berikut:

1. Obtain

  • Langkah pertama untuk memulai sebuah proyek data science adalah obtain, yaitu mendapatkan atau mengumpulkan data.
  • Data dikumpulkan dari sumber-sumber data. Kemudian digunakan kemampuan teknis seperti MySQL untuk memroses datanya.
  • Jika menggunakan Python atau R, kamu bisa langsung membaca data dari sumbernya secara langsung ke program data science yang digunakan.
  • Untuk mengambil data dari sumber, dibutuhkan kemahiran bermacam-macam sesuai dengan tipe dan ukuran file yang didapatkan.

2. Scrub

  • Setelah data dikumpulkan, hal selanjutnya yang harus dilakukan dalam tahap proses data science adalah scrubbing data.
  • Scrubbing data adalah proses pembersihan atau filter data.
  • Jika ada data yang tidak penting atau tidak relevan, harus disingkirkan.
  • Pada tahap ini, dilakukan juga standardisasi format data.
  • Dari format bermacam-macam di tahap pertama, seluruh data dikonversi ke satu format yang sama.
  • Setelah itu, jika ada data yang kurang atau hilang, harus dilakukan penyesuaian agar dapat diproses.
  • Proses scrubbing juga meliputi penyatuan dan pemisahan kategori data tergantung kebutuhan.
  • Pada dasarnya, tahap scrubbing merupakan proses mengatur, merapikan data, serta membuang apapun yang tidak diperlukan, dan mengganti data yang hilang serta menstandardisasi seluruh formatnya.

3. Explore

  • Pada tahap ini, penggalian dan pemeriksaan data dilakukan.
  • Pertama-tama, semua data harus diperiksa propertinya, karena tipe data yang berbeda memerlukan perlakuan yang berbeda pula.
  • Kemudian, statistik deskriptif harus dihitung untuk dapat mengekstrak fitur dan menguji variabel yang signifikan.
  • Terakhir, visualisasi data digunakan untuk mengidentifikasi pola dan tren signifikan dalam data yang sudah kamu dapatkan.
  • Dengan begitu, bisa diperoleh gambaran yang lebih jelas dengan grafik agar pentingnya data dapat lebih dipahami.

4. Model

  • Setelah memastikan tahap scrub dan explore sudah dilakukan maksimal, maka kamu dapat lanjut ke tahap data science selanjutnya, yaitu model.
  • Pada tahap ini, dibuat model data untuk mencapai tujuan yang diinginkan.
  • Pada tahap ini, digunakan regresi dan prediksi untuk memperkirakan nilai di waktu mendatang serta melakukan klasifikasi dan pengelompokan grup nilai dari data
5. Interpret
  • Tahap terakhir dalam proses data science adalah interpretasi data.
  • Interpretasi data adalah proses penting di mana dilakukan interpretasi model dan data.
  • Output dari pengolahan data yang diinterpretasi harus bisa dipahami oleh orang-orang awam yang tidak mengerti istilah teknis.
  • Presentasinya bertujuan untuk menjawab persoalan bisnis berdasarkan data yang diperoleh.
  • Pada tahap interpretasi data, kemampuan komunikasi yang baik juga sangat dibutuhkan untuk menyampaikan poin-poin pentingnya secara efektif pada semua orang yang berkepentingan.


Daftar Referensi : 

https://www.dqlab.id/yuk-kenalan-dengan-data-science

https://anaktik.com/data-science/

Related Posts

Related Posts

Posting Komentar