Big Data Administration with Hadoop

Big Data Administration with Hadoop

Big Data merupakan data yang memiliki karakter Volume, Velocity dan Veracity. Dengan kondisi data tersebut, menyebabkan data tidak bisa disimpan dan diproses dengan cara konvensional. Data harus diproses dengan cara dan teknologi yang berbeda.

Teknologi Big Data mampu menyimpan dan memproses data dalam satu penyimpanan tanpa batas, serta tidak bergantung pada kapasitas hardware. Pelatihan Big Data Administration ini akan membahas berbagai teknologi dalam implementasi Big Data, mulai dari teknologi penyimpanan, teknologi pemrosesan, teknologi pengumpulan data hingga teknologi pengaksesan Big Data.

Apa yang Anda pelajari?

Introduction Big Data

Persiapan Metode Penyimpanan Big Data

  • HDFS.
  • Map Reduce.
  • Multi Node.

Mekanisme Data Collection

  • Flume.
  • Kafka.
  • Streaming Data.

Mekanisme Pengisian Data

  • Ingestion.
  • Columnar NoSQL.
  • Sqoop.
  • Hbase.
Comday Recap: Dashboard Big Data Menggunakan Hadoop dan Zeppelin

Comday Recap: Dashboard Big Data Menggunakan Hadoop dan Zeppelin

Pada Hari Kamis, tanggal 8 Agustus 2019, Inixindo Jogja kembali mengadakan Community Day dengan tema seputar big data. Pada Comday kali ini, bahasan lebih terfokus pada penggunaan Apache Hadoop dan Zeppelin untuk membuat dashboard yang berfungsi sebagai tools analitik dan visualisasi big data. Pengguna dashboard tentunya bukan hanya dari kalangan data scientist tapi juga sering dipakai oleh para pimpinan organisasi/perusahaan dalam membuat keputusan yang berdasarkan data (data driven decision making). Oleh karena itu, dashboard sebisa mungkin dibuat agar memudahkan penggunanya dalam menganalisis big data.

Comday kali ini diisi oleh Yanuar Hadiyanto, seorang trainer IT di Inixindo Jogja. Dalam kesempatan kali ini Mas Yanuar menyampaikan tentang bagaimana Hadoop hadir sebagai solusi dalam penyimpanan dan pengolahan big data. Seperti yang kita tahu, dalam mengolah big data diperlukan kemampuan komputasi yang tinggi. Solusi yang diberikan Hadoop adalah memecah dan mereplikasi database dengan HDFS (Hadoop Distributed File System) ke beberapa titik yang disebut slave node. Masing-masing slave node ini memiliki map sendiri-sendiri dan seluruh slave node diatur oleh name node. Name node ini berfungsi untuk mengindeks data yang disimpan di tiap-tiap slave node. Mas Yanuar menganalogikan sistem ini dengan contoh yang lebih mudah dipahami. 

“Proses dalam Hadoop itu seperti kita mendapatkan tugas kelompok untuk menerjemahkan buku tebal. Agar cepat dan tidak terlalu berat, buku dibongkar dan dibagi ke masing-masing anggota kelompok yang disebut slave node. Lalu ketua kelompok yang disebut name node bertugas mencatat halaman mana saja yang dibawa oleh masing-masing anggota kelompok. Jadi jika ada yang meminta terjemahan halaman sekian pada buku tersebut, ketua kelompok akan menyuruh anggotanya yang membawa bagian buku dengan halaman tersebut untuk menerjemahkannya.” jelas Mas Yanuar.

 

Comday Recap: Dashboard Big Data Menggunakan Hadoop dan Zeppelin 1 Comday Recap: Dashboard Big Data Menggunakan Hadoop dan Zeppelin 2 Comday Recap: Dashboard Big Data Menggunakan Hadoop dan Zeppelin 3 Comday Recap: Dashboard Big Data Menggunakan Hadoop dan Zeppelin 4

 

Di acara Comday yang dihadiri berbagai kalangan baik dari instansi pemerintah, startup digital, dan juga mahasiswa ini, Mas Yanuar juga menjelaskan tentang penggunaan Apache Zeppelin sebagai dashboard big data untuk ekosistem Hadoop. Ekosistem dari Hadoop sendiri memang sangat luas. Hal ini disebabkan karena Hadoop merupakan software open source yang memiliki komunitas cukup besar. Apache Zeppelin ini memudahkan seorang data scientist serta para pengambil keputusan untuk melakukan analisis serta visualisasi dari big data yang telah dimiliki. Dalam demo ini Mas Yanuar memberikan contoh melakukan query dengan SQL melalui Zeppelin dan memvisualisasikan data tersebut.

Selain membahas tentang dashboard big data dengan Hadoop dan Zeppelin, dalam comday kali ini  Umar Affandi yang juga seorang trainer dari Inixindo Jogja juga memberikan gambaran singkat tentang command center sebagai konsep aplikatif big data. Acara comday ini kemudian ditutup oleh pembagian souvenir bagi peserta yang mengajukan pertanyaan.

Ingin Jadi Data Scientist? Inilah Skill Yang Harus Anda Kuasai

Ingin Jadi Data Scientist? Inilah Skill Yang Harus Anda Kuasai

Jika Anda kerap menjelajahi aplikasi-aplikasi lowongan pekerjaan. Anda tentunya pernah melihat lowongan pekerjaan sebagai data scientist lewat sekilas ketika Anda men-scroll layar monitor Anda. Anda tertarik dan mengklik iklan tersebut karena gaji yang ditawarkan cukup besar dan sedikit membuat Anda berkeinginan untuk beralih profesi menjadi data scientist. Kemudian Anda bertanya-tanya skill apa saja yang harus dimiliki oleh seorang data scientist.

Sebenarnya data scientist itu sudah ada sejak dulu yang sering disebut dengan statistikawan. Perbedaannya terletak pada metode yang digunakan. Jika statistikawan harus mengolah ataupun mengumpulkan data secara manual, kini data scientist banyak berurusan dengan big data (data yang terstruktur maupun tidak terstruktur). Oleh karena itu, tidak mengherankan jika data scientist sekarang lebih sering menciptakan algoritma-algoritma di dalam program komputer agar data yang masuk bisa langsung diolah sendiri oleh komputer tersebut.

Lalu apakah semua software developer bisa menjadi data scientist? Jawabannya belum tentu. Masih banyak skill yang harus dikuasai oleh data scientist. Yuk, kita bahas satu per satu.

 

Pemprograman

Di perusahaan manapun seorang data scientist bekerja, kemampuan akan programming sudah menjadi suatu keharusan. Seorang data scientist harus memahami tools of trade yang digunakan secara mendalam. Ini berarti data scientist paling tidak harus menguasai bahasa pemrograman seperti R  ataupun Python (Anda bisa mendalami machine learning dengan python di sini) serta bahasa database querying seperti SQL. 

(Jika Anda ingin mengenal bahasa pemrograman R yang dapat digunakan untuk machine learning, Anda bisa mengikuti Comday “Pengenalan Bahasa Pemrograman R dalam Machine Learning“)

 

Statistika

Pemahaman yang menyeluruh mengenai statistika merupakan hal yang paling mendasar bagi seorang data scientist. Selain untuk menentukan algoritma yang akan digunakan, ilmu statistika diperlukan untuk mengembangkan software machine learning yang berfungsi sebagai pusaka seorang data scientist.

 

Machine Learning

Bagi seorang data scientist yang bekerja di perusahaan dimana produknya bersifat data driven seperti Google Maps, Netflix, atau Uber pasti sangat membutuhkan machine learning. Mereka tidak mungkin menentukan algoritma dari data yang tak terstruktur dengan jumlah yang sangat besar satu per satu. Maka dari itulah para data scientist harus bisa mengembangkan machine learning untuk mengolah banyaknya data tak terstruktur tadi dan bukannya tak mungkin apabila machine learning yang dikembangkan oleh para data scientist ini dipakai untuk sebuah konsep artificial intelegence.

(Jika Anda tertarik untuk mempelajari machine learning Anda bisa mengambil pelatihan dalam 5 hari di Kelas Machine Learning yang diadakan oleh Inixindo Jogja)

 

Kalkulus & Aljabar

Menguasai kalkulus dengan fungsi yang dapat diterapkan di banyak variabel dan aljabar linear merupakan sesuatu yang tak kalah penting bagi seorang data scientist. Kalkulus dan aljabar merupakan konsep yang paling dasar dan sederhana bagi data science. Oleh karena itu, tidak mengherankan jika pada saat wawancara kerja, pencari kerja biasanya menanyakan soal-soal kalkulus dan aljabar.

 

Pemetaan Data

Terkadang data yang kita dapatkan tidaklah sesempurna yang kita kira. Secara penulisan kata ‘Yogyakarta’ dan ‘Jogja’ berbeda tapi secara konsep memiliki makna yang sama. Dan ingat, komputer itu tidak sepintar manusia. Sebagai seorang data scientist kita harus membuat data tersebut dikenali oleh komputer. Untuk itulah pemilahan data diperlukan untuk menjaga ‘kebersihan’ data.

 

Komunikasi dan Visualisasi Data

Bagi manajemen yang data-driven terutama di perusahaan yang masih tergolong baru, data scientist di perusahaan mereka sering dimintai bantuan dalam menentukan arah kebijakan suatu perusahaan. Maka tak heran jika data scientist harus pandai memvisualisasikan dan mempresentasikan data hasil olahannya sendiri.

 

Software Engineering

Di perusahaan start-up teknologi biasanya melibatkan langsung data scientist mereka ke dalam pengembangan software. Tapi dimanapun kita bekerja tidak ada salahnya kita belajar sedikit tentang software engineering.

 

Intuisi

Skill ini sebenarnya lebih dibutuhkan bagi seorang data analyst yang harus memecahkan masalah dari data yang sudah diolah. Intuisi sering mengarah pada gambling yang memang bertolak belakang dengan kata ‘science’ pada data scientist tapi perkataan dari Sherlock Holmes versi serial BBC mengatakan ‘sebuah intuisi lahir dari pemrosesan secara cepat jutaan data yang ada di dalam otak sampai-sampai otak kita sendiripun tak mampu mennyadari proses tersebut.’

 

Bagaimana mimpi menjadi data scientist sudah mulai nampak nyata bukan? Jika Anda ingin belajar lagi tentang komponen-kompenen pengetahuan yang harus dimiliki oleh data scientist Anda dapat mendalami tentang big data hadoop secara fundamental atau pemrograman R,