Enaknya Pakai Python Buat Kamu Seorang Data Scientist

Apr 19, 2022

Enaknya Pakai Python Buat Kamu Seorang Data Scientist

Ternyata banyak yang tidak mengetahui betapa enaknya menggunakan Python untuk Data Science.

Data Scientist bertugas mengumpulkan data perusahaan yang jumlahnya bisa ribuan bahkan hingga jutaan sekalipun, dan kamu perlu kemampuan programming agar pekerjaan ini menjadi semakin mudah dan cepat.

Python sangat populer digunakan dalam ilmu Data Science, apa saja kelebihannya? dan mengapa kamu perlu menggunakan Python untuk Data Science?

Ada banyak bahasa pemrograman yang bisa kamu gunakan untuk menjadi seorang Data Scientist, namun yang paling populer adalah Python. Mengapa? Ternyata Python punya banyak kelebihan dibandingkan bahasa pemrograman lain, terutama jika digunakan untuk pekerjaan yang terkait dengan Data Science.

Berikut adalah enaknya pakai Phyton buat kamu seorang Data Scientist:

1. Mudah untuk kamu pelajari

Untuk kamu yang baru pertama menggunakan Python untuk Data Science, jangan khawatir karena Python ini mudah untuk dipelajari.

Berdasarkan idtech.com, Python merupakan satu dari 7 bahasa pemrograman yang direkomendasikan bagi orang tua atau guru yang ingin mengajarkan coding kepada anak-anak sedari dini, karena sangat mudah dipelajari.

Python berstruktur sederhana dan punya keyword yang cenderung sedikit dibandingkan bahasa pemrograman lainnya. Python sangat cocok untuk pemula yang baru akan mulai belajar pemrograman untuk Data Science.

2. Jauh lebih hemat karena Open Source

Bahasa pemrograman Python bersifat open source, ini artinya bahasa tersebut bebas untuk digunakan, dikembangkan dan didistribusikan. Hal tersebut berlaku untuk penggunaan personal maupun komersial.

3. Multi Platform, cukup satu kali nulis aja

Kamu gak perlu banyak investasi di perangkat. Karena Python juga mendukung berbagai sistem operasi, mulai dari Windows, Linux, UNIX, hingga Mac OS.

Dengan Python, Anda tidak perlu menulis kode berulang kali. Anda cukup menulisnya satu kali dan menjalankannya pada sistem operasi apapun.

4. Lebih dinamis

Secara teknis, Python bersifat Dynamically Type atau bisa dibilang Python bisa secara otomatis mengubah input yang dilakukan oleh pengguna.

Python juga mendukung berbagai paradigma pemrograman, baik fungsional, object oriented, atau prosedural.

5. Dapat dikembangkan dengan pemrograman lain

Python bersifat extendible, dimana bahasa pemrograman ini bisa dikembangkan untuk berbagai macam tugasmu. Selain itu, Python juga bisa terintegrasi dengan berbagai macam bahasa pemrograman lainnya.

Jika kamu membutuhkan daya komputasi yang lebih besar, kamu bisa menggunakan fungsi yang ada di bahasa pemrograman lain yang bersifat low-level programming language.

Ingin menjadi seorang Data Scientist yang menggunakan Python?

Data Science memang membutuhkan berbagai skill yang perlu dikuasai, salah satunya adalah bahasa pemrograman. Jika kamu ingin menjadi seorang Data Scientist dan mempelajari Python untuk Data Science, kamu bisa mengikuti pelatihan Python Programming for Data Science di eduparx.id atau klik DISINI.

Dapatkan Artikel Ekslusif tiap Jum’at Pukul 07:09 langsung ke email kamu.

Gabung Sekarang

4 Alasan Kenapa Menggunakan Python untuk Membuat Model Machine Learning

Mar 29, 2021

Sebagai seorang Data Scientist, pernahkah kamu merasa jika proses pengolahan data yang dilakukan terlalu lambat? Itulah mengapa, kamu perlu belajar dan mengasah kemampuanmu dalam menerapkan Machine Learning.

Bahkan saat ini, sudah sangat banyak perusahaan menerapkan penggunaan Machine Learning untuk mempersingkat waktu proses pengolahan datanya.

Jika kamu masih cukup asing dengan Machine Learning, sebenarnya ini adalah sebuah teknologi yang mampu belajar layaknya manusia. Machine learning dapat mengembangkan ‘pengetahuan’ kemampuannya seiring berjalannya waktu.

Dengan adanya data, Machine Learning mampu belajar untuk menghasilkan output tertentu. Salah satu cara penerapan Machine Learning dengan menggunakan Python.

Kenapa Harus Python?

Ada beberapa alasan utama, kenapa banyak yang menggunakan Python dalam membuat model Machine Learning, antara lain:

1. Mudah Dipelajari

Python punya kode yang pendek dan mudah dibaca. Penggunaan Python juga memungkinkan Developer dan Data Scientist bisa menulis sistem yang mampu diandalkan dalam Machine Learning.

2. Tidak Menguras Fokus

Kemudian, dengan kemudahan ketika menggunakan Python, Data Scientist sepertimu bisa lebih fokus pada pemecahan masalah yang ada pada Machine Learning daripada harus berkutat pada nuansa teknis bahasa pemrograman.

3. Varietas Library yang Tinggi dan Beragam

Python punya banyak Library yang bisa digunakan. Ini memungkinkan Data Scientist atau Developer mampu menyelesaikan permasalahan rumit dalam hitungan menit bahkan hitungan detik.

4. Dukungan Komunitas

Dengan banyaknya pengguna Python, membuatnya punya komunitas yang luas dan solid. Dengan begitu, saat kamu kesulitan dan mungkin mengalami kendala, kamu bisa mencari solusinya di dalam komunitas tersebut.

Langkah Penerapan Machine Learning dengan Python

Tapi, kamu harus memahami beberapa langkah yang perlu kamu ketahui untuk memulai proyek Machine Learning pada Python, antara lain:

Mendefinisikan suatu masalah.
Menyiapkan data.
Mengevaluasi algoritma.
Memperbarui hingga menyajikan hasil.

Apabila kamu ingin belajar lebih dalam lagi tentang penerapan Python dalam Machine Learning dan ingin bertanya dengan instruktur, kamu bisa ikuti workshop dengan klik link di bawah ini:

Info lebih lanjut

Selain itu, supaya kamu tidak ketinggalan informasi seputar webinar gratis dan melewatkan kesempatan berdiskusi dengan narasumber kami, klik link dibawah ini:

Info lebih lanjut

Workshop Membuat API dengan Django

Sep 24, 2018

Workshop Membuat API dengan Django

Django adalah web framework dari bahasa Python, dimana python merupakan bahasa pemrograman yang sangat ringan, dalam beberapa tahun terakhir perkembangan framework ini sangatlah pesat, dibuktikan banyak perusahaan besar seperti Github, Instagram, Firefox dll. Django memiliki arsitektur pemrograman module, dimana struktur akan menjadi lebih rapi saat maintenance.

Django sangat cocok digunakan sebagai API karena menggunakan bahasa python dimana bahasa ini memiliki speed yang tinggi

This form does not exist

Biaya

Free (tempat terbatas)

DATE AND TIME

27 September 2018
14.00 WIB – Selesai

LOCATION

Eduparx – Inixindo Jogja
Jalan Kenari No 69 Yogyakarta
View Maps

[Workshop] Analisis Data dengan Python

May 15, 2018

[Workshop] Analisis Data dengan Python

Pertumbuhan data dalam era sistem informasi telah mendukung perkembangan pada metode dan tools
analisis data, salah satunya adalah perkembangan dalam bahasa pemrograman seperti yang terjadi pada python.

Python mulai banyak diadopsi sebagai komputasi science di industri sejak tahun 2000an terutama pada data analisis interaktif, komputasi eksplorasi dan visualisasi.

Python memiliki kemampuan yang kurang lebih sama dengan Matlab, SAS,Stata dan yang lainnya dan makin berkembang dengan munculnya library pandas yang efektif untuk manipulasi data.

Dengan adanya dukungan terhadap teknologi web dan analisis data, python menjadi pilihan yang tepat untuk membuat aplikasi yang fokus pada data.

Workshop ini akan membahas bagaimana menggunakan python untuk analisis data beserta visualisasinya.

Waktu & Pelaksanaan Event

Waktu : Kamis, 24 Mei 2018 (13.00 – selesai)
Tempat : Inixindo Jogja (Jalan Kenari No. 69, Mujamuju, Yogyakarta)
Biaya : Gratis*

*slot terbatas

This form does not exist

Poster

Cara Data Analysis dengan Python

[wpdm_package id=’15341′]

Belajar Machine Learning Dengan Python (Bagian 2)

Jul 19, 2017

Belajar Machine Learning Dengan Python (Bagian 2)

Pada artikel Belajar Machine Learning Dengan Python (Bagian 1) , kita telah membahas mengenai langkah 1 sampai 3. Artikel ini adalah lanjutan langkah untuk memulai proyek Machine Learning.

Visualisasi Data

Dalam melakukan visualisasi data, ada dua jenis plot:

Plot Univariate

Kita mulai dengan beberapa plot univariat, yaitu plot dari masing-masing variabel individu. Mengingat bahwa variabel inputnya numerik, kita bisa membuat jenis plot box.

# box and whisker plots

dataset.plot(kind='box', subplots=True, layout=(2,2), sharex=False, sharey=False)

plt.show()

Belajar Machine Learning Dengan Python (Bagian 2) 1

Selanjutnya juga bisa membuat histogram masing-masing variabel input untuk mendapatkan ide tentang distribusi.

# histograms

dataset.hist()

plt.show()

Belajar Machine Learning Dengan Python (Bagian 2) 2

2. Plot Multivariate

Selanjutnya kita bisa melihat interaksi antar variabel. Pertama, kita lihat scatterplots dari semua pasang atribut. Hal ini dapat membantu melihat hubungan terstruktur antara variabel input

# scatter plot matrix

scatter_matrix(dataset)

plt.show()

Dari hasil output dapat dilihat pengelompokan diagonal beberapa pasang atribut. Hal ini menunjukkan korelasi yang tinggi dan hubungan yang dapat diprediksi.

Belajar Machine Learning Dengan Python (Bagian 2) 3

Evaluasi Beberapa Algoritma

Langkah berikutnya adalah membuat beberapa model data dan memperkirakan akurasi mereka pada data yang tidak terlihat.

Beberapa hal yang dapat dilakukan di langkah ini adalah:

Pisahkan dataset validasi
Set up test harness untuk menggunakan validasi silang 10 kali lipat
Bangun 5 model yang berbeda untuk memprediksi spesies dari pengukuran bunga
Pilih model yang terbaik

Membuat validasi dataset

Validasi ini dilakukan untuk mengetahui bahwa model yang dibuat itu bagus. Kita akan menggunakan metode statistik untuk memperkirakan keakuratan model yang dibuat pada data yang tidak terlihat. Juga diinginkan perkiraan yang lebih konkret mengenai keakuratan model teraik pada data yang tidak terlihat dengan mengevaluasi data aktual yang tidak terlihat.

Artinya, kita akan menahan beberapa data yang tidak dapat dilihat oleh algoritma dan akan menggunakan data ini untuk mendapatkan informasi tentang seberapa akurat model terbaik sebenarnya.

Kita akan membagi datateset yang telah dimuat menjadi dua, 80% diantaranya akan digunakan untuk melatih model dan 20% digunakan untuk data validasi.

# Split-out validation dataset

array = dataset.values

X = array[:,0:4]

Y = array[:,4]

validation_size = 0.20

seed = 7

X_train, X_validation, Y_train, Y_validation = model_selection.train_test_split(X, Y, test_size=validation_size, random_state=seed)

Setelah perintah di atas dieksekusi, kita sudah memiliki dua data yaitu X_train dan Y_train untuk mempersiapkan model dan rangkaian X_validation dan Y_validation yang dapat digunakan selanjutnya.

Test Harness

Kita akan menggunakan validasi silang 10 kali lipat untuk memperkirakan akurasi. Untuk itu dataset dibagi menjadi 10 bagian, 9 untuk latihan dan 1 untuk pengujian dan ulangi untuk semua kombinasi.

# Test options and evaluation metric

seed = 7

scoring = 'accuracy'

Perintah di atas menggunakan metrik “accuracy” untuk mengevaluasi model. Ini adalah rasio dari jumlah kejadia yang diprediksi dengan benar dibagi dengan jumlah total kasus dalam dataset dikalikan dengan 100 untuk memberikan persentase (misalnya 95% akurat). Kita akan menggunakan variabel penilaian saat menjalankan build dan mengevaluasi setiap model di langkah selanjutnya

Membangun Model

Kita tidak tahu algoritma mana yang bagus dalam masalah ini atau konfigurasi apa yang akan digunakan. Untuk itu kita evaluasi 6 algoritma yang berbeda:

Logistic Regression (LR)
Linear Discriminant Analysis (LDA)
K-Nearest Neighbors (KNN).
Classification and Regression Trees (CART).
Gaussian Naive Bayes (NB).
Support Vector Machines (SVM).

# Spot Check Algorithms

models = []

models.append(('LR', LogisticRegression()))

models.append(('LDA', LinearDiscriminantAnalysis()))

models.append(('KNN', KNeighborsClassifier()))

models.append(('CART', DecisionTreeClassifier()))

models.append(('NB', GaussianNB()))

models.append(('SVM', SVC()))







# evaluate each model in turn

results = []

names = []

for name, model in models:

kfold = model_selection.KFold(n_splits=10, random_state=seed)

cv_results = model_selection.cross_val_score(model, X_train, Y_train, cv=kfold, scoring=scoring)

results.append(cv_results)

names.append(name)

msg = "%s: %f (%f)" % (name, cv_results.mean(), cv_results.std())

print(msg)

Memilih Model Terbaik

Kita sudah memiliki 6 model dan estimasi akurasi untuk masing-masing. Selanjutnya perlu membandingkan model satu dengan lainnya dan pilih yang paling akurat.

Dari eksekusi script di atas, kita mendapatkan hasil mentah sebagai berikut:

LR: 0.966667 (0.040825)

LDA: 0.975000 (0.038188)

KNN: 0.983333 (0.033333)

CART: 0.975000 (0.038188)

NB: 0.975000 (0.053359)

SVM: 0.991667 (0.025000)

Dari hasil output di atas, kita dapat melihat bahwa SVM memiliki nilai akurasi perkiraan terbesar.

Kita juga dapat membuat plot hasil evaluasi model dan membandingkan penyebaran dan akurasi rata-rata masing-masing model.

# Compare Algorithms

fig = plt.figure()

fig.suptitle('Algorithm Comparison')

ax = fig.add_subplot(111)

plt.boxplot(results)

ax.set_xticklabels(names)

plt.show()

Belajar Machine Learning Dengan Python (Bagian 2) 4

Membuat Prediksi

Setelah mengetahui model yang paling akurat yaitu SVM, selanjutnya kita dapat mencoba melakukan pengujian tentang keakuratan model SVM terhadap data yang ada.

# Make predictions on validation dataset

svm = SVC()

svm.fit(X_train, Y_train)

predictions = svm.predict(X_validation)

print(accuracy_score(Y_validation, predictions))

print(confusion_matrix(Y_validation, predictions))

print(classification_report(Y_validation, predictions))

Menghasilkan output :

Belajar Machine Learning Dengan Python (Bagian 2) 5

Confusion matrix memberikan indikasi dari tiga kesalahan yang dibuat.

Akhirnya, laporan klasifikasi (classification report) memberikan rincian setiap kelas (class-species) dengan precision, recall, f1-score dan support yang menunjukkan hasil yang sangat baik.

***

Jika Anda ingin mempelajari machine learning lebih dalam lagi, Anda bisa mengikuti kelas pelatihan machine learning di Inixindo Jogja

Sumber: Article “Your First Machine Learning Project in Python Step-By-Step”, http://machinelearningmastery.com

Mustofa

Manager Edukasi Inixindo Jogja

Back to Knowledge Center