Belajar Machine Learning Dengan Python (Bagian 1)
Di artikel sebelumnya, sudah dibahas tentang apa itu Machine Learning. Kali ini, akan dibahas cara menerapkan Machine Learning dengan menggunakan bahasa Python.
Python adalah bahasa interpeter yang populer dan powerful. Tidak seperti R, Python adalah bahasa yang memiliki fitur yang lengkap dan memiliki platform yang dapat digunakan baik untuk riset maupun untuk membangun production system. Ada banyak modul dan library yang dapat digunakan untuk menerapkan Machine Learning di dalam Python.
Untuk memulai proyek Machine Learning, harus mengetahui langkah-langkah sebagai berikut:
- Mendefinisikan masalah
- Menyiapkan Data
- Mengevaluasi Algoritma
- Memperbarui Hasil
- Menyajikan Hasil
Langkah-langkah menerapkan Machine Learning dengan Python
- Instalasi Platform Python dan Scipy
Untuk mendapatkan software aplikasi Python dan Scipy, dapat mengunjungi situs scipy.org. Disana akan diberikan petunjuk yang lengkap untuk menginstall python dan library yang dibutuhkan, baik dalam platform Linux, Mac OS X maupun Windows. Ada 5 library utama yang perlu diinstall untuk tutorial ini: Scipy, Numpy, Matplotlib, Panda, dan Sklearn.
Memulai Python
Untuk memastikan lingkungan Python sudah berhasil diinstall, berikut langkah-langkah yang bisa dilakukan:
- Buka baris perintah dan memulai python, di console command prompt
Python
- Ketik atau copy dan paste script berikut:
# Check the versions of libraries # Python version import sys print('Python: {}'.format(sys.version)) # scipy import scipy print('scipy: {}'.format(scipy.__version__)) # numpy import numpy print('numpy: {}'.format(numpy.__version__)) # matplotlib import matplotlib print('matplotlib: {}'.format(matplotlib.__version__)) # pandas import pandas print('pandas: {}'.format(pandas.__version__)) # scikit-learn import sklearn print('sklearn: {}'.format(sklearn.__version__)) output yang dihasilkan, seperti contoh berikut: Python: 3.6.1 |Anaconda 4.4.0 (64-bit)| (default, May 11 2017, 13:25:24) [MSC v.1900 64 bit (AMD64)] scipy: 0.19.0 numpy: 1.12.1 matplotlib: 2.0.2 pandas: 0.20.1 sklearn: 0.18.1
Data yang Digunakan
Untuk latihan proyek Machine Learning ini menggunakan dataset klasifikasi Bunga Iris. Dataset ini dikenal dengan dataset “hello world” dalam Machine Learning dan Statistik, yang dipakai oleh hampir semua orang.
Dataset ini berisi 150 pengamatan bunga Iris. Ada empat kolom pengukuran bunga dalam centimeter. Kolom kelima adalah spesies bunga yang diamati. Anda dapat mempelajari lebih lajut tentang dataset ini di Wikipedia.
Impor Library
Sebelum memuat dataset terlebih dahulu impor semua modul, fungsi dan obyek yang akan digunakan dalam tutorial ini.
# Load libraries import pandas from pandas.tools.plotting import scatter_matrix import matplotlib.pyplot as plt from sklearn import model_selection from sklearn.metrics import classification_report from sklearn.metrics import confusion_matrix from sklearn.metrics import accuracy_score from sklearn.linear_model import LogisticRegression from sklearn.tree import DecisionTreeClassifier from sklearn.neighbors import KNeighborsClassifier from sklearn.discriminant_analysis import LinearDiscriminantAnalysis from sklearn.naive_bayes import GaussianNB from sklearn.svm import SVC
2. Memuat Dataset
Untuk memuat dataset, dapat langsung diambil dari alamat repository UCI Machine Learning. Berikut script untuk memuat dataset:
# Load dataset url = "http://archive.ics.uci.edu/ml/machine-learning-databases/iris/iris.data" names = ['sepal-length', 'sepal-width', 'petal-length', 'petal-width', 'class'] dataset = pandas.read_csv(url, names=names)
Jika tidak ada koneksi internet, file iris.data dapat download terlebih dahulu, diletakkan di file local. Untuk memuat data-nya dapat dilakukan dengan metode yang sama, dengan mengubah URL ke file local.
3. Melakukan Summary Dataset
Pada langkah ini, kita akan melihat data dari beberapa sisi yang berbeda:
- Dimensi Dataset
Hal ini dilakukan untuk mendapatkan gambaran singkat tentang berapa banyak baris dan atribut data.
# shape print(dataset.shape)
Selanjutnya akan terlihat output : (150,50)
Yang berarti 150 baris dan 5 atribut data
- Melihat Isi Data
Berikut perintah untuk melihat 20 baris data pertama:
# head print(dataset.head(20))
- Ringkasan Statistik
Berikut untuk melihat statistik data termasuk count, mean, nilai min dan max serta beberapa persentase
# descriptions print(dataset.describe())
- Distribusi Class Data
Sekarang mari kita lihat jumlah baris untk setiap class.
# class distribution
print(dataset.groupby(‘class’).size())
Akan terlihat bahwa setiap class memiliki jumlah kasus yang sama (50 atau 33% dari kumpulan data)
class Iris-setosa 50 Iris-versicolor 50 Iris-virginica 50
Bersambung ke Belajar Machine Learning Dengan Python (Bagian 2)
***
Jika Anda ingin mempelajari machine learning lebih dalam lagi, Anda bisa mengikuti kelas pelatihan machine learning di Inixindo Jogja
Mustofa
Manager Edukasi Inixindo Jogja