Yuk Mulai Belajar Menjadi Data Scientist Bersama DQLab!
Gunakan Kode Voucher "DQTRIAL", dan simak informasi di bawah ini mendapatkan 30 Hari FREE TRIAL:
Buat Akun Gratis dengan Signup di DQLab.id/signup
Buka academy.dqlab.id dan pilih menu redeem voucher
Redeem voucher "DQTRIAL" dan check menu my profile untuk melihat masa subscription yang sudah terakumulasi.
Selamat, akun kamu sudah terupgrade, dan kamu bisa mulai Belajar Data Science GRATIS 1 bulan.
Penulis : Salsabila Miftah
Editor : Annissa Widya Davita
Perbedaan Utama SQL dan Python
Perbedaan SQL dan Python yang paling signifikan adalah SQL digunakan oleh developer untuk mengakses dan mengekstrak data dari database. Python sendiri digunakan untuk menganalisis dan memanipulasi data dengan menjalankan tes regresi, tes deret waktu (time-series test), dan bentuk penghitungan data lainnya.
SQL adalah bahasa pemrograman yang sederhana dan memiliki ragam fungsi yang lebih sempit dibandingkan dengan Python. Dengan pustakanya yang besar, kode Python bisa diintegrasikan dengan banyak aplikasi lain. Python adalah bahasa pemrograman fleksibel dengan banyak fitur yang membuatnya disukai dan bisa dipelajari oleh nondeveloper sekaligus.
Baru-baru ini, sebuah survei dari Statista menunjukkan bahwa empat database management system paling populer di dunia adalah Oracle, MySQL, Microsoft SQL Server, dan PostgreSQL. Keempat sistem ini memiliki dasar SQL yang menunjukkan bahwa siapapun yang ingin menjadi seorang profesional di dunia data science akan mendapatkan keuntungan jika memahami SQL.
Multidimensional Array
Salah satu fitur menarik dari NumPy adalah library ini mampu membuat multidimensional array dan melakukan manipulasi array dengan mudah dan cepat. Multidimensional array adalah array yang berbentuk lebih dari 1 dimensi seperti 2D, 3D, 4D dan seterusnya. Cara membuat multidimensional array sama dengan membuat array 1 dimensi, perbedaannya hanya pada parameter yang digunakannya saja. Berikut ini adalah contohnya membuat array 2 dimensi:
Array diatas adalah berbentuk (2,5) artinya mempunyai 2 baris dan 5 kolom. Kita bisa melihat jumlah elemen di setiap dimensi dengan menggunakan fungsi shape.
3. Operasi Aritmatika
Operator aritmatika adalah operator yang biasa ditemukan untuk operasi matematika. Aritmatika sendiri merupakan cabang ilmu matematika yang membahas perhitungan sederhana, seperti kali, bagi, tambah dan kurang (kabataku). Kita bisa menggunakan operasi aritmatika seperti penjumlahan, pengurangan, perkalian, pembagian dan perpangkatan. Operator yang digunakan adalah +, -, *, / dan **
Berikut contoh operasi aritmatika pada array,
Baca juga : Belajar Data Science: Pahami Penggunaan Machine Learning pada Python
Struktur Data Non Primitif
Berbeda dengan data primitif, tipe data non primitif tidak hanya menyimpan nilai, tapi juga sekumpulan nilai dalam format yang berbeda-beda. Beberapa variabel pada struktur data non primitif adalah list, tuple, dictionary, dan sets. List adalah struktur data paling serbaguna pada python dan ditulis sebagai list element yang dipisahkan dengan koma dan diapit oleh tanda kurung siku. List bisa terdiri dari element homogen dan heterogen. Beberapa metode yang dapat diterapkan pada list adalah index(), append(), extended(), insert(), remove(), pop(), dan lain sebagainya. Data tuple mirip dengan list tetapi elemennya tidak bisa diubah. Perbedaan lain antara tuple dan list adalah tuple ditulis didalam kurung bukan kurung siku. Setelah elemen didefinisikan dalam tuple, maka elemen ini tidak dapat dihapus, dipindah, maupun diedit sehingga nilai yang telah didefinisikan tidak dapat dimanipulasi maupun diganti. Data dictionary terdiri dari pasangan "value-key". "key" mengidentifikasi item, dan "value" menyimpan nilai item yang akan dipisahkan oleh tanda titik dua. Item dipisahkan dengan koma dan diapit tanda kurung kurawal. "key" tidak bisa diubah sedangkan "value" dapat berupa tipe data jenis apapun. Sets adalah kumpulan elemen unik yang tidak berurutan. Seperti list, sets dapat diubah dan ditulis di dalam tanda kurung siku namun tidak boleh ada angka yang nilainya sama.
ID3 (Iterative Dichotomiser 3)
ID3 merupakan algoritma yang pertama kali diperkenalkan oleh Ross Quinlan pada tahun 1979. Algoritma ini menggunakan entropy dan information gain untuk memutuskan atribut apa yang harus dipilih sebagai root node pada decision tree.
C4.5 adalah sebuah algoritma pembelajaran mesin yang digunakan untuk membangun model prediksi berdasarkan data yang tersedia. Algoritma ini termasuk dalam kelas algoritma decision tree, yang berarti bahwa ia membuat keputusan berdasarkan serangkaian pertanyaan yang terstruktur dalam bentuk pohon keputusan. C4.5 diperkenalkan oleh J. Ross Quinlan pada tahun 1993 dan merupakan evolusi dari algoritma ID3 (Iterative Dichotomiser 3) yang lebih lama.
C4.5 memiliki beberapa keunggulan dibandingkan algoritma decision tree lainnya, seperti kemampuan untuk menangani data numerik dan data kategorik serta kemampuan untuk mempertahankan akurasi model meskipun terjadi perubahan pada data. Algoritma ini sering digunakan dalam aplikasi machine learning untuk memprediksi keputusan atau klasifikasi suatu data berdasarkan fitur-fitur yang ada.
C5.0 adalah versi yang lebih modern dari C4.5 yang memiliki performa yang lebih baik. C5.0 diperkenalkan oleh J. Ross Quinlan pada tahun 2000 dan memiliki beberapa keunggulan dibandingkan algoritma C4.5, seperti kemampuan untuk menangani data dengan lebih baik dan menghasilkan model yang lebih sederhana dan mudah dipahami. Algoritma ini sering digunakan dalam aplikasi machine learning untuk memprediksi keputusan atau klasifikasi suatu data berdasarkan fitur-fitur yang ada.
Contoh Decision Tree pada Bot
Contohnya decision tree pada bot yang digunakan untuk mengelola permintaan bantuan pelanggan dapat menggunakan decision tree based untuk mengambil keputusan yang sesuai dengan permintaan pelanggan. Jika pelanggan mengajukan pertanyaan tentang produk, bot akan mengikuti pohon keputusan yang mewakili pertanyaan tentang produk dan memberikan jawaban yang sesuai. Jika pelanggan mengajukan pertanyaan tentang layanan, bot akan mengikuti pohon keputusan yang mewakili pertanyaan tentang layanan dan memberikan jawaban yang sesuai.
RNN atau Recurrent Neural Network
Pernahkah Sahabat DQ memperhatikan ketika Sahabat DQ mulai mengetik sesuatu, Google secara otomatis melengkapi kalimat untuk Sahabat DQ! Sekarang, jika Sahabat DQ memikirkan cara kerjanya, rahasianya adalah RNN.
Recurrent Neural Networks telah mengarahkan siklus di antara node yang saling berhubungan. Mereka menggunakan memori mereka untuk memproses urutan input berikutnya untuk mengimplementasikan jenis fungsi fitur pelengkapan otomatis. RNN dapat mengambil serangkaian input tanpa batasan ukurannya, menjadikannya unik.
Google, Mesin Pencari, dan Peramban Web secara ekstensif menggunakan RNN untuk melengkapi kata dan kalimat secara otomatis. Aplikasi lain adalah Deteksi dan Pengenalan Teks, Menganalisis bingkai video, dll.
Mengapa Python sangat populer?
Sejak awal kemunculannya di era 1990-an, Python selalu masuk ke dalam bahasa pemrograman yang paling sering dipakai di industri. Bahkan, survei dari RedMonk mengungkapkan bahwa Python menduduki peringkat kedua sebagai bahasa pemrograman favorit para developer pada 2021—sekitar 30 tahun sejak peluncurannya.
Kita sudah mengenal apa itu Python secara singkat, sekarang mari ungkap alasan mengapa bahasa pemrograman ini begitu populer. Pertama, Python memiliki syntax yang mudah diingat dan mudah dimengerti. Kedua, Python bisa digunakan untuk berbagai hal, baik itu pengolahan data maupun pembuatan website baru.
Ketiga, Python bersifat open-source, alias dibuka gratis untuk publik. Ini juga artinya ada banyak sekali fitur dan kode buatan kreator yang semakin memperluas kapabilitas Python. Semua alasan ini semakin membuat Python dicintai oleh komunitas pencinta teknologi. Maka dari itu, tidak heran kalau banyak sekali pemula yang mengambil langkah pertamanya untuk belajar soal Python. Mungkin Anda pun salah satunya.
Belum lengkap rasanya membahas apa itu Python bila tidak menjelaskan soal kegunaan dari bahasa pemrograman buatan Guido van Rossum ini. Python memiliki endless capabilities, ada banyak sekali hal yang bisa Anda lakukan dan ciptakan dengannya. Jika disusun berdasarkan bidang pekerjaan, Python bisa membantu industri seperti:
Jika Anda masih bertanya-tanya belajar Python untuk apa, sebetulnya bahasa pemrograman ini juga sangat berguna di kehidupan sehari-hari. Walau Anda tidak bekerja di bidang IT atau data science, Python bisa membantu tugas-tugas seperti melacak tren harga saham, memasang alarm secara otomatis, membalas email dalam satu klik saja, dan masih banyak lagi.
Mengenal NumPy Array
NumPy merupakan salah satu library terpenting dalam bahasa pemrograman python. Fungsi NumPy array mirip dengan manipulasi data pada python. Beberapa manipulasi array dasar adalah atribut array, pengindeksan array, pembentukan baris, dan penggabungan-pemisahan array. Manipulasi array yang biasanya banyak digunakan adalah menggabungkan beberapa array menjadi satu atau memisahkan satu array menjadi beberapa bagian.
Langkah pertama saat ingin menggunakan library numpy adalah melakukan import dengan menggunakan coding library numpy as np. Penggunaan as disini, artinya kita menggantikan pemanggilan numpy dengan prefix np untuk proses berikutnya.
Untuk melakukan pengecekan tipe pada array menggunakan fungsi type() seperti gambar di bawah ini
Array df memiliki tipe data int32 dan int64 yang keduanya sama-sama bertipekan integer. Perbedaan keduanya pada kapasitas penyimpanan data.
Baca juga : 3 Jenis Algoritma Machine Learning yang Dapat Digunakan di Dunia Perbankan