Data science sudah menjadi bidang ilmu teknologi yang disukai dikalangan tech enthusiast. Banyak orang yang mulai mempelajari data science dan bercita-cita bekerja di bidang ini. Namun, tidak semua orang mampu dengan mudah mempelajari bidang ilmu ini. Terutama bagi orang-orang yang selalu menghindari matematika dan statistika. Hal ini dikarenakan dalam pengelohan data, matematika dan statistika adalah ilmu yang membuatnya bisa bekerja.
Nah, perkembangan data science juga tak lepas dari Python, salah satu bahasa pemrograman high-level yang bisa dikatakan multi-platform. Python adalah salah satu bahasa pemrograman data science yang paling populer. Di mana, pemrograman ini bersifat interaktif, portabel, dan object-oriented. Selain itu, Python juga dijalankan di berbagai macam sistem, termasuk Windows, Linux, dan macOS.
Saat ini, Python juga didukung oleh banyak library yang merupakan kode program tambahan yang digunakan untuk kebutuhan tertentu. Setidaknya Python telah memiliki ribuan library yang dikembangkan melalui projek open-source, sehingga para pemula bisa belajar secara gratis. Berikut library Python yang digunakan untuk data science:
1. Matplotlib
Matplotlib adalah salah satu library paling umum dalam Python. Di mana, library ini digunakan untuk membuat visualisasi data yang statis, animasi, dan interaktif dalam bentuk 2D atau 3D. Format penulisan library ini di Python, yaitu “import matplotlib.pyplot as plt”. Di mana, kata “plt” merupakan singkatan umum yang digunakan untuk menyebut matplotlib.
Selain itu, Matplotlib dapat membantu dengan mudah dalam membuat plot atau grafik untuk menampilkan hasil analisa berbentuk visual. Plot atau grafik ini juga dapat di-custom sesuai keinginan. Asalkan data dapat ditampilkan dengan menarik dan bisa mendapatkan insights yang berguna bagi perusahaan.
2. NumPy
NumPy adalah Python software library gratis untuk komputasi numerik pada data yang dapat berupa array besar dan matriks multi-dimensi. Matriks multidimensi ini adalah objek utama di NumPy, di mana dimensinya disebut sumbu dan jumlah sumbu disebut peringkat.
NumPy juga menyediakan berbagai tools untuk bekerja dengan array dan fungsi matematika tingkat tinggi untuk memanipulasi data dengan aljabar linier, transformasi Fourier, pengurutan angka acak, dll.
Beberapa operasi array dasar yang dapat dilakukan menggunakan NumPy termasuk menambahkan, mengiris, mengalikan, meratakan, membentuk kembali, dan mengindeks array. Fungsi lanjutan lainnya termasuk menumpuk array, membaginya menjadi beberapa bagian, menyiarkan array, dll.
3. SciPy
SciPy adalah software library gratis untuk komputasi ilmiah dan teknis pada data. Library SciPy dibangun di atas objek array NumPy dan merupakan bagian dari tumpukan NumPy yang juga mencakup library dan tool komputasi ilmiah lainnya seperti Matplotlib, SymPy, panda, dll.
SciPy memungkinkan berbagai tugas komputasi ilmiah yang menangani pengoptimalan data, integrasi data, interpolasi data, dan modifikasi data menggunakan aljabar linier, transformasi Fourier, pembuatan bilangan acak, fungsi khusus, dll.
Sama seperti NumPy, matriks multidimensi adalah objek utama dalam SciPy, yang disediakan oleh modul NumPy itu sendiri.
4. Pandas
Pandas merupakan library Python paling terkenal untuk data science. Library ini memungkinkan untuk memuat data, memanipulasinya, menghitung beberapa properti statistik, bahkan menangani duplikat. Selain itu, ini memberi struktur data yang cepat, fleksibel, dan ekspresif, sehingga memudahkan untuk bekerja dengan data relasional dan terstruktur.
Serta, Pandas juga dapat melakukan proses, misalnya pada SQL seperti agregasi, join, group by, dan lain-lain. Adapun format yang digunakan pada library ini. Di mana untuk format file, yang bisa dibaca adalah csv, tsv, dan txt. Lalu, untuk penulisan saat akan menggunakan Pandas pada Python adalah “import pandas as pd” dan akan diproses sebagai perintah untuk memanggil library Pandas.
5. TensorFlow
TensorFlow adalah salah satu library Python paling populer untuk mengimplementasikan neural networks. Ini menggunakan array multi-dimensi, juga dikenal sebagai tensor, yang memungkinkannya melakukan beberapa operasi pada input tertentu.
Pada dasarnya TensorFlow merupakan kerangka kerja untuk mendefinisikan dan menjalankan komputasi yang melibatkan tensor. Di mana, sebagiannya didefinisikan sebagai objek komputasi yang pada akhirnya menghasilkan nilai.
Dikarenakan sifatnya sangat paralel, TensorFlow dapat melatih beberapa neural networks dan GPU untuk model yang sangat efisien dan skalabel. Fitur TensorFlow ini juga disebut pipelining.
6. Keras
Mirip dengan TensorFlow, Keras adalah library populer lainnya yang digunakan secara ekstensif untuk modul deep learning dan neural network. Keras mendukung back end TensorFlow, jadi ini adalah opsi yang bagus jika kamu tidak ingin mendalami detail TensorFlow. Keras menawarkan utilitas untuk mengompilasi model, visualisasi grafik, dan analisis dataset. Selain itu, Keras menawarkan datasets yang telah diberi label dan dapat diimpor, serta dimuat secara langsung.
Selain yang sudah disebutkan di atas, adakah library Python lain yang kamu ketahui? Apa pengalamanmu dengan library tersebut? Share di kolom komentar, ya! Selain itu, kalau kamu memiliki ketertarikan bekerja di bidang data science, bisa banget untuk baca artikel Coding Studio mengenai skills yang harus dimiliki seorang Data Scientist.