Roadmap untuk Menguasai Data Science: Panduan Lengkap Langkah demi Langkah

Oleh: Hobon.id (16/06/2026)

Data science adalah salah satu disiplin ilmu yang paling dicari di dunia kerja modern, namun juga salah satu yang paling kurang terdefinisi dengan baik. Tanyakan kepada sepuluh praktisi untuk mendeskripsikan bidang ini dan kita akan mendapatkan sepuluh jawaban yang berbeda. Tanyakan kepada sepuluh kursus online untuk mendefinisikan kurikulum dan kita akan mendapatkan sepuluh silabus yang berbeda, beberapa di antaranya menekankan statistik dengan mengorbankan engineering, yang lain melewatkan matematika sepenuhnya demi library kode, dan yang lainnya lagi mengubur dasar-dasar di bawah segudang hype tentang large language model sebelum siswa pernah menulis model regresi.

Roadmap ini berbeda. Ini dibangun di sekitar perkembangan logis yang spesifik, yaitu tujuh tahap yang membawa kita dari pemula mutlak hingga seseorang yang dapat membangun, menerapkan, dan mengevaluasi sistem AI modern dalam produksi. Setiap tahap merupakan prasyarat nyata untuk tahap berikutnya. Ketujuh tahap tersebut adalah: Pemrograman Python, Database, Statistik & EDA, Dasar-dasar ML dan DL, Memahami NLP, RAG dan Agen AI, MLOps dan Penerapan, serta LLM dan Fine-Tuning. Masing-masing tahap dibangun di atas tahap sebelumnya, dan bersama-sama membentuk jalur yang koheren dari nol hingga menjadi praktisi.

Advertisement:

Tahap 1: Pemrograman Python

Python adalah bahasa universal data science, machine learning, dan artificial intelligence. Setiap tahap lain dalam roadmap ini mengasumsikan kefasihan Python. Mencoba mempelajari machine learning sebelum benar-benar nyaman dengan Python seperti mencoba menulis esai sebelum mempelajari tata bahasa — secara teknis mungkin secara mekanis, tetapi secara struktural tidak tepat dan menyakitkan dalam praktiknya.

Apa yang Harus Dipelajari dalam Python dan Mengapa

Python yang kita butuhkan data science tidak sama dengan Python yang akan kita pelajari untuk software engineering umum, meskipun ada tumpang tindih yang signifikan. Kita perlu mencapai tingkat di mana menulis Python terasa alami daripada melelahkan — di mana perhatian kita dapat tertuju pada masalah yang kita selesaikan daripada pada sintaks yang kita butuhkan untuk mengekspresikannya.

Mulailah dengan dasar-dasar absolut, seperti variabel, tipe data (bilangan bulat, bilangan pecahan, string, boolean), control flow (pernyataan if-else, loop for, loop while), dan fungsi. Konsep-konsep ini adalah alfabet pemrograman — setelah diinternalisasi, semua hal lain dibangun darinya. Luangkan waktu yang cukup di sini. Tulis program yang melakukan hal-hal sederhana dan konkret. Hitung luas bangun datar. Konversikan suhu antar satuan. Hasilkan seratus bilangan Fibonacci pertama. Tujuannya bukan untuk membangun perangkat lunak yang mengesankan, tetapi untuk membangun memori otot dalam menerjemahkan logika ke dalam kode.

Dari sana, beralihlah ke struktur data inti Python, seperti list, tuple, dictionary, dan set. Ini adalah wadah tempat data berada sebelum mencapai DataFrame pandas atau array NumPy, dan memahami propertinya — kapan menggunakan dictionary versus list, bagaimana cara mengulanginya secara efisien, bagaimana cara menyusunnya — sangat penting untuk menulis kode Python yang melakukan apa yang kita inginkan. Berlatihlah menulis kode yang membaca data dari file teks sederhana, memprosesnya menggunakan struktur ini, dan menulis kembali hasilnya.

Object-oriented programming (OOP) — class, object, inheritance, dan method — layak dipahami pada tingkat konseptual meskipun kita tidak menghabiskan banyak waktu untuk menulis class kita sendiri seperti yang dilakukan oleh seorang software engineer. Library yang akan kita gunakan sepanjang roadmap ini (scikit-learn, PyTorch, LangChain, dan lainnya) mengekspos fungsionalitasnya melalui class dan object, dan memahami apa yang sebenarnya dilakukan oleh model.fit() atau tokenizer.encode() — memanggil metode pada sebuah objek — membuat bekerja dengan library-library ini jauh lebih intuitif.

Ekosistem data science Python berpusat pada empat library yang perlu kita kuasai sepenuhnya, yaitu NumPy, Pandas, Matplotlib, dan Seaborn. NumPy menyediakan fondasi komputasi numerik — array n-dimensi (ndarray) yang mendasari hampir semua komputasi ilmiah di Python, bersama dengan operasi matematika yang efisien pada array tersebut. Pandas berada di atas NumPy dan menyediakan DataFrame, yaitu struktur seperti spreadsheet tempat sebagian besar pemrosesan data tabular terjadi. Pelajari cara memotong, memfilter, mengelompokkan, menggabungkan, memutar, dan membentuk ulang DataFrame dengan lancar. Ini bukan keterampilan yang bisa kita dapatkan hanya dengan membaca dokumentasi, tetapi ini membutuhkan kerja dengan kumpulan data dunia nyata yang berantakan sampai operasi terasa alami. Matplotlib dan Seaborn digunakan untuk visualisasi, yaitu membuat plot dan grafik yang membuat data dapat diinterpretasikan.

Tahap 2: Database, Statistik & EDA

Ini adalah tahap yang paling kurang diinvestasikan oleh sebagian besar data scientist otodidak, dan ini adalah penjelasan paling umum mengapa orang-orang yang secara teknis mampu kesulitan untuk memberikan analisis yang bermanfaat dalam praktik. Kita dapat mengetahui cara menjalankan algoritma gradient boosting dan tetap secara konsisten menarik kesimpulan yang salah dari data jika fondasi statistik kita goyah. Tahap ini membangun fondasi tersebut.

Dasar-dasar SQL dan Database

Sebelum membangun model machine learning, kita perlu dapat mengakses data yang digunakan untuk melatih model, dan di hampir setiap organisasi data tersebut berada dalam database relasional. SQL — Structured Query Language — adalah cara kita mengambilnya. SQL tidak glamor, tetapi digunakan lebih banyak jam per hari oleh lebih banyak data scientist daripada library machine learning mana pun, dan kefasihan SQL secara konsisten merupakan keterampilan yang paling sering disebut oleh manajer perekrutan sebagai perbedaan antara kandidat yang siap kerja dan mereka yang tidak.

Pelajari SQL dari dasar, seperti pernyataan SELECT, klausa WHERE, operasi JOIN (inner, left, right, full outer), GROUP BY dan fungsi agregat (COUNT, SUM, AVG, MIN, MAX), ORDER BY, dan subkueri. Kemudian pelajari lebih dalam: fungsi window (ROW_NUMBER, LAG, LEAD, RANK, penjumlahan dan rata-rata berjalan), common table expression (CTE) yang membuat kueri kompleks mudah dibaca dan dipelihara, dan perintah EXPLAIN atau EXPLAIN ANALYZE yang menunjukkan bagaimana mesin database akan mengeksekusi kueri kita, yang penting untuk menulis kueri yang efisien dalam skala besar.

Statistik: Inti Intelektual Ilmu Data

Statistik adalah bidang yang memberikan sebagian besar alat intelektual kepada data science, dan para praktisi yang memahami statistik dengan benar adalah mereka yang dapat dipercaya untuk menarik kesimpulan yang andal dari data, bukan hanya menemukan angka-angka yang menceritakan kisah yang ingin didengar oleh pemangku kepentingan. Ini bukanlah perbedaan kecil — ini adalah perbedaan antara data science yang menambah nilai dan data science yang memungkinkan terjadinya kesalahan yang mahal.

Statistik deskriptif adalah titik awalnya: ukuran kecenderungan sentral (rata-rata, median, modus), ukuran penyebaran (varians, deviasi standar, rentang interkuartil), dan alat visual yang mencirikan distribusi (histogram, plot kotak, plot kepadatan). Pahami secara mendalam perbedaan antara rata-rata dan median dan mengapa perbedaan itu penting — kumpulan data gaji dengan beberapa penerima gaji yang sangat tinggi akan memiliki rata-rata yang salah menggambarkan gaji tipikal dengan cara yang tidak dilakukan oleh median. Inilah jenis implikasi praktis yang membuat pengetahuan statistik menjadi nyata, bukan sekadar akademis.

Teori probabilitas memberikan dasar matematika untuk memahami ketidakpastian, yang pada akhirnya merupakan inti dari statistik. Pelajari konsep distribusi probabilitas, seperti distribusi diskrit (Bernoulli, Binomial, Poisson) dan distribusi kontinu (Normal/Gaussian, Eksponensial, Beta) — dan pahami secara intuitif apa yang dimodelkan oleh masing-masing distribusi. Distribusi Normal ada di mana-mana dalam statistik sebagian karena Central Limit Theorem — hasil luar biasa bahwa rata-rata sampel yang cukup besar dari hampir semua distribusi akan berdistribusi normal — dan memahami mengapa ini benar akan membuat keberadaan distribusi normal menjadi mudah dipahami daripada misterius.

Exploratory Data Analysis (EDA)

Exploratory Data Analysis adalah praktik pemeriksaan sistematis terhadap kumpulan data baru sebelum membangun model atau menarik kesimpulan, seperti memahami bentuk dan ukurannya, mengidentifikasi nilai yang hilang, menemukan dan menyelidiki outlier, memahami distribusi variabel individual, dan mengeksplorasi hubungan antar variabel. Di sinilah pengetahuan statistik dan keterampilan visualisasi Python bersatu dalam alur kerja praktis.

EDA yang dieksekusi dengan baik bukan hanya sekumpulan plot yang dihasilkan secara otomatis, tetapi ini adalah investigasi disiplin yang memandu setiap keputusan analitis selanjutnya. Variabel mana yang memiliki informasi yang cukup untuk menjadi fitur yang berguna? Variabel mana yang sangat berkorelasi satu sama lain sehingga menggunakan keduanya akan menimbulkan redundansi? Transformasi variabel target mana yang akan membuat model regresi lebih tepat? Observasi mana yang berpotensi salah dan perlu diselidiki? EDA menjawab semua pertanyaan ini sebelum satu model pun dilatih.

Tahap 3: Dasar-Dasar ML dan DL

Dengan kefasihan Python dan fondasi statistik yang kuat, kita siap mempelajari machine learning dan deep learning dengan benar. Tahap ini memperkenalkan algoritma, kerangka kerja, dan model mental yang mendasari sebagian besar pekerjaan data science terapan, termasuk large language model dan sistem AI yang berada di garis depan bidang ini.

Machine Learning Klasik

Machine learning klasik — keluarga algoritma yang mencakup regresi linier, decision tree, random forest, gradient boosting, mesin vektor pendukung, dan pengelompokan k-means — tetap menjadi dasar sebagian besar sistem machine learning produksi. Sebelum revolusi deep learning pada tahun 2010-an, algoritma ini menangani hampir semua aplikasi ML. Saat ini, algoritma ini tetap dominan dalam pengaturan data tabular (yang menggambarkan sebagian besar data bisnis), membutuhkan data dan komputasi yang jauh lebih sedikit daripada model deep learning, dan jauh lebih mudah diinterpretasikan — sifat-sifat yang menjadikannya pilihan utama di bidang-bidang berisiko tinggi seperti perawatan kesehatan, keuangan, dan sistem hukum.

Mulailah dengan supervised learning, di mana algoritma belajar dari contoh berlabel, yaitu data di mana kita mengetahui jawaban yang benar untuk setiap contoh pelatihan. Masalah regresi memprediksi hasil kontinu (harga rumah, perkiraan permintaan, nilai seumur hidup pelanggan); masalah klasifikasi memprediksi hasil kategorikal (spam atau bukan spam, kategori produk mana dari lima kategori, apakah pelanggan akan berhenti berlangganan). Pelajari regresi linier dan regresi logistik terlebih dahulu — keduanya sederhana, mudah diinterpretasikan, dan mendasar untuk memahami bagaimana algoritma pembelajaran meminimalkan fungsi kerugian agar sesuai dengan data.

Kemudian pelajari tree-based method, seperti decision tree, yang membuat prediksi dengan mempelajari aturan keputusan dari fitur; random forest, yang merata-ratakan prediksi dari banyak pohon keputusan yang dilatih secara independen untuk mengurangi overfitting; dan metode penguatan gradien (XGBoost, LightGBM, CatBoost), yang secara berurutan membangun pohon yang masing-masing memperbaiki kesalahan dari ensemble sebelumnya. Penguatan gradien adalah keluarga algoritma yang telah memenangkan kompetisi Kaggle terbanyak pada data tabular dan banyak digunakan dalam sistem produksi, sehingga mengembangkan pemahaman yang mendalam tentang cara kerjanya dan cara menyetelnya adalah waktu yang sangat berharga.

Algoritma Unsupervised learning menemukan struktur dalam data yang tidak berlabel. Pengelompokan K-means mengelompokkan titik data berdasarkan kesamaan fitur; pengelompokan hierarkis membangun pohon klaster bersarang; Principal Component Analysis (PCA) mengurangi dimensi data dengan menemukan arah varians maksimum. Algoritma ini digunakan untuk segmentasi pelanggan, deteksi anomali, pengurangan dimensi sebagai pra-pemrosesan untuk pembelajaran terawasi, dan analisis eksplorasi.

Dasar-Dasar Deep Learning

Deep learning — neural network dengan banyak lapisan — telah menghasilkan kemajuan paling signifikan dalam kemampuan machine learning selama dekade terakhir, khususnya untuk data tidak terstruktur seperti gambar, teks, dan audio. Memahami cara kerja neural network sangat penting untuk semua hal di tahap 4 hingga 7 dari peta roadmap.

Mulailah dengan unit fundamental: artificial neuron, yang mengambil jumlah tertimbang dari inputnya, menambahkan istilah bias, dan meneruskan hasilnya melalui fungsi aktivasi non-linier (ReLU adalah yang paling umum digunakan; sigmoid dan tanh juga penting untuk diketahui). Neural network hanyalah kumpulan neuron yang disusun dalam lapisan-lapisan — lapisan masukan yang menerima fitur mentah, satu atau lebih lapisan tersembunyi yang mempelajari representasi yang semakin abstrak, dan lapisan keluaran yang menghasilkan prediksi.

Tahap 4: Memahami NLP

Natural Language Processing (NLP) adalah subbidang machine learning yang bekerja dengan data teks dan bahasa, dan merupakan salah satu bidang terpenting dan berkembang pesat di seluruh data science. Memahami NLP dengan benar — dari akar klasiknya hingga revolusi Transformer — sangat penting baik untuk membangun aplikasi berbasis teks maupun untuk memahami cara kerja large language model.

Dari Teks ke Angka: Masalah Representasi

Setiap sistem NLP dimulai dengan tantangan mendasar yang sama, yaitu mengubah teks, yang pada dasarnya bersifat simbolik dan berurutan, menjadi representasi numerik yang dapat diproses oleh model machine learning. Sejarah NLP pada dasarnya adalah sejarah solusi yang semakin canggih untuk masalah representasi ini.

Pendekatan klasik dimulai dengan representasi bag-of-words, yaitu mengubah setiap dokumen menjadi vektor di mana setiap dimensi sesuai dengan sebuah kata dalam kosakata dan nilainya mewakili berapa kali kata itu muncul. Ini menghilangkan urutan kata sepenuhnya tetapi menangkap informasi yang cukup untuk digunakan dalam tugas-tugas seperti deteksi spam dan klasifikasi dokumen. TF-IDF (Term Frequency-Inverse Document Frequency) meningkatkan penghitungan mentah dengan menurunkan bobot kata-kata yang sering muncul di semua dokumen (dan karenanya kurang informatif tentang dokumen tertentu) dan menaikkan bobot kata-kata yang sering muncul di dokumen tertentu tetapi jarang secara keseluruhan.

Word embedding mewakili kemajuan mendasar: alih-alih merepresentasikan setiap kata sebagai vektor one-hot yang jarang, penyematan kata merepresentasikan setiap kata sebagai vektor padat bilangan riil (biasanya 50 hingga 300 dimensi) di mana geometri ruang penyematan mengkodekan hubungan semantik. Hasil word2vec yang terkenal — bahwa vektor untuk "raja" dikurangi "pria" ditambah "wanita" memberikan vektor yang mendekati "ratu" — menunjukkan bahwa penyematan ini benar-benar menangkap makna semantik. GloVe dan FastText adalah metode penyematan pra-neural penting lainnya yang patut dipahami.

Arsitektur Transformer, yang diperkenalkan dalam makalah tahun 2017 "Attention Is All You Need," dapat dikatakan sebagai perkembangan terpenting dalam sejarah NLP dan fondasi dari setiap large language model yang digunakan saat ini. Memahaminya dengan benar membutuhkan pemahaman tentang mekanisme perhatian pada intinya. Perhatian memungkinkan model, ketika memproses posisi apa pun dalam suatu urutan, untuk melihat semua posisi lain dan memberi bobot pada kontribusi mereka berdasarkan relevansi yang dipelajari. Formulasi query-key-value — di mana setiap token menghasilkan vektor query (apa yang saya cari), vektor kunci (apa yang saya tawarkan kepada orang lain), dan vektor nilai (apa yang saya kontribusikan ketika dipilih) — memungkinkan model untuk mempelajari representasi yang fleksibel dan bergantung pada konteks yang tidak dapat ditangkap oleh vektor keadaan berukuran tetap dalam RNN.

Tahap 5: RAG dan Agen AI

Retrieval-Augmented Generation dan Agen AI mewakili batas terdepan rekayasa AI terapan saat ini, tempat di mana kemampuan large language model dimanfaatkan untuk aplikasi dunia nyata. Tahap ini mengasumsikan fondasi NLP dari Tahap 4 dan membangun menuju jenis sistem yang sedang diterapkan dalam produksi di berbagai industri saat ini.

Memahami Retrieval-Augmented Generation

Large language model memiliki keterbatasan mendasar, yaitu pengetahuan mereka dibekukan pada batas pelatihan mereka. Model yang dilatih pada data hingga tanggal tertentu tidak tahu apa yang terjadi setelahnya, dan tidak mengetahui tentang dokumen khusus untuk organisasi kita yang tidak pernah menjadi bagian dari data pelatihannya. Retrieval-Augmented Generation (RAG) memecahkan masalah ini dengan memberikan model akses ke basis pengetahuan yang dapat ditanyakan pada saat inferensi.

Arsitektur RAG memiliki dua komponen inti: sistem pengambilan yang, berdasarkan kueri pengguna, menemukan dokumen atau bagian yang paling relevan dari basis pengetahuan, dan model generasi (LLM) yang menggunakan kueri pengguna dan konteks yang diambil untuk menghasilkan respons. Kombinasi ini memungkinkan model untuk menjawab pertanyaan tentang informasi yang tidak pernah dilatih sebelumnya, selama informasi tersebut ada dalam basis pengetahuan.

Komponen pengambilan dibangun di sekitar database vektor dan pencarian semantik. Dokumen dikonversi menjadi vektor penyematan menggunakan model penyematan (jaringan saraf yang memetakan teks ke representasi numerik padat di mana teks yang secara semantik serupa berada dekat satu sama lain dalam ruang penyematan). Penyematan ini disimpan dalam database vektor (Pinecone, Weaviate, Chroma, Milvus, atau pgvector di PostgreSQL adalah pilihan umum). Pada saat kueri, kueri pengguna juga disematkan, dan database vektor mengembalikan dokumen yang penyematannya paling mirip dengan penyematan kueri, biasanya diukur dengan kesamaan kosinus.

Agen AI dan Sistem Agen

Agen AI memperluas LLM dari sistem tanya jawab menjadi sistem yang dapat mengambil tindakan, menggunakan alat, dan mengejar tujuan multi-langkah. Agen adalah LLM yang dikombinasikan dengan serangkaian alat yang dapat dipanggilnya — fungsi yang melakukan hal-hal seperti mencari di web, menanyakan database, mengeksekusi kode, memanggil API, atau membaca dan menulis file — ditambah lapisan orkestrasi yang mengelola siklus penalaran, penggunaan alat, dan pembuatan respons.

Pola ReAct (Reasoning and Acting) adalah pola arsitektur terpenting untuk memahami cara kerja agen. Agen yang menggunakan ReAct berulang melalui siklus: ia bernalar tentang langkah apa yang harus diambil selanjutnya (Thought), memutuskan tindakan spesifik dan parameternya (Action), menerima hasil tindakan tersebut dari lingkungan (Observation), dan kemudian bernalar lagi tentang apa yang harus dilakukan selanjutnya berdasarkan informasi baru ini. Siklus ini berlanjut hingga agen menentukan bahwa ia memiliki cukup informasi untuk memberikan jawaban akhir.

Tahap 6: MLOps dan Deployment

Model machine learning yang hanya ada di notebook adalah hipotesis. Model machine learning yang diterapkan dalam sistem produksi, melayani pengguna nyata dan menghasilkan nilai bisnis nyata, adalah produk. Kesenjangan antara kedua keadaan ini sangat besar, dan disiplin MLOps — Machine Learning Operation — ada untuk menjembatani kesenjangan tersebut. Tahap ini mencakup semua yang dibutuhkan untuk membawa model dari pengembangan ke produksi secara andal.

Pola Pikir MLOps

Tantangan inti yang diatasi MLOps adalah bahwa sistem machine learning memiliki properti yang membedakannya dari perangkat lunak konvensional, yaitu mereka bergantung pada data serta kode, perilaku mereka dapat menurun secara diam-diam karena distribusi dunia nyata yang mereka temui menyimpang dari distribusi pelatihan, mereka membutuhkan proses pelatihan yang intensif komputasi yang perlu dikontrol versinya dan dapat direproduksi, dan mereka memiliki persyaratan pemantauan yang melampaui metrik waktu aktif dan tingkat kesalahan dari layanan konvensional.

Memahami MLOps dimulai dengan memahami siklus hidup ML, seperti pengumpulan dan validasi data, rekayasa fitur, pelatihan model, evaluasi model, pengemasan model, penerapan, penyajian, dan pemantauan. Masing-masing fase ini memiliki alat dan praktik terbaiknya sendiri, dan MLOps adalah disiplin rekayasa yang membuat seluruh siklus menjadi andal, dapat direproduksi, dan efisien.

Pelacakan Eksperimen dan Registri Model

Keterampilan MLOps praktis pertama yang perlu dikembangkan adalah pelacakan eksperimen — memelihara catatan terstruktur dari setiap proses pelatihan, termasuk hyperparameter yang digunakan, versi dataset yang dilatih, metrik evaluasi yang dicapai, dan artefak model yang dihasilkan. Tanpa pelacakan eksperimen, pengembangan machine learning akan berubah menjadi kekacauan notebook yang tidak bernomor dan hasil yang tidak terdokumentasi yang hampir mustahil untuk diinterpretasikan atau dikembangkan.

MLflow adalah platform open-source yang paling banyak digunakan untuk pelacakan eksperimen, dan mempelajari cara menggunakannya dengan benar akan mengubah organisasi pengembangan ML. Server pelacakan MLflow mencatat parameter, metrik, dan artefak untuk setiap proses; registri modelnya memelihara model versi dengan alur kerja staging (staging, produksi, diarsipkan); dan fitur proyeknya memungkinkan proses pelatihan yang dapat direproduksi melalui spesifikasi lingkungan. Weights & Biases (W&B) adalah alternatif komersial dengan kemampuan visualisasi yang kuat dan banyak digunakan dalam lingkungan penelitian.

Kontainerisasi dan Penyajian Model

Memindahkan model terlatih dari notebook Jupyter ke API produksi memerlukan pengemasan yang independen dari lingkungan spesifik tempat model tersebut dikembangkan. Docker adalah alat standar untuk ini: Docker memungkinkan kita untuk mendefinisikan citra kontainer yang menentukan sistem operasi, versi Python, versi pustaka, dan isi file yang dibutuhkan untuk menjalankan model Anda, dan kemudian menjalankan citra tersebut secara berulang pada infrastruktur apa pun yang mendukung Docker.

Pelajari cara menulis Dockerfile, membangun citra, menjalankan kontainer secara lokal, dan mendorong citra ke registri kontainer (Docker Hub, AWS ECR, Google Container Registry). Kemudian pelajari cara menyebarkan kontainer tersebut sebagai API. FastAPI adalah kerangka kerja Python yang sangat baik untuk membangun API REST berkinerja tinggi dengan validasi input otomatis dan pembuatan dokumentasi — kerangka kerja ini banyak digunakan untuk penyajian model dan terintegrasi dengan baik dengan ekosistem Python ilmu data.

Tahap 7: LLM dan Fine-Tuning

Large Language Models (LLM) mewakili ujung tombak kemampuan AI saat ini, dan merupakan sistem yang paling dramatis mengubah apa yang mungkin dilakukan dalam AI terapan selama tiga tahun terakhir. Tahap terakhir ini membahas cara kerja LLM secara mendalam, cara mengadaptasinya ke tugas-tugas spesifik melalui fine-tuning, dan cara mengevaluasi serta menyelaraskannya secara bertanggung jawab.

Large Language Model

Large Language Model adalah model berbasis Transformer — khususnya arsitektur dekoder Transformer, yang menghasilkan teks secara autoregresif, yaitu memprediksi token berikutnya berdasarkan semua token sebelumnya, satu token pada satu waktu, hingga generasi selesai. Memahami properti spesifik dari arsitektur hanya-dekoder — bagaimana perhatian diri yang ditutupi secara kausal berbeda dari perhatian dua arah dari model encoder seperti BERT, bagaimana pengkodean posisi menangani urutan panjang, bagaimana cache kunci-nilai memungkinkan generasi yang efisien — penting untuk memahami kemampuan dan keterbatasan LLM.

Kemampuan luar biasa dari LLM modern muncul dari skala: melatih model dengan ratusan miliar parameter pada triliunan token teks. Temuan empiris — yang didokumentasikan dalam penelitian "hukum penskalaan" dari OpenAI, Anthropic, DeepMind, dan lainnya — adalah bahwa kinerja model pada banyak tugas meningkat secara terprediksi dan terus menerus seiring dengan peningkatan ukuran model, ukuran dataset, dan anggaran komputasi. Penemuan ini membenarkan investasi besar-besaran dalam model yang semakin besar dan secara fundamental mengubah strategi penelitian di bidang ini.

Fine-Tuning Model LLM yang Telah Dilatih Sebelumnya

Terlepas dari kemampuan yang mengesankan dari LLM tujuan umum, ada banyak skenario di mana penyempurnaan model yang telah dilatih sebelumnya pada data khusus domain atau tugas tertentu sangat berharga: mengadaptasi model ke kosakata dan konvensi khusus dari domain tertentu (hukum, medis, keuangan), melatih model untuk mengikuti format keluaran yang sangat spesifik secara konsisten, membuat model yang unggul pada tugas sempit di mana model tujuan umum berkinerja buruk, atau mengurangi biaya komputasi inferensi dengan melatih model khusus yang lebih kecil yang berkinerja sebaik model tujuan umum yang lebih besar pada tugas target.

LoRA (Low-Rank Adaptation) adalah teknik yang paling banyak digunakan untuk penyempurnaan parameter yang efisien. Alih-alih memperbarui semua bobot model selama penyempurnaan — yang membutuhkan penyimpanan gradien yang sama dengan jumlah parameter penuh dan mahal secara komputasi — LoRA memperkenalkan matriks peringkat rendah kecil pada lapisan tertentu dan hanya melatih matriks ini sambil menjaga bobot model asli tetap beku. Hasilnya adalah bahwa penyempurnaan (fine-tuning) hanya memerlukan pembaruan sebagian kecil parameter (biasanya 0,1% hingga 1% dari jumlah parameter keseluruhan) sambil mencapai kinerja yang sebanding dengan penyempurnaan penuh pada sebagian besar tugas. QLoRA memperluas LoRA dengan mengkuantisasi bobot model dasar ke presisi 4-bit, secara dramatis mengurangi kebutuhan memori dan membuat penyempurnaan model yang sangat besar menjadi layak pada perangkat keras GPU konsumen.

Advertisement:

Jadi, menguasai data science saat ini bukanlah tentang memperoleh daftar alat atau menyelesaikan daftar periksa tutorial. Ini tentang membangun pemahaman berlapis, yaitu fondasi matematika dan statistik yang membuat pilihan algoritmik dapat dipahami, keterampilan pemrograman yang membuat ide dapat dieksekusi, pengetahuan domain yang membuat pekerjaan teknis bermanfaat, dan praktik rekayasa yang membuat penelitian berguna di dunia nyata.