Perbedaan Data Analyst, Data Engineer, dan Data Scientist

Oleh: Hobon.id (13/06/2026)

Jika kita telah meneliti karier di bidang data, kita hampir pasti telah menemukan banyak judul pekerjaan yang tumpang tindih, deskripsi yang membingungkan, dan saran yang kontradiktif. Lowongan "Data Analyst" di satu perusahaan mencantumkan pengalaman machine learning sebagai persyaratan. Peran "Data Scientist" di perusahaan lain hampir tidak menyebutkan statistik. Seorang "Data Engineer" di satu organisasi melakukan pekerjaan yang tampak identik dengan apa yang disebut perusahaan lain sebagai "Backend Engineer". Terminologi ini benar-benar tidak konsisten di seluruh industri, dan ketidakkonsistenan itu menyulitkan siapa pun — baik kita seorang mahasiswa yang memilih jalur karier, seorang profesional yang mempertimbangkan transisi, atau seorang manajer perekrutan yang mencoba membangun tim — untuk mengetahui apa arti sebenarnya dari judul-judul ini.

Di sini, kami akan mengatasi kebingungan itu dengan berfokus pada kebenaran yang mendasari kebisingan judul, yaitu ada tiga jenis pekerjaan yang pada dasarnya berbeda yang perlu dilakukan di organisasi mana pun yang ingin menggunakan data secara efektif, dan judul Data Analyst, Data Engineer, dan Data Scientist telah muncul untuk menggambarkan ketiga jenis pekerjaan yang berbeda tersebut. Memahami apa sebenarnya yang melibatkan ketiga jenis pekerjaan tersebut — masalah apa yang mereka selesaikan, keterampilan apa yang mereka butuhkan, alat apa yang mereka gunakan, dan bagaimana hubungan antara ketiganya — akan memberi kita kerangka kerja yang stabil untuk memahami deskripsi pekerjaan atau percakapan karier tertentu, terlepas dari judul apa pun yang digunakan.

Advertisement:

Mengapa Ketiga Peran Ini Ada: Rantai Nilai Data

Untuk memahami mengapa ketiga peran ini ada dan apa yang membedakannya, ada baiknya memikirkan apa yang harus terjadi antara data mentah yang ada di suatu tempat dalam sistem organisasi dan keputusan bisnis yang ditingkatkan oleh data tersebut. Perjalanan dari data mentah ke keputusan yang lebih baik bukanlah satu langkah tunggal, tetapi ini adalah rangkaian beberapa jenis pekerjaan yang berbeda, masing-masing membutuhkan keterampilan yang berbeda, alat yang berbeda, dan orientasi yang berbeda terhadap masalah.

Jenis pekerjaan pertama adalah infrastruktur dan rekayasa, yaitu membuat data tersedia, andal, mudah diakses, dan dalam format yang dapat digunakan. Ini adalah pekerjaan memindahkan data dari mana pun asalnya — sistem transaksi, database aplikasi, API, aliran peristiwa, sumber pihak ketiga — ke mana pun data tersebut perlu dianalisis, dalam bentuk yang konsisten, terdokumentasi dengan baik, dan dapat dipercaya. Tanpa pekerjaan ini, semua orang di hilir akan bekerja dengan data yang mungkin tidak lengkap, tidak konsisten, atau tidak dapat diakses. Ini pada dasarnya adalah domain Data Engineer.

Jenis pekerjaan kedua adalah analisis deskriptif dan diagnostik, yaitu memahami apa yang telah terjadi, mengapa itu terjadi, dan bagaimana keadaan bisnis saat ini. Ini adalah pekerjaan untuk menanyakan data yang tersedia, mengidentifikasi pola dan anomali, membangun laporan dan dasbor, dan mengkomunikasikan wawasan kepada orang-orang yang perlu membuat keputusan operasional dan strategis. Pekerjaan ini tidak memerlukan pembangunan model prediktif atau sistem machine learning, tetapi pekerjaan ini membutuhkan pemahaman tentang bisnis, mengajukan pertanyaan yang tepat kepada data, dan mengkomunikasikan jawabannya dengan jelas. Ini adalah domain Data Analyst.

Jenis pekerjaan ketiga adalah pemodelan prediktif dan preskriptif, yaitu menggunakan metode statistik dan machine learning untuk melampaui apa yang telah terjadi menuju prediksi apa yang akan terjadi dan merekomendasikan apa yang harus dilakukan. Ini adalah pekerjaan untuk membangun model yang belajar dari data historis untuk membuat prediksi tentang perilaku di masa depan, mengidentifikasi pola kompleks yang tidak jelas dalam kumpulan data besar, merancang eksperimen untuk menetapkan sebab akibat daripada korelasi, dan mengembangkan komponen algoritmik yang mendukung produk berbasis data. Ini adalah domain Data Scientist.

Ketiga jenis pekerjaan ini benar-benar berbeda dalam persyaratan keterampilan, peralatan, hasil, dan hubungannya dengan bisnis. Fakta bahwa ketiganya sering dikacaukan satu sama lain sebagian mencerminkan penggunaan judul yang tidak konsisten di seluruh industri dan sebagian lagi kenyataan bahwa di organisasi yang lebih kecil, orang yang sama bisa melakukan ketiganya. Namun, jenis pekerjaan yang mendasarinya berbeda, dan memahami perbedaan tersebut adalah dasar dari semua hal lain dalam panduan ini.

Apa Sebenarnya yang Dilakukan Seorang Data Analyst

Pada intinya, seorang Data Analyst adalah penerjemah antara data dan keputusan bisnis. Fungsi utamanya adalah mengambil pertanyaan yang dimiliki pemangku kepentingan bisnis — seorang manajer operasional, direktur pemasaran, tim produk, seorang eksekutif — tentang kondisi bisnis, menemukan data yang dapat menjawab pertanyaan tersebut, melakukan analisis untuk mengekstrak jawabannya, dan mengkomunikasikannya dengan cara yang memungkinkan pengambilan keputusan yang lebih baik.

Pertanyaan-pertanyaan yang dikerjakan oleh seorang Data Analyst berakar pada masa kini dan masa lalu. Berapa biaya akuisisi pelanggan kita pada kuartal lalu dan bagaimana perbedaannya berdasarkan saluran? Kategori produk mana yang menunjukkan penurunan margin dan apa yang mungkin menjadi penyebabnya? Pengguna mana yang paling mungkin berhenti berlangganan berdasarkan pola keterlibatan mereka? Bagaimana fitur yang kita luncurkan bulan lalu memengaruhi metrik utama kita? Ini adalah pertanyaan tentang apa yang terjadi dalam bisnis saat ini, dan pertanyaan-pertanyaan ini membutuhkan seseorang yang cukup memahami bisnis untuk mengetahui apa yang sebenarnya ditanyakan, cukup memahami data untuk menemukan jawaban yang andal, dan cukup berkomunikasi untuk membuat jawaban tersebut bermanfaat.

Hari kerja tipikal seorang Data Analyst diatur berdasarkan permintaan pemangku kepentingan, kewajiban pelaporan berkelanjutan, dan analisis eksplorasi. Sebagian besar waktu mereka dihabiskan dalam SQL — melakukan kueri database untuk mengekstrak dan mengubah data — dan dalam alat visualisasi di mana mereka mengubah data tersebut menjadi grafik, dasbor, dan laporan yang dapat diinterpretasikan oleh pemangku kepentingan tanpa bantuan teknis. Sebagian besar waktu lainnya dihabiskan untuk komunikasi, seperti mempresentasikan temuan dalam rapat, menulis ringkasan analitis, dan berdiskusi dengan pemangku kepentingan tentang apa yang ditunjukkan data dan apa artinya bagi keputusan mereka.

Data Analyst juga memelihara dan meningkatkan infrastruktur pelaporan yang diandalkan organisasi mereka, seperti dasbor yang melacak key performance indicator (KPI), laporan otomatis yang berjalan sesuai jadwal, dan dokumentasi yang membantu pemangku kepentingan memahami arti metrik dan bagaimana metrik tersebut dihitung. Pekerjaan pemeliharaan ini kurang glamor dibandingkan pekerjaan analitis ad-hoc, tetapi seringkali lebih berdampak karena membentuk asupan informasi reguler seluruh organisasi.

Salah satu aspek terpenting dan kurang dihargai dari pekerjaan Data Analyst adalah mendefinisikan metrik. Sebelum kita dapat mengukur sesuatu, kita perlu mendefinisikan secara tepat apa yang kita ukur dan mengapa. Pertanyaan yang tampaknya sederhana seperti "berapa jumlah pengguna aktif kita?" mengandung kompleksitas tersembunyi: apa yang dianggap aktif? Dalam jangka waktu berapa lama? Apakah kita menghitung pengguna unik atau sesi? Bagaimana kita menangani pengguna yang berperilaku sebagai konsumen dan kreator di platform yang sama? Mendapatkan definisi yang tepat, membangun konsensus di sekitarnya, dan menerapkannya secara konsisten dalam pelaporan adalah pekerjaan yang membutuhkan keahlian dan memiliki konsekuensi besar bagi kualitas pengambilan keputusan organisasi.

Keterampilan dan Alat Inti Seorang Data Analyst

Keterampilan teknis dasar seorang Data Analyst adalah SQL — Structured Query Language — bahasa yang digunakan untuk mengkueri database relasional. SQL adalah cara sebagian besar analisis data dimulai: kita menulis kueri untuk mengekstrak, memfilter, mengagregasi, menggabungkan, dan mengubah data dari sistem database apa pun yang digunakan organisasi kita. Menjadi benar-benar mahir dalam SQL, di luar pernyataan SELECT dasar dan masuk ke fungsi jendela, ekspresi tabel umum, optimasi kinerja, dan dialek khusus yang digunakan oleh platform gudang data utama, adalah investasi teknis terpenting yang dapat dilakukan oleh seorang Data Analyst.

Selain SQL, Data Analyst biasanya bekerja dengan satu atau lebih alat intelijen bisnis (BI) dan visualisasi. Tableau, Power BI, Looker, dan Metabase termasuk yang paling banyak digunakan, dan keahlian dalam setidaknya satu dari platform ini hampir universal di antara Data Analyst di lingkungan industri. Alat-alat ini memungkinkan analis untuk membuat dasbor interaktif, membangun bidang terhitung, mendesain visualisasi yang berkomunikasi dengan jelas kepada audiens non-teknis, dan terhubung langsung ke sumber gudang data tanpa perlu menulis kode untuk setiap kueri.

Python atau R semakin diharapkan dari Data Analyst, terutama di industri yang terkait dengan teknologi. Python khususnya telah menjadi alat standar untuk analisis yang melampaui kemampuan SQL dan alat BI, seperti analisis statistik kompleks, bekerja dengan kumpulan data besar yang mendapat manfaat dari karakteristik kinerja pandas dan numpy, membangun notebook analitik yang dapat direproduksi, dan melakukan jenis analisis data eksplorasi yang mendahului laporan formal. Tingkat kemahiran Python yang diharapkan sangat bervariasi di berbagai industri dan ukuran perusahaan — seorang analis data di perusahaan ritel mungkin terutama bekerja dengan SQL dan Excel, sementara seorang analis data di perusahaan rintisan teknologi mungkin diharapkan untuk menulis kode Python yang substansial secara teratur.

Pengetahuan statistik merupakan dasar, tetapi seringkali kurang dikembangkan di antara para Data Analyst yang berpraktik. Memahami perbedaan antara korelasi dan kausalitas, mengetahui kapan perbedaan antara dua angka signifikan secara statistik dibandingkan dengan noise, memahami bagaimana bias pengambilan sampel memengaruhi kesimpulan, dan mengetahui uji statistik mana yang tepat untuk jenis pertanyaan tertentu — ini bukanlah keterampilan yang eksotis, tetapi merupakan perbedaan antara analisis yang menghasilkan wawasan akurat dan analisis yang menyesatkan. Banyak keputusan bisnis yang dibuat berdasarkan interpretasi statistik data yang salah jauh lebih mahal daripada kegagalan teknologi apa pun.

Keterampilan non-teknis sama pentingnya dengan keterampilan teknis bagi seorang Data Analyst. Kecerdasan bisnis — memahami bagaimana organisasi menghasilkan uang, apa saja pengungkit kinerja utama, dan keputusan apa yang sebenarnya dibuat oleh para pemangku kepentingan yang kita layani — adalah yang membedakan seorang analis yang menghasilkan jawaban yang bermanfaat dari seorang analis yang menghasilkan output yang secara teknis benar tetapi secara praktis tidak relevan. Keterampilan komunikasi, khususnya kemampuan untuk menyajikan data secara visual dengan cara yang membuat wawasan langsung dan dapat ditindaklanjuti, adalah yang menentukan apakah pekerjaan seorang analis benar-benar memengaruhi keputusan.

Apa yang Sebenarnya Dilakukan oleh Seorang Data Engineer

Tugas seorang Data Engineer adalah membangun dan memelihara sistem dan infrastruktur yang membuat data tersedia, andal, dan bermanfaat bagi semua orang yang perlu menggunakannya, seperti analis, ilmuwan, tim produk, dan sistem otomatis. Jika Data Analyst adalah orang yang menggunakan data untuk menjawab pertanyaan, maka Data Engineer adalah orang yang memastikan bahwa data yang digunakan untuk menjawab pertanyaan tersebut benar-benar ada, akurat, mutakhir, dan dapat diakses dalam bentuk yang dapat dikueri secara efisien.

Pekerjaan seorang Data Engineer berorientasi pada pipeline, sistem, dan skala. Mereka membangun pipeline data, yaitu proses otomatis yang mengekstrak data dari sistem sumber (database aplikasi, API pihak ketiga, aliran peristiwa, unggahan file, dan lusinan sumber lainnya), mengubahnya menjadi bentuk yang dibutuhkan analis dan ilmuwan, dan memuatnya ke dalam gudang data atau danau data tempat data tersebut dapat dikueri. Pipeline ini perlu berjalan dengan andal, menangani kegagalan dengan baik, memproses data pada skala apa pun yang dihasilkan organisasi, dan memelihara dokumentasi dan pemantauan yang cukup sehingga masalah dapat didiagnosis dengan cepat ketika terjadi.

Pekerjaan pipeline ini, yang sering digambarkan sebagai ETL (Extract, Transform, Load) atau ELT (Extract, Load, Transform) tergantung pada pendekatan arsitektur, adalah aktivitas utama dari sebagian besar peran Data Engineering. Ini melibatkan penulisan kode — biasanya Python dengan library seperti Apache Spark, dbt, atau Airflow — yang mengatur pergerakan data, menerapkan logika transformasi, dan menyimpan data yang bersih dan terstruktur di tempat yang dibutuhkan pengguna hilir. Logika transformasi dapat berkisar dari yang sederhana (mengganti nama kolom, mengubah tipe data, menyaring catatan uji) hingga yang kompleks (menggabungkan beberapa sumber di berbagai sistem, menerapkan aturan bisnis yang mengkodekan pengetahuan domain yang signifikan, menghilangkan duplikasi catatan yang muncul beberapa kali di sistem yang berbeda).

Di luar pipeline, Data Engineer merancang dan mengelola arsitektur data organisasi mereka, seperti database, gudang data, dan danau data tempat data berada, skema yang mendefinisikan bagaimana data terstruktur, kontrol akses yang menentukan siapa yang dapat melihat apa, dan kebijakan seputar retensi dan penghapusan data. Keputusan arsitektur ini memiliki konsekuensi jangka panjang yang sulit dan mahal untuk dibalik, sehingga menjadikannya pekerjaan rekayasa yang benar-benar berisiko tinggi yang membutuhkan kedalaman teknis dan pemikiran strategis tentang kebutuhan data organisasi di masa depan.

Data Engineer juga memainkan peran penting dalam kualitas data, yaitu infrastruktur validasi, pengujian, dan pemantauan yang memastikan data di gudang data akurat, lengkap, dan konsisten. Dasbor yang menunjukkan angka yang salah karena pipeline hulu memiliki bug, atau model machine learning yang membuat prediksi buruk karena dilatih pada data yang rusak, merupakan kegagalan bukan hanya dari sistem tertentu tetapi juga dari infrastruktur kualitas data yang seharusnya menangkap masalah tersebut sebelum mencapai pengguna hilir. Membangun sistem kualitas data yang kuat semakin diakui sebagai salah satu investasi berdampak tertinggi yang dapat dilakukan tim data.

Keterampilan dan Alat Inti Seorang Data Engineer

Kemampuan pemrograman adalah persyaratan paling mendasar bagi seorang Data Engineer, dan Python adalah bahasa utama dari tumpukan rekayasa data modern. Seorang Data Engineer perlu merasa nyaman menulis kode Python berkualitas produksi, yiatu kode yang menangani kesalahan dengan baik, teruji dengan baik, dapat dipelihara oleh rekan kerja, dan berkinerja memadai pada volume data yang dihasilkan organisasi. Keakraban dengan pola pemrograman berorientasi objek, kerangka kerja pengujian unit, dan kontrol versi dengan Git diharapkan.

Keahlian SQL sama pentingnya bagi Data Engineer seperti halnya bagi Data Analyst, meskipun jenis pertanyaan SQL yang mereka hadapi berbeda. Di mana Analis menggunakan SQL terutama untuk menulis kueri yang menjawab pertanyaan analitis, Engineer menggunakannya untuk merancang skema, mengoptimalkan kinerja kueri, memahami bagaimana transformasi mereka akan dieksekusi terhadap kumpulan data besar, dan membangun logika transformasi berbasis SQL yang menjadikan alat seperti dbt sebagai pusat dari tumpukan data modern.

Tumpukan alat rekayasa data modern telah menyatu di sekitar serangkaian teknologi inti yang muncul di sebagian besar deskripsi pekerjaan. Platform cloud — AWS, Google Cloud Platform, dan Microsoft Azure — adalah lapisan infrastruktur tempat hampir semua sistem data modern berjalan, dan pengetahuan tentang layanan yang relevan di setidaknya satu penyedia cloud utama (penyimpanan, komputasi, layanan database terkelola, streaming peristiwa, serverless function) semakin mendasar. Platform gudang data seperti Snowflake, BigQuery, dan Redshift adalah tempat sebagian besar data analitik berakhir, dan pemahaman tingkat teknik tentang cara kerjanya, cara mengoptimalkan biaya, dan cara menyusun data di dalamnya sangat berharga.

Alat orkestrasi — platform yang menjadwalkan, memantau, dan mengelola eksekusi pipeline data — telah menjadi kategori khusus tersendiri. Apache Airflow adalah yang paling banyak digunakan, meskipun alternatif seperti Prefect, Dagster, dan layanan alur kerja cloud-native semakin populer. dbt (data build tool) telah menjadi hampir umum untuk mengelola lapisan transformasi dalam gudang data, dan pemahaman tentang cara menggunakannya secara efektif telah menjadi hampir sama pentingnya dengan kemampuan SQL bagi para data engineer.

Keterampilan non-teknis yang membedakan Data Engineer yang unggul dari yang biasa-biasa saja adalah keandalan, komunikasi, dan kemampuan untuk memahami kebutuhan pengguna hilir. Pipeline data yang memproses data dengan benar tetapi dokumentasinya buruk, sulit untuk di-debug, dan mode kegagalannya kurang dipahami akan menciptakan beban berkelanjutan yang sangat besar bagi seluruh tim data. Data Engineer yang membangun sistem yang andal, mendokumentasikan pekerjaan mereka dengan jelas, dan berkomunikasi secara proaktif dengan analis dan ilmuwan tentang masalah kualitas data dan perubahan yang akan datang sangatlah berharga.

Apa Sebenarnya yang Dilakukan oleh Seorang Data Scientist

Peran Data Scientist sekaligus merupakan peran yang paling diglamorisasi dan paling disalahpahami dari ketiganya. Peran ini muncul sebagai gelar yang berbeda pada awal tahun 2010-an — Harvard Business Review terkenal menyebutnya sebagai "pekerjaan paling seksi di abad ke-21" pada tahun 2012 — dan ekspektasi yang melekat padanya telah meningkat dan tidak konsisten sejak saat itu. Realitas dari apa yang dilakukan Data Scientist jauh lebih menarik dan lebih biasa daripada citra populer yang ditunjukkannya.

Pada intinya, seorang Data Scientist menerapkan metode statistik dan komputasi untuk mengekstrak wawasan yang tidak dapat diperoleh melalui kueri dan agregasi standar. Ini berarti bekerja dengan metode yang membutuhkan kecanggihan matematika yang lebih tinggi daripada yang biasanya digunakan oleh Data Analyst, seperti model regresi, algoritma klasifikasi, teknik pengelompokan, peramalan deret waktu, pemrosesan bahasa alami, sistem rekomendasi, dan dalam beberapa konteks, deep learning. Perbedaan utama dari Data Analysis bukanlah penggunaan Python atau fakta bahwa outputnya adalah model — melainkan sifat dari pertanyaan yang diajukan. Data Scientist biasanya mengerjakan pertanyaan di mana jawabannya tidak terkandung langsung dalam data historis tetapi harus disimpulkan melalui pemodelan statistik.

Sebagian besar pekerjaan Data Scientist di sebagian besar organisasi adalah eksperimen — khususnya, merancang dan menganalisis uji A/B. Ketika tim produk ingin mengetahui apakah fitur baru meningkatkan keterlibatan pengguna, atau tim pemasaran ingin mengetahui apakah strategi email baru meningkatkan konversi, atau tim operasi ingin mengetahui apakah proses baru mengurangi kesalahan, seorang Data Scientist merancang eksperimen yang secara acak menetapkan pengguna atau instance ke kondisi kontrol dan perlakuan, menentukan berapa lama eksperimen perlu dijalankan agar memiliki kekuatan statistik yang memadai, memantau eksperimen selama eksekusi, dan menganalisis hasilnya untuk menentukan apakah perbedaan yang diamati itu nyata atau hanya noise. Eksperimen yang ketat adalah cara organisasi mengganti opini dengan bukti, dan ini adalah salah satu kontribusi bernilai tinggi yang diberikan oleh Data Scientist yang terampil.

Di luar eksperimen, Data Scientist membangun model prediktif yang mendukung proses bisnis atau produk. Model prediksi churn yang mengidentifikasi pelanggan mana yang paling mungkin membatalkan langganan mereka sehingga upaya retensi dapat ditargetkan. Model peramalan permintaan yang memprediksi berapa banyak inventaris setiap kategori produk yang akan dibutuhkan di setiap wilayah tiga bulan dari sekarang. Sistem rekomendasi yang memprediksi konten mana yang paling mungkin diinteraksi oleh setiap pengguna. Model deteksi penipuan yang menandai transaksi sebagai kemungkinan penipuan secara real-time. Model-model ini, setelah dibangun dan divalidasi, diterapkan ke sistem produksi di mana mereka membuat prediksi secara terus-menerus — hasil yang berbeda dari laporan dan dasbor Analis Data.

Jalur dari ide mentah ("kita harus memprediksi pelanggan mana yang akan churn") ke model yang andal dan diterapkan lebih panjang dan lebih iteratif daripada yang sering dipahami oleh orang luar. Ini melibatkan analisis data eksplorasi untuk memahami fitur yang tersedia, rekayasa fitur untuk mengubah data mentah menjadi input yang dapat dipelajari oleh model, pemilihan dan pelatihan model, validasi yang ketat untuk memastikan model tersebut dapat digeneralisasi di luar data pelatihan, dan — dalam kolaborasi dengan para engineer — penerapan ke sistem produksi di mana ia berjalan dalam skala besar. Siklus lengkapnya dapat memakan waktu berminggu-minggu atau berbulan-bulan, dan sebagian besar proyek ilmu data tidak pernah sampai ke tahap implementasi karena modelnya tidak berkinerja cukup baik untuk dapat bermanfaat.

Keterampilan dan Alat Inti Seorang Data Scientist

Keterampilan mendasar yang membedakan Data Scientist dari dua peran lainnya adalah pengetahuan statistik dan matematika. Seorang Data Scientist membutuhkan pemahaman yang mendalam tentang probabilitas, inferensi statistik, pengujian hipotesis, aljabar linier, dan kalkulus — bukan sebagai latihan akademis tetapi sebagai fondasi konseptual untuk memahami apa yang dilakukan model machine learning, mengapa model tersebut bekerja, di mana model tersebut gagal, dan bagaimana mengevaluasi apakah suatu model benar-benar baik atau hanya tampak baik. Bidang ilmu data telah menghasilkan alat yang mengabstraksikan sebagian besar kompleksitas implementasi machine learning, tetapi alat-alat tersebut dapat disalahgunakan — dan sering kali terjadi — oleh praktisi yang tidak memahami matematika yang mendasarinya.

Python adalah bahasa pemrograman dominan dalam ilmu data, dan ekosistem Python ilmiah — NumPy, pandas, scikit-learn, matplotlib, seaborn, dan semakin banyak PyTorch dan TensorFlow untuk pekerjaan deep learning — adalah lingkungan teknis utama. Kemahiran dalam ekosistem ini, pada tingkat kemampuan untuk menulis notebook analisis yang bersih, efisien, dan dapat direproduksi serta membangun pipeline pelatihan dan evaluasi model, merupakan harapan dasar untuk peran ilmu data.

SQL tetap penting bagi Data Scientist, terutama untuk fase ekstraksi data dan analisis eksplorasi pekerjaan mereka, meskipun mereka biasanya menghabiskan lebih sedikit waktu di SQL daripada Analis Data dan lebih banyak waktu di Python setelah data diekstrak. Keakraban dengan platform machine learning berbasis cloud — AWS SageMaker, Google Vertex AI, Azure ML — semakin diharapkan untuk peran yang melibatkan penerapan model ke produksi.

Keterampilan komunikasi yang dibutuhkan oleh Data Scientist berbeda dari Analis Data, tetapi sama pentingnya. Di mana seorang Analis perlu menjelaskan apa yang ditunjukkan data dengan cara yang dapat segera ditindaklanjuti, seorang Data Scientist perlu menjelaskan keterbatasan dan asumsi model dengan cara yang jujur tentang ketidakpastian tanpa terlalu berhati-hati sehingga menjadi tidak berguna. Para pemangku kepentingan bisnis yang menginginkan jawaban pasti dan model pembelajaran mesin yang menghasilkan keluaran probabilistik pada dasarnya berada dalam ketegangan, dan seorang Ilmuwan Data yang terampil mampu mengatasi ketegangan tersebut dengan jelas mengenai apa yang dapat dan tidak dapat diberikan oleh model mereka.

Bagaimana Ketiga Peran Bekerja Sama

Dalam organisasi data yang berfungsi dengan baik, ketiga peran tersebut membentuk sistem yang saling bergantung di mana masing-masing bergantung pada dan berkontribusi pada yang lain.

Pekerjaan Data Engineer adalah fondasinya. Tanpa pipeline data yang andal dan gudang data yang terstruktur dengan baik, Analis tidak memiliki data tepercaya untuk dikueri dan Data Scientist tidak memiliki fitur yang bersih untuk melatih model. Engineer sering menetapkan agenda tentang apa yang mungkin dilakukan dalam tim data — jika jenis data tertentu tidak ditangkap atau disimpan dalam format yang menyulitkan analisis, kemampuan kedua peran hilir akan terbatas sampai masalah rekayasa terpecahkan.

Pekerjaan Data Analyst sering kali menjadi jembatan antara infrastruktur data dan bisnis. Analis menjaga denyut nadi kesadaran data organisasi secara teratur, seperti dasbor yang ditinjau oleh para eksekutif, laporan yang digunakan tim operasi untuk membuat keputusan harian, analisis eksplorasi yang memunculkan anomali dan peluang yang mungkin tidak akan diperhatikan. Di banyak organisasi, wawasan yang akhirnya menjadi proyek ilmu data pertama kali muncul dalam investigasi eksplorasi seorang analis. Analis memperhatikan bahwa tingkat kehilangan pelanggan tampaknya berkorelasi dengan pola penggunaan tertentu dalam pekerjaan eksplorasi mereka, dan pengamatan tersebut menjadi benih dari model prediksi kehilangan pelanggan.

Pekerjaan Data Scientist memperluas apa yang dapat dicapai analis dengan mengembangkan metode yang dapat bekerja dengan lebih banyak data, memodelkan hubungan yang lebih kompleks, dan menghasilkan keluaran yang melampaui deskripsi historis menuju prediksi dan preskripsi. Tetapi proyek ilmu data gagal ketika tidak didasarkan pada pemahaman bisnis yang dikembangkan analis, dan tidak pernah diterapkan ketika kapasitas teknik tidak tersedia untuk mengubah prototipe penelitian menjadi sistem produksi.

Dalam organisasi data yang matang, kolaborasi lintas fungsi antara ketiga peran tersebut bersifat berkelanjutan daripada berurutan. Engineer berkonsultasi dengan analis dan scientist tentang bentuk dan skema data apa yang paling berguna. Analyst memberikan umpan balik tentang masalah kualitas data yang perlu diperbaiki oleh engineer. Scientist bermitra dengan analis untuk memahami pertanyaan bisnis mana yang layak dimodelkan dan dengan insinyur untuk merancang infrastruktur yang dibutuhkan untuk mendukung penerapan model. Judul-judul tersebut menggambarkan spesialisasi, bukan silo.

Advertisement:

Jadi, Data Analyst, Data Engineer, and Data Scientist adalah tiga peran yang berbeda namun saling bergantung yang bersama-sama membentuk kemampuan data lengkap dari sebuah organisasi modern. Mereka menangani masalah yang berbeda — analis menjelaskan apa yang terjadi, engineer memastikan data tersedia dan dapat diandalkan, scientist memprediksi apa yang akan terjadi dan membangun sistem untuk menanggapinya — dan mereka membutuhkan keterampilan dasar yang berbeda, meskipun dengan tumpang tindih yang berarti di bagian tepinya.