Apa Itu Stable Diffusion? Panduan Lengkap untuk Generator Gambar AI Open Source

Oleh: Hobon.id (18/05/2026)

Stable Diffusion adalah model teks-ke-gambar deep learning open source yang menghasilkan gambar detail dan fotorealistik dari deskripsi bahasa alami. Kita mengetikkan perintah — sebuah kalimat atau paragraf yang menjelaskan apa yang ingin kita lihat — dan model tersebut menghasilkan gambar yang sesuai dengan deskripsi kita, biasanya dalam hitungan detik.

Yang membedakan Stable Diffusion dari gelombang generator gambar AI yang mendahului dan mengikutinya bukanlah terutama kualitas outputnya, meskipun kualitas tersebut mengesankan. Karakteristik yang menentukan adalah bahwa Stability AI merilis kode dan bobot model terlatih secara publik — sebuah keputusan yang memungkinkan siapa pun dengan kartu grafis yang cukup mumpuni untuk mengunduh dan menjalankan model tersebut pada perangkat keras mereka sendiri, secara gratis, tanpa langganan berkelanjutan, ketergantungan platform, atau batasan permintaan.

Secara teknis, Stable Diffusion adalah apa yang disebut model difusi laten, yaitu pendekatan arsitektur spesifik untuk AI generatif yang lebih efisien dan lebih terkontrol daripada metode sebelumnya. Ini dapat digunakan untuk membuat gambar dari awal berdasarkan perintah teks, untuk mengedit wilayah tertentu dari gambar yang ada sambil membiarkan sisanya tidak tersentuh, untuk memperluas gambar melampaui batas aslinya, dan untuk mengubah satu gambar menjadi gambar lain yang dipandu oleh deskripsi teks. Kemampuan-kemampuan tersebut secara bersama-sama memberi para seniman, developer, desainer, dan peneliti fondasi yang fleksibel, kuat, dan sepenuhnya dapat disesuaikan untuk pekerjaan AI visual.

Advertisement:

Kisah Asal Usul

Stability AI didirikan pada tahun 2019 di London oleh Emad Mostaque, yang mengidentifikasi potensi penelitian difusi laten dan menyediakan sumber daya komputasi untuk meningkatkannya. Kolaborasi antara Stability AI, CompVis, dan Runway ML menggabungkan inovasi akademis dengan infrastruktur komputasi dan kapasitas teknik untuk mengubah ide penelitian yang menjanjikan menjadi model kelas produksi yang mampu menghasilkan gambar berkualitas tinggi dengan cepat dan andal.

Visi eksplisit Mostaque adalah demokratisasi. Ia percaya bahwa sistem AI berpemilik — yang dikendalikan oleh segelintir perusahaan besar dan hanya dapat diakses melalui API yang mahal — mewakili konsentrasi berbahaya dari teknologi transformatif. Dengan merilis Stable Diffusion di bawah lisensi terbuka, ia berpendapat, manfaat AI generatif dapat didistribusikan secara luas daripada dikuasai oleh sejumlah kecil aktor korporasi. Apakah visi itu telah sepenuhnya terwujud adalah pertanyaan dengan jawaban yang rumit, tetapi rilis awal melakukan persis apa yang ingin dilakukannya, yaitu menempatkan sistem pembangkitan gambar yang ampuh di tangan siapa pun yang menginginkannya, terlepas dari kemampuan mereka untuk membayar langganan atau akses mereka ke sumber daya komputasi institusional.

Mengapa Open Source Mengubah Segalanya

Untuk memahami mengapa rilis open source Stable Diffusion merupakan peristiwa yang sangat signifikan, ada baiknya memahami lanskap yang ada sebelum Agustus 2022. Generator gambar AI yang dominan pada saat itu — DALL-E dari OpenAI, Imagen dari Google, dan Midjourney, yang telah diluncurkan beberapa bulan sebelumnya — semuanya bersifat proprietary dan berbasis cloud. Pengguna hanya dapat mengaksesnya melalui antarmuka dan API developer mereka, tunduk pada ketentuan layanan, filter konten, batasan penggunaan, dan biaya berkelanjutan. Tidak seorang pun di luar perusahaan tersebut dapat memeriksa cara kerja model, memodifikasinya, menyempurnakannya untuk tujuan tertentu, atau menjalankannya di perangkat keras mereka sendiri.

Ketika Stability AI merilis bobot dan kode Stable Diffusion, hal itu mengubah dinamika tersebut sepenuhnya. Developer sekarang dapat mempelajari arsitektur model secara detail. Peneliti dapat menyelidiki kemampuan dan keterbatasannya secara ilmiah. Seniman dapat menjalankannya secara lokal, sehingga menghasilkan gambar sebanyak yang mereka inginkan tanpa membayar biaya per generasi. Bisnis dapat menyempurnakannya pada data proprietary tanpa mengirim data tersebut ke API eksternal. Dan komunitas open source yang sangat besar dapat membangun antarmuka, alat, dan model khusus di atasnya, sehingga menyumbangkan karya mereka kembali ke ekosistem bersama yang semakin mampu dengan setiap kontribusi.

Cara Kerja Stable Diffusion

Proses difusi dimulai, secara kontraintuitif, dengan penghancuran. Selama pelatihan, model diberi gambar nyata dan belajar untuk secara bertahap menambahkan noise ke dalamnya—distorsi acak tingkat piksel—hingga gambar asli benar-benar tidak dapat dikenali, direduksi menjadi noise Gaussian murni yang tampak seperti statis pada televisi tua. Proses penambahan noise ini, yang diulang selama banyak langkah, adalah proses "forward diffusion".

Model kemudian dilatih untuk membalikkan proses ini: diberikan gambar yang bising, ia belajar untuk memprediksi dan menghilangkan noise yang ditambahkan, langkah demi langkah, memulihkan gambar asli. Proses "reverse diffusion" ini, yang diterapkan berulang kali selama puluhan atau ratusan langkah, adalah cara model membersihkan noise—dan yang terpenting, ini juga cara model menghasilkan gambar baru. Dimulai dari noise acak murni, model menerapkan pengetahuan denoising-nya secara iteratif, dipandu oleh perintah teks, hingga gambar yang koheren muncul dari apa yang awalnya merupakan statis yang tidak bermakna.

Inovasi kunci yang membuat Stable Diffusion praktis — lebih efisien daripada model difusi sebelumnya seperti arsitektur DALL-E 2 — adalah bahwa seluruh proses denoising ini terjadi bukan di ruang piksel resolusi penuh gambar, tetapi dalam representasi terkompresi yang disebut ruang laten. Alih-alih bekerja dengan, misalnya, gambar 512×512 piksel yang berisi 786.432 nilai warna individual, model mengompres gambar tersebut menjadi representasi laten yang jauh lebih kecil — biasanya 64×64 — yang menangkap konten semantik penting dari gambar tanpa menyimpan setiap detail piksel. Proses denoising beroperasi pada representasi kompak ini, dan hanya pada akhirnya hasilnya diperluas kembali menjadi gambar piksel resolusi penuh. Kompresi inilah yang membuat Stable Diffusion cukup cepat dan cukup efisien dalam penggunaan memori untuk dijalankan pada perangkat keras konsumen.

Tiga Komponen Inti

1. Variational Autoencoder

Variational Autoencoder, atau VAE, bertanggung jawab atas kompresi dan dekompresi yang memungkinkan difusi laten. Encoder-nya mengambil gambar resolusi penuh dan mengompresnya menjadi representasi laten kompak yang digunakan oleh bagian model lainnya. Decoder-nya mengambil representasi laten yang telah dihilangkan noise-nya dan merekonstruksi gambar resolusi penuh darinya. Kualitas decoder VAE secara langsung memengaruhi ketajaman, detail, dan fidelitas keseluruhan gambar yang dihasilkan, itulah sebabnya komunitas telah menginvestasikan upaya substansial dalam mengembangkan varian VAE yang lebih baik yang menghasilkan kualitas gambar tahap akhir yang lebih baik daripada VAE model aslinya.

2. U-Net Noise Predictor

U-Net adalah neural network yang melakukan pekerjaan penghilangan noise sebenarnya di jantung model. Dengan representasi laten yang bising dan pengkodean teks yang menggambarkan keluaran yang diinginkan, U-Net memprediksi kebisingan yang ada dalam gambar, yaitu prediksi yang digunakan untuk menghilangkan sebagian kebisingan tersebut dan membawa representasi laten selangkah lebih dekat ke gambar yang koheren. Proses ini diulang dalam banyak langkah, dengan U-Net membuat prediksi kebisingan yang semakin halus seiring gambar menjadi lebih jelas. Dalam SD 1.x hingga SDXL, U-Net berfungsi sebagai arsitektur penghilang kebisingan utama, berisi 860 juta parameter dalam bentuk aslinya. Dalam SD 3 dan seterusnya, Stability AI mengganti U-Net dengan arsitektur berbasis transformer yang disebut Multimodal Diffusion Transformer (MMDiT), yang menangani perintah multi-objek dan rendering teks dengan lebih efektif.

3. Text Encoder

Text encoder mengubah perintah yang dapat dibaca manusia — deskripsi kita tentang apa yang ingin kita tampilkan dalam gambar — menjadi representasi matematis, vektor angka, yang dapat digunakan U-Net untuk memandu proses penghilangan kebisingan. Pada SD 1.x dan 2.x, fungsi ini dilakukan oleh encoder teks CLIP, sebuah model yang dilatih untuk menyelaraskan representasi teks dan gambar dalam ruang matematika bersama. Pada SD 3 dan SD 3.5, Stability AI menambahkan encoder teks T5 di samping dua encoder CLIP, secara dramatis meningkatkan kemampuan model untuk menangani perintah kompleks dan multi-bagian serta untuk menampilkan teks yang mudah dibaca dalam gambar yang dihasilkan — kemampuan yang ditangani versi sebelumnya dengan sangat buruk, menghasilkan teks yang kacau atau salah eja setiap kali diminta untuk menyertakan kata-kata dalam gambar.

Text Conditioning: Bagaimana Prompt Menjadi Gambar

Mekanisme di mana prompt teks sebenarnya memandu proses pembuatan gambar disebut classifier-free guidance (CFG), dan ini mendasar untuk memahami cara menggunakan Stable Diffusion secara efektif. Selama pembuatan, model sebenarnya menjalankan proses penghilangan noise dua kali untuk setiap langkah, yaitu sekali dikondisikan pada prompt teks kita (menghasilkan hasil penghilangan noise yang mencerminkan apa yang dijelaskan oleh prompt) dan sekali tanpa pengkondisian apa pun (menghasilkan hasil penghilangan noise yang lebih umum berdasarkan pengetahuan umum model). Prediksi noise akhir adalah interpolasi antara kedua hasil ini, yang diberi bobot oleh parameter skala CFG yang mengontrol seberapa kuat prompt teks memengaruhi output.

Skala CFG yang lebih tinggi berarti prompt memiliki pengaruh lebih besar pada hasilnya, menghasilkan gambar yang lebih sesuai dengan apa yang dijelaskan tetapi dapat menjadi terlalu jenuh atau terlalu tajam secara artifisial. Skala CFG yang lebih rendah memungkinkan model lebih banyak kebebasan kreatif untuk menafsirkan prompt secara longgar, terkadang menghasilkan hasil yang lebih bervariasi secara alami dan menarik secara estetika. Pengguna Stable Diffusion yang berpengalaman mengembangkan intuisi untuk parameter ini, menyesuaikannya berdasarkan jenis prompt dan gaya output yang diinginkan. Petunjuk itu sendiri diperlakukan bukan sebagai spesifikasi yang tepat, melainkan sebagai saran probabilistik. Model telah mempelajari asosiasi statistik antara kata-kata dan konsep visual dari data pelatihannya, dan menggunakan asosiasi tersebut untuk membiaskan proses penghilangan noise ke arah gambar yang sesuai dengan konsep yang dijelaskan. Petunjuk yang lebih panjang dan lebih detail dengan referensi gaya spesifik, nama artis, istilah teknis fotografi, dan pengubah kualitas umumnya menghasilkan keluaran yang lebih terkontrol daripada petunjuk yang pendek dan samar — itulah sebabnya praktik "prompt engineering" menjadi keahlian tersendiri dalam komunitas Stable Diffusion.

Apa yang Dapat Kita Buat dengan Stable Diffusion

Pembuatan teks-ke-gambar adalah mode yang paling sering ditemui orang, yaitu ketik deskripsi, buat gambar. Tetapi inpainting — memodifikasi secara selektif wilayah tertentu dari gambar yang ada — memungkinkan pengguna untuk melakukan pengeditan yang ditargetkan. Potret dengan latar belakang yang mengganggu dapat diganti latar belakangnya sementara subjek tetap tidak tersentuh. Foto produk dapat diubah tekstur permukaannya sementara bentuk dan pencahayaan produk tetap dipertahankan. Lanskap dapat dihilangkan bangunannya dan diganti dengan pemandangan alam. Tingkat kontrol atas pengeditan gambar parsial ini sebelumnya merupakan domain editor foto yang terampil, dan Stable Diffusion membuatnya dapat diakses oleh siapa pun dengan pemahaman dasar tentang alat ini.

Outpainting memperluas gambar melampaui bingkai aslinya, sehingga menghasilkan konten baru yang secara mulus melanjutkan komposisi yang ada. Gambar yang dipotong terlalu rapat dapat diperluas ke segala arah, dengan model menyimpulkan apa yang secara logis akan muncul di luar bingkai asli berdasarkan apa yang sudah ada di dalamnya. Ini sangat berguna untuk membuat komposisi format lebar dari materi sumber yang awalnya sempit.

Generasi image-to-image menggunakan gambar yang sudah ada sebagai titik awal daripada noise murni, sehingga memungkinkan model untuk menghasilkan variasi input yang mempertahankan komposisi umum atau skema warnanya sambil mengubah gaya, tingkat detail, atau konten spesifiknya berdasarkan perintah teks. Sketsa kasar dapat diubah menjadi ilustrasi yang sudah jadi. Foto dapat ditata agar terlihat seperti lukisan cat minyak. Gambar referensi beresolusi rendah dapat diolah kembali menjadi output yang dirender berkualitas tinggi.

Generasi depth-guided menggunakan informasi kedalaman yang diekstrak dari gambar input untuk membatasi tata letak spasial dari output yang dihasilkan, sehingga memastikan bahwa elemen latar depan, latar tengah, dan latar belakang dalam gambar yang dihasilkan mempertahankan posisi relatif yang sama seperti pada referensi, bahkan ketika konten visual berubah sepenuhnya. Hal ini memungkinkan untuk menghasilkan gambar baru yang mempertahankan struktur tiga dimensi suatu adegan sambil mengganti tampilan permukaannya sepenuhnya.

LoRA: Adaptasi Gaya Ringan

LoRA, yang merupakan singkatan dari Low-Rank Adaptation, saat ini merupakan teknik penyempurnaan yang paling banyak digunakan dalam komunitas Stable Diffusion, dan itu bukan tanpa alasan. Teknik ini bekerja dengan mengidentifikasi lapisan model yang paling penting — khususnya lapisan perhatian silang di mana teks dan representasi gambar berinteraksi — dan melatih matriks adaptor kecil yang memodifikasi perilaku lapisan tersebut daripada memodifikasi bobot model secara keseluruhan. Karena matriks adaptor ini jauh lebih kecil daripada model lengkap, file LoRA biasanya 10 hingga 100 kali lebih kecil daripada file checkpoint model lengkap, sehingga cepat diunduh, mudah dibagikan, dan praktis digunakan bahkan untuk pengguna dengan penyimpanan terbatas.

Platform komunitas Civitai menampung ribuan file LoRA yang mencakup berbagai gaya dan subjek yang luar biasa — gaya artistik tertentu, desain karakter tertentu, estetika produk, teknik fotografi, dan banyak lagi. LoRA yang dilatih pada serangkaian ilustrasi karakter anime akan menggeser output model ke arah estetika tersebut saat diaktifkan. LoRA yang dilatih pada fotografi arsitektur akan menghasilkan render arsitektur yang lebih realistis. LoRA diaktifkan dalam sebuah perintah menggunakan sintaks sederhana, dan pengaruhnya dapat diberi bobot secara fraksional, memungkinkan pengguna untuk menggabungkan beberapa LoRA secara bersamaan atau menggabungkan pengaruh gaya LoRA dengan kemampuan umum model dasar.

Aksesibilitas praktis pelatihan LoRA telah menjadikannya titik masuk untuk pengembangan model kustom bagi sebagian besar pengguna. Melatih LoRA yang mumpuni hanya membutuhkan sepuluh hingga tiga puluh gambar referensi, dapat dilakukan dalam satu atau dua jam pada GPU konsumen, dan menghasilkan file yang cukup kecil untuk dibagikan secara bebas di platform komunitas. Aksesibilitas ini telah mendorong pertumbuhan pesat model gaya dan karakter yang dikontribusikan oleh komunitas, yang merupakan salah satu karakteristik utama ekosistem Stable Diffusion.

DreamBooth: Melatih Model dengan Subjek Spesifik

DreamBooth adalah teknik penyempurnaan yang awalnya dikembangkan oleh peneliti Google dan diadaptasi secara luas oleh komunitas Stable Diffusion. Tidak seperti LoRA, yang memodifikasi lapisan perhatian spesifik melalui matriks adaptor kecil, DreamBooth menyempurnakan model lengkap — atau setidaknya sebagian besar darinya — pada sekumpulan gambar yang terkait dengan token unik tertentu. Hasilnya adalah titik pemeriksaan model lengkap yang telah "mempelajari" subjek spesifik, baik itu orang, hewan peliharaan, produk, atau objek.

DreamBooth dapat menghasilkan reproduksi subjek spesifik yang sangat akurat di berbagai konteks. Model DreamBooth yang dilatih pada foto seseorang dapat menghasilkan orang tersebut dalam berbagai pengaturan, pakaian, dan gaya artistik sambil mempertahankan identitas wajah yang konsisten. Model yang dilatih pada suatu produk dapat menempatkan produk tersebut dalam adegan atau gaya fotografi apa pun yang dapat dibayangkan. Teknik ini membutuhkan lebih banyak komputasi daripada pelatihan LoRA dan menghasilkan ukuran file yang lebih besar, tetapi memberikan kedalaman fidelitas subjek yang tidak dapat ditandingi oleh metode yang lebih ringan.

Implementasi DreamBooth asli memerlukan penyempurnaan model lengkap, sehingga membutuhkan komputasi yang mahal dan penyimpanan yang intensif. Pengembangan komunitas selanjutnya memperkenalkan DreamBooth yang dikombinasikan dengan LoRA — sering disebut DB-LoRA — yang menerapkan metodologi pembelajaran subjek DreamBooth sambil hanya memodifikasi matriks adaptor LoRA daripada model lengkap, sehingga secara dramatis mengurangi kebutuhan komputasi dan penyimpanan tanpa mengurangi kualitas output secara proporsional.

Textual Inversion: Menambahkan Konsep Melalui Token

Textual Inversion adalah pendekatan fine-tuning yang paling sederhana dan efisien dalam hal penyimpanan. Alih-alih memodifikasi bobot model sama sekali, ia bekerja sepenuhnya di dalam encoder teks: ia melatih token baru — kata atau simbol pengganti yang awalnya tidak berarti apa pun — untuk mewakili konsep visual yang dipelajari dari serangkaian gambar contoh. Setelah dilatih, embedding ini dapat digunakan dalam prompt untuk memanggil konsep yang diwakilinya, secara efektif memperluas kosakata model dengan konsep baru tanpa mengubah parameter dasarnya.

Karena Textual Inversion hanya memodifikasi satu embedding token dan bukan bobot model apa pun, file yang dihasilkan sangat kecil — seringkali hanya beberapa kilobyte — dan berfungsi dengan model dasar yang kompatibel tanpa memerlukan pelatihan ulang. Hal ini membuat Textual Inversion ideal untuk menambahkan konsep tekstur spesifik, kondisi pencahayaan, atau pengubah gaya sederhana yang dapat diwakili oleh satu token.

ControlNet: Presisi Melalui Panduan Struktural

ControlNet mewakili salah satu perluasan kemampuan paling signifikan dalam ekosistem Stable Diffusion sejak rilis awalnya. Dikembangkan oleh Lvmin Zhang dan Maneesh Agrawala di Stanford, ControlNet adalah tambahan arsitektural — bukan teknik penyempurnaan itu sendiri — yang memungkinkan pengguna untuk mengkondisikan proses pembuatan gambar berdasarkan informasi struktural yang diekstrak dari gambar yang ada, memberikan tingkat kontrol komposisi yang tidak dapat dicapai oleh pembuatan hanya berdasarkan perintah.

Dalam pembuatan Stable Diffusion standar, pengguna dapat mendeskripsikan komposisi yang diinginkan melalui teks, tetapi model menafsirkan deskripsi tersebut secara longgar. Dua kali menjalankan perintah yang sama akan menghasilkan gambar dengan komposisi yang berbeda, pose karakter yang berbeda, penempatan objek yang berbeda. ControlNet memecahkan masalah ini dengan memungkinkan pengguna untuk memberikan referensi struktural — peta tepi yang diekstrak dari foto, kerangka pose manusia yang dideteksi oleh model estimasi pose, peta kedalaman, masker segmentasi, atau representasi struktural lainnya — dan membatasi proses pembuatan untuk menghasilkan gambar yang sesuai dengan templat struktural tersebut sambil menerapkan gaya visual yang dijelaskan oleh perintah teks.

Cara Menggunakan Stable Diffusion

Stable Diffusion dapat diakses melalui beberapa jalur berbeda yang menawarkan kompromi berbeda antara biaya, kontrol, privasi, dan kompleksitas teknis.

Menjalankan Stable Diffusion secara lokal — mengunduh bobot model dan menjalankan antarmuka grafis seperti AUTOMATIC1111 atau ComfyUI di mesin kita sendiri — memberikan tingkat kontrol, privasi, dan efisiensi biaya maksimum. Setelah model diunduh, setiap generasi sepenuhnya gratis, tidak ada batasan penggunaan, tidak ada filter konten selain yang dipilih pengguna untuk diterapkan, dan tidak ada server pihak ketiga yang menerima perintah atau gambar kita. Komprominya adalah kebutuhan akan perangkat keras yang mumpuni, biaya teknis instalasi dan pemeliharaan, dan persyaratan penyimpanan file model yang dapat berkisar dari 2 hingga 15 gigabyte masing-masing.

Layanan GPU cloud seperti RunPod dan Replicate memungkinkan pengguna untuk menjalankan Stable Diffusion pada perangkat keras GPU sewaan, dengan membayar per jam atau per generasi. Ini adalah jalan tengah praktis bagi pengguna yang menginginkan kontrol model penuh dan kemampuan untuk menjalankan fine-tuning komunitas tanpa berinvestasi pada perangkat keras lokal kelas atas. RunPod khususnya banyak disebut dalam komunitas sebagai pilihan yang hemat biaya dan ramah pengguna untuk penyewaan GPU yang secara khusus dioptimalkan untuk beban kerja AI.

DreamStudio, aplikasi web resmi Stability AI, menyediakan akses berbasis browser ke model Stable Diffusion melalui sistem kredit bayar per generasi. Ini adalah titik awal termudah bagi pengguna yang ingin bereksperimen dengan Stable Diffusion tanpa instalasi atau investasi perangkat keras apa pun, meskipun pembatasan konten, biaya kredit, dan opsi kustomisasi yang terbatas membuatnya kurang cocok untuk pekerjaan kreatif yang serius daripada instalasi lokal atau akses GPU cloud.

Platform komunitas seperti Leonardo AI, NightCafe, dan Tensor.Art menawarkan generasi Stable Diffusion yang dihosting dengan berbagai tingkat kustomisasi, alokasi kredit harian gratis, dan tingkatan berlangganan berbayar. Platform ini menangani semua infrastruktur teknis dan menyediakan pilihan model dan fine-tuning komunitas melalui antarmuka yang dipoles, melayani pengguna yang menginginkan fleksibilitas lebih daripada DreamStudio tanpa komitmen instalasi lokal penuh.

Persyaratan Perangkat Keras

Persyaratan perangkat keras untuk menjalankan Stable Diffusion secara lokal adalah salah satu pertimbangan paling penting secara praktis bagi siapa pun yang ingin mengadopsinya. Batasan utamanya adalah VRAM — memori yang tersedia pada kartu grafis — karena bobot model dan tensor perantara yang dihasilkan selama generasi harus muat dalam memori ini secara bersamaan.

Pada ujung spektrum minimum, model SD 1.5 asli dapat berjalan pada GPU dengan VRAM sekecil 2,4 GB menggunakan implementasi yang dioptimalkan, meskipun generasi pada level ini lambat dan dimensi gambar harus tetap kecil. GPU dengan VRAM 4 GB memberikan pengalaman yang layak untuk SD 1.5 pada resolusi asli, dan GPU dengan VRAM 6 hingga 8 GB menangani pengalaman SD 1.5 penuh dengan nyaman dan dapat menjalankan SDXL dengan beberapa optimasi. SDXL dengan kualitas penuh berjalan paling baik dengan VRAM 10 hingga 12 GB, sedangkan SD 3.5 Large, dengan 8 miliar parameter, membutuhkan 16 hingga 24 GB untuk generasi yang nyaman, menempatkannya di wilayah NVIDIA RTX 3090, 4090, atau kartu GPU profesional.

Bagi pengguna tanpa GPU yang mumpuni, Stable Diffusion secara teknis dapat dijalankan pada perangkat keras hanya CPU menggunakan implementasi OpenVINO, tetapi waktu generasi yang diukur dalam menit daripada detik membuat ini tidak praktis untuk pekerjaan kreatif iteratif. Titik ideal bagi sebagian besar pengguna yang menginginkan Stable Diffusion lokal yang mumpuni tanpa membayar harga GPU kelas profesional adalah sistem dengan VRAM 8 hingga 12 GB, yang mencakup SDXL dengan baik dan menangani SD 3.5 Medium dengan kinerja yang wajar.

Advertisement:

Jadi, Stable Diffusion bukan sekadar generator gambar AI. Ini adalah platform terbuka yang menunjukkan, lebih kuat daripada proyek sejenis lainnya, apa yang mungkin terjadi ketika teknologi AI yang canggih dirilis secara bebas ke tangan komunitas global yang terdiri dari seniman, peneliti, dan pengembang.