| Tweet |
|
Topik:
|
Cara Membuat Prompt yang Baik dalam Pembuatan Gambar AI: Memanfaatkan Setiap Alat Secara MaksimalOleh: Hobon.id (10/06/2026)
Ada rasa frustrasi yang hampir dialami setiap orang yang mencoba generator gambar AI. Mereka memiliki gambaran yang jelas dalam pikiran mereka — adegan tertentu, suasana hati tertentu, gaya visual yang tepat — dan mereka mengetik deskripsinya, mengklik hasilkan, dan menerima sesuatu yang secara teknis responsif terhadap apa yang mereka tulis tetapi terasa seperti terjemahan yang dilakukan oleh seseorang yang belum pernah melihat gambar asli dalam pikiran mereka. Warnanya salah. Komposisinya tidak tepat. Gayanya generik padahal mereka menginginkan yang spesifik. Hal yang mereka bayangkan tidak ada di dalam output.Kesenjangan antara apa yang kita bayangkan dan apa yang kita terima bukanlah keterbatasan model AI itu sendiri, setidaknya bukan yang utama. Ini hampir selalu merupakan masalah komunikasi. Generator gambar AI bukanlah pembaca pikiran, dan perintah yang kita tulis adalah satu-satunya informasi yang dimiliki model tentang apa yang kita inginkan. Perbedaan antara output yang biasa-biasa saja dan output yang menakjubkan hampir sepenuhnya ditentukan oleh kualitas instruksi yang kita berikan — dan menulis prompt yang bagus adalah keterampilan yang dapat dipelajari, dipraktikkan, dan disempurnakan dengan cara yang menghasilkan peningkatan dramatis dalam hasil. Advertisement:
Mengapa Petunjuk Lebih Penting daripada ModelSetiap generator gambar AI bekerja dengan menerjemahkan deskripsi teks kita ke dalam representasi visual. Proses penerjemahan ini canggih dan modelnya sangat mumpuni, tetapi mereka bekerja dengan apa pun yang kita berikan. Petunjuk yang samar atau kurang berkembang seperti memberikan sketsa di serbet kepada seorang arsitek dan mengharapkan cetak biru — arsitek dapat membuat asumsi untuk mengisi celah, tetapi asumsi tersebut mungkin tidak sesuai dengan apa yang kita maksudkan. Dinamika yang sama berlaku untuk generator gambar AI: ketika petunjuk kita tidak menentukan apa pun, model membuat pilihan, dan pilihan tersebut mencerminkan pola statistik dalam data pelatihannya daripada visi kreatif kita. Ini berarti bahwa dua orang yang menggunakan model yang sama dengan keterampilan pemberian petunjuk yang berbeda akan mendapatkan hasil yang sangat berbeda. Orang yang telah mengembangkan kosakata penulisan petunjuk mereka—yang tahu cara menentukan pencahayaan, komposisi, media, dan suasana hati dengan tepat—akan secara konsisten menghasilkan gambar yang sesuai dengan visi mereka. Orang yang masih menulis petunjuk tiga kata akan secara konsisten menerima interpretasi generik dari instruksi mereka yang samar. Modelnya sama. Keterampilannya berbeda. Anatomi Prompt Gambar yang KuatStruktur yang paling efektif secara konsisten mengatur informasi dalam urutan berikut, yaitu subjek utama dan apa yang dilakukannya atau bagaimana penampilannya, latar atau lingkungan tempat subjek berada, gaya artistik atau media yang harus ditimbulkan oleh gambar, kondisi pencahayaan dan suasana, deskripsi kualitas teknis, dan spesifikasi negatif apa pun (apa yang harus dikecualikan). Tidak setiap prompt membutuhkan semua elemen ini, dan kepentingan relatifnya bervariasi tergantung pada jenis gambar yang kita buat. Tetapi mengetahui kategori dan mengembangkan kosakata untuk masing-masingnya adalah apa yang memungkinkan kita untuk membangun prompt yang memberikan panduan komprehensif dan tidak ambigu kepada model. Anggaplah prompt sebagai brief kreatif — jenis dokumen yang sama yang akan diberikan klien kepada fotografer atau ilustrator profesional sebelum komisi. Brief kreatif yang baik meminimalkan kemungkinan kesalahan. Brief yang lemah menentukan subjek, suasana, referensi, persyaratan teknis, dan elemen yang harus dihindari. Brief yang lemah menyerahkan sebagian besar hal ini kepada interpretasi praktisi. Hasil dari brief yang lemah adalah karya yang membuat praktisi senang tetapi klien kecewa. Hasil dari arahan yang lemah adalah gambar yang dihasilkan model dengan kompeten tetapi memiliki sedikit kemiripan dengan apa yang dibayangkan oleh pemberi arahan. Mendeskripsikan Subjek dengan TepatBersikap Spesifik Tentang Karakter dan TokohKetika sosok manusia menjadi pusat gambar kita, spesifikasi deskripsi kita secara langsung menentukan spesifikasi hasil akhirnya. Usia, bentuk tubuh, warna dan panjang rambut, warna kulit, gaya dan warna pakaian, postur, ekspresi wajah, dan apa yang dilakukan figur tersebut adalah semua elemen yang dapat kita tentukan. "Seorang wanita berjalan melalui hutan" menjadi jauh lebih bermanfaat sebagai "seorang wanita muda berusia akhir dua puluhan dengan rambut merah keriting, mengenakan jaket hiking hijau dan ransel, menoleh ke belakang dengan ekspresi rasa ingin tahu yang hati-hati." Tingkat detail yang kita butuhkan bergantung pada seberapa sentral figur tersebut dalam gambar dan seberapa spesifik visi kita. Jika figur tersebut merupakan elemen kecil dalam lanskap, deskripsi minimal sudah cukup. Jika figur tersebut adalah subjek dan kita memiliki visi yang jelas tentang bagaimana seharusnya penampilan mereka, detail yang lebih banyak akan memberi kita hasil yang lebih tepat sasaran. Menentukan Tindakan dan InteraksiHubungan antara subjek dan lingkungannya — dan tindakan atau keadaan subjek — secara substansial memengaruhi energi dan makna gambar. Keadaan pasif dan aktif dibaca sangat berbeda: "seorang koki berdiri di dapur" memiliki kualitas visual yang berbeda dari "seorang koki mengaduk pasta di wajan di atas api besar." Setiap kali aksi dalam gambar kita penting, jelaskan secara spesifik daripada membiarkan model secara otomatis berpose netral dan statis. Mendefinisikan Gaya: Kosakata yang Membentuk EstetikaMedia dan Gaya RenderingMenentukan media artistik adalah salah satu tambahan yang paling berdampak yang dapat kita buat untuk hampir semua permintaan. Subjek yang sama yang dirender sebagai lukisan minyak, cat air, sketsa pensil, ilustrasi digital, foto fotorealistik, panel buku komik, cetakan blok kayu, atau rendering 3D akan menghasilkan gambar yang sangat berbeda bahkan ketika setiap elemen lain dari permintaan tersebut identik. Spesifikasi media sangat penting karena model AI yang dilatih pada sejumlah besar data visual telah menyerap karakteristik visual khas dari setiap media secara ekstensif. Ketika kita menyebutkan "lukisan minyak," model tersebut mengacu pada pemahamannya tentang tekstur sapuan kuas, pigmen berlapis, tonalitas yang kaya, dan ciri visual spesifik dari media tersebut. Ketika kita mengatakan "cat air," kita mendapatkan tepi yang lembut, sapuan warna transparan, dan kualitas cahaya yang bercahaya yang menembus kertas. Deskriptor media yang cenderung menghasilkan hasil yang paling andal dan khas meliputi lukisan minyak, cat air, gouache, lukisan akrilik, ilustrasi digital, seni konsep, sketsa pensil, gambar arang, sapuan tinta, cetakan linocut, cetakan risograph, fotografi (dan jenis fotografi spesifik seperti film analog, polaroid, atau format medium), render 3D, sinematik, dan seni piksel. Referensi Gaya Historis dan BudayaSelain medium, periode historis dan konteks budaya dari gaya visual dapat ditentukan dengan presisi yang cukup tinggi. Art Nouveau, Art Deco, Barok, Impresionis, Ekspresionis, Bauhaus, Modern Pertengahan Abad, Konstruktivis Soviet, cetakan kayu Jepang (ukiyo-e), Dinasti Ming, ilustrasi Victoria, seni konsep tahun 1970-an, ilustrasi buku saku fantasi tahun 1980-an — semua referensi ini membawa kosakata visual spesifik yang telah diserap dan dapat direproduksi oleh model. Ketika kita menentukan gaya historis atau budaya, kita secara efektif memberi pengarahan kepada model tentang serangkaian konvensi visual yang komprehensif termasuk kecenderungan palet warna, preferensi komposisi, elemen dekoratif, dan kepekaan estetika keseluruhan dari suatu tradisi. Deskriptor Gaya Genre dan SuasanaDalam gaya visual, deskriptor genre dan suasana membantu membentuk register emosional dan konteks tematik gambar. Istilah-istilah seperti sinematik, dramatis, halus, artistik, minimalis, maksimalis, fantasi gelap, solarpunk, gotik, pastoral, horor barok, nyaman, dan mitologis semuanya mengandung makna yang membentuk bagaimana model tersebut membangun ruang visual, apa yang disertakan dan dikecualikan, serta bagaimana model tersebut menyeimbangkan elemen-elemen di dalam bingkai. Mengontrol Pencahayaan dan AtmosferPencahayaan bisa dibilang merupakan elemen tunggal paling kuat dalam gambar apa pun, dan merupakan salah satu aspek yang paling kurang ditentukan dalam permintaan gambar rata-rata. Adegan yang sama yang diterangi oleh sinar matahari sore keemasan, cahaya mendung yang menyebar, bayangan siang hari yang keras, cahaya lilin, lampu neon, atau cahaya bulan akan menciptakan gambar dengan kualitas emosional, kedalaman bidang, dan hierarki visual yang sangat berbeda. Menentukan pencahayaan secara sengaja akan memungkinkan kita untuk mengkomunikasikan suasana dan karakter visual suatu gambar dengan presisi yang jauh lebih tinggi daripada hanya menggunakan kata-kata suasana hati. Pencahayaan Alami dan Waktu Siang HariCahaya alami pada waktu yang berbeda dalam sehari memiliki karakteristik visual spesifik yang telah dipelajari dan diberi nama oleh fotografer dan pelukis selama berabad-abad. Golden hour — periode sesaat setelah matahari terbit atau sebelum matahari terbenam — menghasilkan cahaya hangat dan terarah dengan bayangan lembut yang panjang dan cahaya yang bercahaya yang secara inheren menyanjung dan hangat secara emosional. Istilah "pencahayaan golden hour" dipahami dengan baik oleh pembuat gambar dan akan secara andal mengubah suhu warna, arah bayangan, dan kehangatan keseluruhan gambar. Blue hour — periode singkat setelah matahari terbenam ketika cahaya tidak langsung terasa sejuk dan menyebar — menghasilkan kualitas yang sama sekali berbeda: tenang, misterius, dan sedikit melankolis. Pencahayaan mendung menyebar dan lembut, mengurangi bayangan yang tajam dan menghasilkan penerangan yang merata yang dapat terasa damai atau datar tergantung pada bagaimana penggunaannya. Cahaya siang hari yang keras menciptakan kontras yang kuat, bayangan yang dalam, dan dapat menghasilkan kualitas emosional yang dramatis atau keras. Menentukan kondisi pencahayaan ini dengan nama — "cahaya golden hour," "cahaya mendung yang menyebar," "sinar matahari siang yang keras," "blue hour sebelum fajar" — mengkomunikasikan informasi visual yang jauh lebih tepat daripada mencoba menggambarkan suasana hati yang ingin Anda bangkitkan secara abstrak. Pencahayaan Buatan dan StudioUntuk potret, produk, dan citra bergaya studio, kosakata fotografi studio menyediakan serangkaian titik referensi yang sangat efektif. Pencahayaan Rembrandt — pengaturan khusus yang menciptakan segitiga kecil cahaya di pipi yang berbayang — menghasilkan kualitas potret klasik dan dramatis. Pencahayaan terpisah membagi wajah menjadi dua bagian cahaya dan bayangan yang sama untuk efek kontras tinggi dan intens. Pencahayaan kupu-kupu menciptakan bayangan kecil di bawah hidung dan dikaitkan dengan fotografi glamor Hollywood klasik. Lampu cincin menghasilkan pantulan cahaya melingkar yang khas di mata dan bahkan iluminasi frontal yang dikaitkan dengan fotografi kecantikan dan tata rias. Di luar potret, istilah-istilah seperti pencahayaan studio, pencahayaan softbox, cahaya pengisi yang menyebar, cahaya tepi dramatis, siluet yang diterangi dari belakang, dan cahaya volumetrik (yang menggambarkan berkas cahaya yang terlihat melalui kabut atau asap atmosfer) semuanya merupakan tambahan yang produktif untuk pertanyaan di mana pencahayaan memainkan peran penting. Atmosfer dan Kondisi LingkunganDi luar sumber cahaya itu sendiri, kondisi lingkungan yang memengaruhi bagaimana cahaya berperilaku di suatu ruang dapat ditentukan untuk menghasilkan efek yang kuat. Kabut dan embun melembutkan tepi, mengurangi kontras di kejauhan, dan menciptakan rasa misteri atau romantis. Kabut tipis di atas lanskap menambah perspektif atmosfer dan rasa kedalaman. Hujan menciptakan pantulan pada permukaan dan kualitas kegelapan jenuh dan sorotan yang khas. Salju menghasilkan iluminasi difus yang terang dan mengurangi kompleksitas visual latar belakang. Partikel debu dalam sinar matahari menciptakan cahaya volumetrik yang terlihat. Masing-masing kondisi ini memiliki kosakata visual yang telah diserap model dari foto dan lukisan, dan penamaan kondisi tersebut menghasilkan hasil yang andal dan mudah dikenali. Komposisi dan Pembingkaian: Mengarahkan KameraJenis dan Jarak BidikanJarak antara kamera yang tersirat dan subjek — apakah gambar tersebut berupa bidikan jarak dekat, potret, bidikan jarak menengah, atau bidikan lebar yang menunjukkan latar — secara dramatis memengaruhi karakter emosional gambar dan informasi apa yang disampaikannya. Bidikan jarak dekat yang ekstrem menekankan tekstur, detail, dan intensitas emosional. Bidikan potret jarak dekat menciptakan keintiman dan memfokuskan perhatian pada wajah. Bidikan jarak menengah menyeimbangkan subjek dengan lingkungan sekitarnya. Bidikan lebar memprioritaskan lingkungan dan suasana daripada detail subjek. Bidikan yang menunjukkan latar memberikan konteks spasial dan dapat mengkomunikasikan skala dan latar secara sekilas. Kosakata untuk jenis-jenis pengambilan gambar ini berasal langsung dari sinematografi, dan dapat diterapkan dengan baik pada pembuatan gambar, seperti close-up ekstrem (ECU), close-up (CU), medium close-up (MCU), medium shot (MS), medium long shot (MLS), long shot (LS), dan extreme wide shot (EWS) adalah semua istilah yang ditanggapi oleh sebagian besar generator gambar modern dengan akurasi yang wajar. Sudut Kamera dan PerspektifSudut pandang dari mana suatu adegan dilihat — dan posisi tersirat kamera atau pengamat relatif terhadap subjek — adalah elemen komposisi lain yang secara signifikan membentuk perasaan suatu gambar. Pengambilan gambar dari sudut rendah, di mana kamera melihat ke atas ke arah subjek, membuat subjek tampak kuat, mengesankan, atau monumental. Pengambilan gambar dari sudut tinggi, melihat ke bawah ke arah subjek, dapat membuat subjek tampak kecil, rentan, atau tidak penting. Sudut pandang setinggi mata terasa netral dan dokumenter. Dutch angle — bingkai miring — menunjukkan kegelisahan, disorientasi, atau ketegangan dramatis. Pandangan mata burung (langsung dari atas) memberikan peta spasial adegan. Pandangan mata cacing (melihat langsung ke atas) dapat menciptakan distorsi surealis atau dramatis. Istilah perspektif juga mencakup deskriptor yang lebih teknis yang ditanggapi dengan baik oleh generator gambar: perspektif paksa (melebih-lebihkan kedalaman melalui trik komposisi), lensa fisheye (distorsi sudut lebar ekstrem), fotografi tilt-shift (fokus selektif yang membuat adegan nyata tampak seperti miniatur), dan fotografi makro (close-up ekstrem dari objek kecil). Aturan Sepertiga dan Keseimbangan KomposisiUntuk gambar di mana kecanggihan komposisi penting, kita dapat merujuk langsung pada prinsip-prinsip komposisi. Penempatan aturan sepertiga — di mana subjek diposisikan di salah satu titik persimpangan dari grid tiga kali tiga mental daripada tepat di tengah — cenderung menghasilkan gambar yang terasa lebih dinamis dan menarik secara visual daripada komposisi yang terpusat. Istilah-istilah seperti "komposisi asimetris," "ruang negatif," "garis penuntun," "pembingkaian di dalam bingkai," dan "keseimbangan visual" semuanya dapat digunakan untuk mendorong model menuju pilihan komposisi yang lebih canggih. Bahasa Warna, Tekstur, dan MaterialPalet warna dan tekstur material adalah dua area di mana bahasa yang tepat dapat secara dramatis mempersempit kesenjangan antara visi kita dan hasil model, namun keduanya secara konsisten kurang ditentukan dalam sebagian besar petunjuk. Spesifikasi Palet WarnaDaripada mendeskripsikan warna individual secara terpisah, menentukan pendekatan palet cenderung menghasilkan hasil yang lebih harmonis dan disengaja secara visual. Istilah seperti "palet monokromatik," "warna analog," "skema warna komplementer," dan "harmoni warna triadik" tidak hanya mengkomunikasikan warna yang ada tetapi juga hubungan di antara warna-warna tersebut. Jenis palet spesifik dengan asosiasi visual yang mapan sangat efektif: "nada bumi yang lembut," "palet pastel," "nada dingin yang jenuh rendah," "warna neon yang cerah," "palet amber dan emas hangat," "hitam dan putih dengan aksen warna tunggal." Kita juga dapat menentukan suhu warna keseluruhan gambar dengan istilah seperti "palet emas hangat," "nada biru dan abu-abu dingin," "palet netral jenuh rendah," dan "pencahayaan hangat versus dingin dengan kontras tinggi." Suhu warna memiliki pengaruh mendalam pada pembacaan emosional suatu gambar — nada hangat cenderung terasa mengundang, nostalgia, dan intim; nada dingin cenderung terasa jauh, klinis, atau melankolis — dan menentukannya secara eksplisit memberi Anda kendali yang andal atas dimensi emosional ini. Deskripsi Material dan PermukaanKetika material dan permukaan tertentu penting untuk gambar kita, menamainya dengan tepat menghasilkan hasil yang jauh lebih baik daripada deskripsi yang samar. "Batu kasar yang dipahat" terbaca sangat berbeda dari "marmer yang dipoles." "Papan kayu ek yang lapuk" lebih informatif daripada "permukaan kayu." "Aluminium yang disikat," "tembaga yang ditempa," "kulit yang retak," "sutra mentah," "beludru yang usang," "kaca buram," dan "glasir keramik yang berkilauan" adalah contoh deskripsi material yang membawa informasi visual spesifik tentang tekstur, interaksi cahaya, warna, dan kualitas permukaan yang dapat dirender secara akurat oleh model ketika diberi istilah yang tepat. Menggunakan Nama Artis dan Referensi Secara EfektifSalah satu teknik paling ampuh dalam penulisan prompt adalah merujuk pada artis, fotografer, ilustrator, pembuat film, atau desainer tertentu yang karyanya memiliki gaya visual yang khas. Karena generator gambar dilatih pada gambar yang diberi anotasi dengan metadata atribusi, banyak di antaranya telah menyerap ciri khas gaya dari pencipta yang berpengaruh dan dapat menerapkan ciri khas tersebut pada konten baru dengan tingkat akurasi yang cukup tinggi. Cara Kerja Referensi ArtisKetika kita menambahkan "dengan gaya [nama artis]" ke sebuah prompt, kita memberi model akses ke representasi ringkas dari kosakata visual artis tersebut — pilihan warna khas mereka, kecenderungan komposisi, kualitas garis, tingkat detail, register emosional, dan preferensi subjek. Referensi artis terkenal dapat menggantikan beberapa paragraf deskripsi gaya, mengkomunikasikan kepekaan visual yang lengkap hanya dalam beberapa kata. Referensi artis yang paling efektif cenderung adalah artis dengan gaya yang sangat khas dan mudah dikenali yang karyanya terwakili dengan baik dalam data pelatihan. Ilustrator seperti Alphonse Mucha (Art Nouveau, garis mengalir organik, batas dekoratif), Egon Schiele (ekspresionis, bersudut, intensitas psikologis), Jean Giraud (Moebius) (garis bersih, fiksi ilmiah, detail arsitektur), N.C. Wyeth (pencahayaan dramatis, ilustrasi petualangan klasik), dan Edward Hopper (cahaya yang mencolok, geometri arsitektur, kesepian perkotaan) semuanya memiliki kosakata visual spesifik yang dapat direproduksi. Fotografer seperti Dorothea Lange, Ansel Adams, Helmut Newton, dan Gordon Parks juga memiliki ciri khas visual yang membawa makna ketika dirujuk. Menggabungkan Beberapa ReferensiSalah satu teknik tingkat lanjut adalah menggabungkan dua atau lebih referensi seniman atau gaya untuk menghasilkan estetika hibrida yang membawa elemen dari masing-masing. "Dalam gaya Moebius dan Hayao Miyazaki" menggabungkan garis yang tepat dan detail arsitektur Moebius dengan naturalisme organik dan kehangatan imajinatif Miyazaki, menghasilkan sesuatu yang tidak akan dihasilkan oleh salah satu referensi saja. "Difoto oleh Ansel Adams dengan gaya Winslow Homer" menggabungkan estetika fotografi lanskap Adams dengan tradisi melukis lanskap Amerika ala Homer. Kombinasi ini paling efektif ketika referensi-referensi tersebut memiliki kosakata visual yang saling melengkapi, bukan bertentangan. Prompt Negatif: Memberi Tahu Model Apa yang Harus DihindariPrompt negatif — menentukan apa yang tidak kita inginkan dalam gambar — adalah salah satu alat paling ampuh untuk menyempurnakan hasil, dan banyak yang kurang memanfaatkannya oleh pemula. Konsepnya sederhana: di samping deskripsi positif tentang apa yang kita inginkan, kita memberikan deskripsi paralel tentang elemen, kualitas, atau artefak yang ingin kita hindari oleh model. Mengapa Prompt Negatif DiperlukanGenerator gambar AI memiliki kecenderungan tertentu yang mencerminkan distribusi data pelatihannya. Misalnya, saat menghasilkan figur manusia, banyak model mengalami kesulitan dengan tangan — mereka mungkin menghasilkan terlalu banyak jari, persendian yang terdistorsi, atau pose yang tidak masuk akal secara anatomi. Saat menghasilkan teks dalam gambar, mereka sering menghasilkan simbol yang tidak terbaca yang terlihat seperti teks daripada kata-kata yang sebenarnya dapat dibaca. Saat menghasilkan banyak orang dalam sebuah adegan, mereka mungkin menghasilkan wajah yang menyatu atau figur dengan hubungan spasial yang tidak jelas. Prompt negatif memungkinkan kita untuk secara eksplisit menolak kecenderungan ini. "Tangan cacat, jari tambahan, anatomi buruk, kualitas rendah, buram" dalam prompt negatif memberi tahu model untuk menghindari masalah spesifik ini selama pembuatan, dan meskipun tidak menjamin hasil yang sempurna, hal itu secara signifikan mengurangi frekuensi munculnya artefak ini. Kosakata Prompt Negatif yang EfektifKosakata untuk prompt negatif mencakup deskripsi artefak spesifik dan indikator kualitas umum. Deskripsi artefak umum meliputi cacat, terdistorsi, rusak, buram, berpiksel, resolusi rendah, tanda air, tanda tangan, terpotong, di luar bingkai, dan duplikat. Indikator kualitas meliputi kualitas rendah, seni buruk, digambar dengan buruk, amatir, jelek, dan proporsi yang salah. Untuk jenis subjek tertentu, prompt negatif yang ditargetkan lebih efektif: untuk potret, "anggota tubuh tambahan, jari tambahan, wajah cacat, mata asimetris" mengatasi masalah yang paling umum; untuk lanskap, "terlalu terang, datar, warna keruh, tampak seperti plastik" mengatasi artefak lanskap yang khas. Banyak pembuat prompt berpengalaman memiliki serangkaian prompt negatif standar yang mereka sertakan dalam semua atau sebagian besar pembuatan prompt mereka sebagai standar kualitas minimum — serangkaian hal-hal yang tidak diinginkan secara umum yang selalu ingin mereka kecualikan. Standar ini dapat mencakup hal-hal seperti "tanda air, teks, tanda tangan, buram, resolusi rendah, artefak jpeg, terlalu terang, kurang terang, pencahayaan datar, fotografi amatir." Teknik Pembobotan dan Penekanan PromptSintaks Attention di Berbagai AlatDalam Stable Diffusion dan alat yang dibangun di atasnya, tanda kurung digunakan untuk meningkatkan bobot suatu istilah dan tanda kurung siku untuk menurunkannya. Satu set tanda kurung (pencahayaan emas hangat) meningkatkan perhatian model terhadap istilah tersebut dengan faktor sekitar 1,1. Tanda kurung ganda ((pencahayaan emas hangat)) meningkatkannya lebih jauh. Tanda kurung rangkap tiga memberikan penekanan yang lebih kuat. Sebaliknya, [nada biru] mengurangi pengaruh nada biru, dan [[nada biru]] menurunkannya lebih jauh. Sintaks ini memungkinkan kendali yang lebih detail atas elemen mana yang diprioritaskan model ketika ada instruksi yang bersaing. Midjourney menggunakan titik dua ganda diikuti oleh angka untuk menentukan bobot relatif dari berbagai bagian prompt. Sintaksis "pencahayaan keemasan hangat::2 bayangan lembut::1" memberi tahu model untuk memberi bobot instruksi pencahayaan keemasan dua kali lebih kuat daripada instruksi bayangan lembut. Bobot negatif juga dimungkinkan: "teks::−1" secara eksplisit memberi tahu Midjourney untuk mengurangi kemungkinan teks muncul dalam gambar. DALL-E 3 dan model baru serupa menangani penekanan secara berbeda — mereka cenderung merespons penekanan dengan baik melalui urutan kata dan pengulangan daripada penanda bobot sintaksis. Menempatkan elemen terpenting di awal perintah dan mengulang istilah kunci dalam frasa yang sedikit berbeda di seluruh perintah dapat secara efektif meningkatkan pengaruhnya pada output tanpa memerlukan sintaksis khusus. Iterasi Cerdas: Proses PenyempurnaanPrinsip Perubahan Variabel TunggalStrategi iterasi yang paling efektif adalah mengubah satu elemen penting dari prompt kita di antara generasi sambil menjaga semua hal lainnya tetap konstan. Jika kita mengubah tiga atau empat hal sekaligus dan hasilnya membaik, kita tidak tahu perubahan mana yang bertanggung jawab. Jika kita mengubah satu hal dan hasilnya membaik atau memburuk, kita mempelajari sesuatu yang spesifik dan dapat ditindaklanjuti tentang bagaimana model tersebut menafsirkan bahasa kita. Mulailah dengan elemen yang paling berdampak terlebih dahulu. Jika gaya atau media secara keseluruhan salah, perbaiki itu sebelum mengkhawatirkan detail spesifik. Jika subjek tidak ditafsirkan dengan benar, sempurnakan deskripsi subjek sebelum menyesuaikan pencahayaan. Mulailah dari yang paling umum hingga yang paling spesifik, dan tahan godaan untuk menambahkan lebih banyak istilah tanpa menghapus atau memodifikasi istilah yang sudah ada. Permintaan yang lebih panjang tidak selalu merupakan permintaan yang lebih baik — menambahkan lebih banyak istilah dapat mengurangi bobot istilah yang paling penting. Menganalisis Apa yang Dikatakan Model kepada KitaSetiap generasi, bahkan yang buruk sekalipun, mengandung informasi yang berguna. Ketika sebuah generasi menghasilkan sesuatu yang jelas salah, seringkali itu memberi tahu kita bagaimana model tersebut menafsirkan bahasa kita. Jika kita meminta "pondok kecil di tepi hutan gelap" dan mendapatkan rumah besar yang dikelilingi pepohonan, model tersebut mungkin memberi bobot yang besar pada "hutan gelap" dan menafsirkan "pondok" secara longgar. Menambahkan lebih banyak spesifikasi pada deskripsi pondok ("pondok batu kecil beratap jerami, satu lantai, taman sederhana") dan mengurangi bobot visual hutan ("hutan gelap kecil di latar belakang") mengatasi masalah spesifik yang diungkapkan oleh generasi yang buruk. Advertisement:
Jadi, menulis prompt yang lebih baik bukanlah keterampilan misterius yang hanya tersedia bagi pengguna yang mahir secara teknis — ini adalah keahlian yang dapat dipelajari dan terus meningkat secara stabil dan andal dengan latihan, perhatian, dan kerangka kerja yang tepat untuk berpikir tentang komunikasi visual.
Artikel Terkait:
|