Gemini 3.5 Flash resmi rilis stabil, Google dorong Flash ke kelas agentic dan coding yang lebih serius hero image

Gemini 3.5 Flash resmi rilis stabil, Google dorong Flash ke kelas agentic dan coding yang lebih serius

Sundie Team author photo

Sundie Team

Sundie Software House

20 Mei 2026
16 min read

Gemini 3.5 Flash kini stabil dan tersedia umum, dengan konteks panjang, output besar, tool, dan harga yang membuat kelas Flash lebih serius untuk agentic dan coding.

Flash sekarang memikul tugas lebih berat

Flash dulu mudah dipahami sebagai jalan pintas mental untuk model Gemini yang harus terasa cepat, hemat, dan praktis. Gemini 3.5 Flash mengubah jalan pintas itu tanpa membuang identitas dasarnya. Google kini menempatkan model ini dalam rilis stabil dan tersedia umum dengan ID model gemini-3.5-flash, dan bagian menariknya bukan hanya bahwa ada model Flash baru. Bagian menariknya adalah beban kerja yang mulai ditempelkan Google pada kelas Flash. Kelas ini masih dimaksudkan efisien, tetapi catatan rilis dan halaman model menempatkannya dekat dengan eksekusi agentic, coding, penggunaan tool, dan pekerjaan jangka panjang. Itu bukan kategori demo chat yang ringan. Itu adalah beban kerja ketika model harus menjaga tujuan, bukti sementara, hasil tool, struktur kode, dan batasan pengguna selama banyak langkah. Dalam konteks seperti itu, label stabil menjadi penting karena menggeser diskusi dari sekadar penasaran ke evaluasi adopsi. Model preview bisa dicoba dengan hati-hati; model yang sudah tersedia umum bisa menjadi target untuk uji produksi, routing, dokumentasi, dan perencanaan operasional. Karena itu rilis ini pantas dibaca lebih pelan daripada sekadar ringkasan launch note. Perubahannya bersifat arsitektural: kategori model yang dikenal efisien mulai diminta masuk ke workflow ketika kontinuitas, penanganan bukti, dan prediktabilitas operasional sama pentingnya dengan waktu respons. Implikasinya, Flash perlu dinilai sebagai bagian dari arsitektur kerja, bukan sekadar opsi cepat dalam daftar model.


Pembacaan dari first principles cukup sederhana: kecepatan baru bernilai ketika bagian lain dari sistem bisa mempercayainya. Jika sebuah model cepat tetapi kehilangan tugas, mengabaikan hasil tool, melupakan batasan awal, atau tidak mampu mengembalikan pekerjaan terstruktur yang cukup lengkap, kemenangan latensi tidak menyelamatkan workflow. Gemini 3.5 Flash menonjol karena Google memasangkan identitas Flash dengan jendela input 1 juta token, batas output 65k, permukaan tool yang luas, dukungan thinking, dan tier harga resmi. Itu tidak membuktikan bahwa setiap agent atau coding assistant harus otomatis memakai model ini, dan karena itu artikel ini tidak memakai klaim benchmark yang tidak didukung sumber. Namun fakta tersebut berarti builder kini memiliki kandidat kelas Flash yang stabil untuk diuji pada tugas utuh, bukan hanya prompt tunggal. Pertanyaannya bukan lagi sekadar apakah Flash cepat, melainkan apakah model ini bisa menahan state yang cukup, membuat progres yang cukup, dan tetap ekonomis sepanjang putaran membaca, memutuskan, memanggil tool, memeriksa hasil, lalu menjelaskan perubahan. Itu pekerjaan yang jauh lebih berat daripada makna Flash sebelumnya. Bagi pembaca yang membandingkan model, pembedaan ini menjaga artikel tetap membumi. Model diperlakukan sebagai komponen engineering, bukan sebagai persona. Pertanyaannya adalah seberapa banyak kerja berguna yang bisa ia pikul di dalam sistem nyata, dengan batasan terlihat dan mode gagal diukur.

Mulai dari beban kerjanya

Kerja agentic bukan satu prompt dengan jawaban cerdik di akhir. Ia adalah sebuah putaran. Sistem membaca keadaan saat ini, memilih tindakan, memanggil tool, menerima hasil, membandingkan hasil itu dengan tujuan, lalu menentukan apakah harus lanjut, berhenti, meminta klarifikasi, atau memperbaiki kesalahan. Banyak kegagalan dalam putaran seperti ini tidak muncul sebagai satu kesalahan besar yang dramatis. Kegagalannya sering berupa drift kecil: model berhenti memperhatikan instruksi sebelumnya, memperlakukan hasil tool yang parsial sebagai hasil lengkap, mengulang pekerjaan yang sudah selesai, atau memberi jawaban final yang percaya diri sebelum lingkungan benar-benar beres. Karena itu performa agentic tidak bisa dinilai hanya dari seberapa rapi satu respons terdengar. Agent yang berguna perlu memori terhadap tugas, ruang penalaran yang cukup untuk mengevaluasi cabang keputusan, dan disiplin untuk membiarkan bukti eksternal mengoreksi rencananya. Jadi, posisi Gemini 3.5 Flash untuk eksekusi agentic baru bermakna jika diuji di dalam putaran itu, dengan state yang berantakan, retrieval, tool, dan jalur pemulihan ikut disertakan. Dengan cara pandang ini, evaluasi agentic menjadi lebih mekanis dan tidak terlalu teatrikal. Model perlu diamati pada setiap handoff, terutama ketika lingkungan berubah. Jika ia mampu menjaga tujuan tetap stabil sambil menerima koreksi dari tool, sistem membangun kepercayaan langkah demi langkah. Di titik ini, kualitas utama bukan pesona jawaban, melainkan konsistensi perilaku saat tugas bergerak dari langkah ke langkah.


Kerja coding punya bentuk yang sama, hanya state-nya sering lebih ketat. Model mungkin perlu membaca repository, memahami laporan bug, mempertahankan perilaku yang sudah ada, mengusulkan patch, menjelaskan mengapa patch itu dibatasi, dan menalar hasil test atau build. Unit manfaatnya bukan potongan kode pendek; biasanya ia adalah perubahan lengkap dengan konteks. Konteks panjang membantu karena informasi relevan bisa tersebar di dokumentasi, konfigurasi, source file, stack trace, keputusan lama, dan batasan pengguna. Batas output besar membantu karena jawaban coding yang serius sering butuh rencana, diff, catatan risiko, dan verifikasi, bukan beberapa baris completion. Akses tool membantu karena model tidak seharusnya pura-pura tahu keadaan repository ketika platform bisa memberinya jalur untuk membaca file atau menjalankan code execution. Stabilitas membantu karena tim butuh target yang tidak terasa seperti preview sementara. Dari first principles, agentic coding membutuhkan semua bagian ini sekaligus: konteks, ruang output, tool, dan identitas API yang dapat diandalkan. Flash sekarang perlu dinilai terhadap kombinasi kebutuhan tersebut. Karena itu uji berskala repository lebih terbuka daripada puzzle coding terpisah. Proyek nyata berisi kebiasaan penamaan, kompromi lama, asumsi yang setengah terdokumentasi, dan test yang menyampaikan maksud secara tidak langsung. Model yang mampu menavigasi kondisi itu melakukan lebih dari sekadar menulis sintaks. Untuk coding, ukuran kedewasaannya muncul ketika model memahami maksud proyek sebelum menyentuh baris kode berikutnya.

Angkanya menunjukkan arah

Gemini 3.5 Flash mendukung batas input 1.048.576 token dan batas output 65.536 token. Angka ini sebaiknya tidak dibaca sebagai undangan untuk menempelkan semuanya ke setiap request. Lebih tepat, angka itu adalah ruang kepala desain. Jendela input 1 juta token memberi model ruang untuk melihat lebih banyak bagian tugas sebelum bertindak: banyak file, dokumen panjang, log, percakapan, spesifikasi, atau bukti hasil retrieval. Batas output 65k memberi ruang untuk mengembalikan pekerjaan terstruktur yang lebih besar: rencana migrasi, penjelasan patch yang detail, trace penalaran multi-file yang ditulis untuk manusia, atau jawaban panjang yang tidak harus memadatkan kualifikasi penting menjadi satu paragraf. Untuk sistem agentic, ini penting karena pemotongan konteks bukan hanya masalah format. Jika model tidak melihat input yang cukup, ia bisa mengoptimalkan detail lokal yang salah. Jika model tidak bisa mengeluarkan output yang cukup, ia bisa melewatkan pemeriksaan dan catatan handoff yang membuat langkah berikutnya aman. Ruang kepala yang sama juga bisa mengurangi prompt engineering yang canggung. Alih-alih memadatkan semua file secara agresif dan kehilangan nuansa, sistem dapat mempertahankan lebih banyak bahan sumber lalu membiarkan retrieval atau ranking menentukan bagian yang layak diperhatikan. Batasnya tetap ada, tetapi desainnya tidak sesempit sebelumnya. Dengan ruang sebesar itu, disiplin memilih konteks menjadi sama pentingnya dengan kemampuan membawa konteks panjang.


Campuran input yang didukung juga mengarah ke workflow praktis, bukan prompt benchmark yang bersih. Google mencantumkan teks, gambar, video, audio, dan PDF sebagai input yang didukung untuk Gemini 3.5 Flash, dengan output teks. Artinya model ini bisa dipertimbangkan untuk sistem ketika bukti datang dalam format yang tidak seragam: dokumen PDF, screenshot, transkrip, rekaman meeting, aset desain, file kode, atau dokumen internal yang panjang. Daftar kapabilitas platform sama pentingnya untuk sudut first-principles. Halaman model mencantumkan dukungan untuk Batch API, caching, code execution, file search, Flex inference, function calling, grounding Maps, grounding Search, structured outputs, URL context, dan Priority inference, bersama thinking. Tidak satu pun otomatis membuat aplikasi reliabel. Tetapi semua itu memberi builder bahan untuk membuat reliabilitas jika workflow dirancang dengan hati-hati: ambil fakta terbaru alih-alih menebak, panggil function dengan schema, gunakan structured output untuk sistem downstream, cache konteks yang berulang, dan pisahkan pekerjaan offline dari jalur latensi yang berhadapan dengan pengguna. Rilis ini menarik karena semua bagian itu berada di balik ID model Flash yang stabil. Di sinilah disiplin produk tetap penting. Tool perlu dibuka dengan schema yang jelas, izin, logging, dan ekspektasi rollback. Model dapat memilih serta menjelaskan tindakan, tetapi aplikasi di sekelilingnya tetap menentukan apa yang diizinkan, apa yang diaudit, dan apa yang harus menunggu manusia.

Stabil bukan berarti tanpa batas

Stabil tidak boleh disamakan dengan serba bisa. Halaman model resmi mencantumkan batasan yang penting untuk desain produk. Computer Use belum didukung untuk Gemini 3.5 Flash saat ini, dan halaman yang sama mencantumkan audio generation, image generation, serta Live API sebagai fitur yang tidak didukung. Catatan seperti ini bukan footnote kecil jika pengalaman yang direncanakan bergantung pada kemampuan tersebut. Tim yang membangun agent untuk mengendalikan browser atau desktop tidak boleh membaca bahasa agentic di sekitar Flash lalu menganggap model ini sendiri menyediakan lapisan kontrol itu. Tim yang membangun generator multimodal juga tidak boleh menganggap input multimodal berarti output bisa dihasilkan dalam semua media. Stabil berarti model ini tersedia umum sebagai target API; stabil tidak menghapus batas fitur dan tidak menggantikan arsitektur sistem di sekelilingnya. Adopsi yang baik dimulai dengan menggambar garis itu secara jelas, karena kesalahan yang mahal adalah merancang produk berdasarkan kemampuan tersirat lalu baru terlambat menyadari bahwa kemampuan itu berada di model lain, API lain, atau lapisan otomasi terpisah. Menyatakan batas ini juga melindungi model dari evaluasi yang tidak adil. Jika workflow membutuhkan kontrol desktop langsung, pembuatan gambar native, atau interaksi suara live, kegagalan mungkin berasal dari pemilihan permukaan kapabilitas yang salah, bukan dari kualitas reasoning model. Pencocokan yang benar adalah bagian dari pengujian yang adil.


Knowledge cutoff adalah batas lain. Google mencantumkan Gemini 3.5 Flash dengan knowledge cutoff Januari 2025, dan itu penting setiap kali tugas bergantung pada fakta terbaru. Respons yang tepat bukan menganggap model lemah; respons yang tepat adalah memperlakukan retrieval dan grounding sebagai bagian desain. Untuk dokumentasi terbaru, harga, fakta pasar, pembaruan hukum, versi dependency, atau status operasional, sistem harus membawa bukti segar ke dalam konteks melalui search grounding, URL context, file search, atau jalur retrieval tepercaya lain. Model kemudian bisa menalar materi tersebut, bukan berhalusinasi dari memori lama. Ini sangat penting untuk agent karena agent sering mengambil tindakan, dan tindakan berdasarkan fakta usang bisa lebih buruk daripada jawaban chat yang salah. Secara praktis, Gemini 3.5 Flash terlihat paling jelas untuk penalaran teks, bantuan coding, pemanggilan tool terstruktur, analisis berbasis search grounding, pekerjaan berbasis file, dan perencanaan long-context. Ia terlihat kurang jelas ketika kebutuhan yang hilang adalah kontrol komputer langsung, interaksi live latensi rendah, atau native media generation. Untuk informasi terkini, sikap desain ini sebaiknya eksplisit di produk, bukan hanya disembunyikan di prompt. Pengguna dan operator perlu tahu kapan jawaban didukung bukti segar, kapan ia menalar file yang diberikan, dan kapan ia hanya mengandalkan memori model. Batas memori ini membuat grounding bukan aksesori, melainkan mekanisme keselamatan sebelum model dipakai mengambil keputusan.

Harga menentukan tempat Flash

Harga adalah bagian dari bentuk produk, bukan detail finance yang terpisah. Google mencantumkan harga paid standar Gemini 3.5 Flash sebesar 1,50 dolar per juta token input dan 9,00 dolar per juta token output, termasuk thinking output. Batch pricing dicantumkan sebesar 0,75 dolar per juta token input dan 4,50 dolar per juta token output. Flex pricing juga dicantumkan sebesar 0,75 dolar input dan 4,50 dolar output per juta token, sementara Priority pricing lebih tinggi pada 2,70 dolar input dan 16,20 dolar output per juta token. Poin pentingnya bukan apakah satu angka terlihat bagus sendirian. Poin pentingnya adalah model stabil yang sama bisa ditempatkan ke jalur operasional yang berbeda. Pekerjaan analisis offline yang panjang punya ekonomi dan urgensi berbeda dari coding assistant yang berhadapan dengan pengguna. Audit repository malam hari punya kebutuhan berbeda dari agent interaktif yang menunggu respons manusia. Halaman pricing pada dasarnya memberi sinyal agar builder merutekan kerja berdasarkan latensi, reliabilitas, dan kebutuhan throughput. Pandangan biaya ini sangat relevan untuk penggunaan long-context, ketika ukuran input dan panjang output bisa membesar diam-diam. Model yang hemat untuk prompt pendek bisa menjadi mahal jika setiap tugas membawa riwayat yang tidak perlu. Caching, disiplin retrieval, dan anggaran output menjadi bagian dari desain editorial serta engineering.


Pola routing seperti itu lebih cocok dengan identitas Flash daripada memperlakukan model sebagai satu endpoint universal. Pekerjaan besar yang bisa menunggu mungkin cocok untuk Batch ketika workflow tahan terhadap pemrosesan offline. Pekerjaan yang bisa menukar karakteristik ketersediaan demi biaya mungkin cocok untuk Flex. Tugas yang berhadapan dengan pengguna, ketika perilaku layanan lebih penting, mungkin layak memakai Priority, terutama jika model melakukan penalaran long-context yang mahal di permukaan produk yang latensinya terlihat. Penggunaan paid standar bisa menjadi jalur tengah untuk evaluasi dan deployment produksi biasa. ID model yang stabil penting di sini karena routing sulit dipelihara jika target dasarnya terasa sementara. Setelah target model stabil, tim bisa membangun pengukuran di sekelilingnya: biaya per workflow selesai, distribusi panjang output, cache hit rate, retry rate, keberhasilan tool call, dan frekuensi handoff ke manusia. Itulah cara yang lebih matang untuk memikirkan Flash. Pertanyaannya bukan hanya apakah satu prompt murah. Pertanyaannya adalah apakah tugas lengkap selesai pada tingkat biaya dan reliabilitas yang bisa diterima produk. Pengukuran juga perlu memperlakukan kegagalan sebagai data utama. Run yang murah tetapi memerlukan retry berulang, cleanup manual, atau rekonstruksi oleh manusia tidak benar-benar murah. Jalur yang lebih mahal bisa masuk akal jika mengurangi tugas terbengkalai, handoff rusak, atau waktu review tersembunyi.

Apa yang perlu diperhatikan berikutnya

Pertanyaan praktisnya sekarang adalah apakah tim akan memperlakukan Gemini 3.5 Flash sebagai kandidat workhorse default untuk agent serius dan coding assistant. Permukaannya cukup lengkap untuk layak diuji: input panjang, output besar, thinking, function calling, code execution, search grounding, file search, structured outputs, caching, dan nama API yang stabil. Namun evaluasi seharusnya dibangun di sekitar workflow yang selesai, bukan kesan pertama. Uji yang baik memberi model repository atau knowledge base nyata, memasukkan instruksi yang tidak lengkap atau saling bertabrakan, mewajibkan tool call, lalu mengukur apakah model menyadari informasi yang hilang sebelum bertindak. Uji lain yang baik memeriksa bagaimana model menangani konteks panjang ketika hanya sebagian kecil yang relevan. Apakah ia menemukan bukti yang tepat, atau hanya merangkum bagian yang jelas dan melewatkan batasan yang terkubur di tengah? Untuk coding, ukuran yang berguna bukan apakah model bisa menulis kode yang terlihat masuk akal. Ukurannya adalah apakah perubahan itu terarah, dijelaskan, bisa diuji, dan konsisten dengan proyek di sekitarnya. Pengujian seperti itu juga memperlihatkan apakah konteks panjang digunakan dengan cerdas. Model tidak cukup hanya tahan terhadap jendela besar; ia harus memprioritaskan bukti yang tepat di dalamnya. Hasil yang baik akan terasa selektif, grounded, dan spesifik, bukan rangkuman luas dari semua materi. Karena itu evaluasi terbaik harus membuat model memilih, menyaring, dan membuktikan prioritasnya, bukan hanya menulis rangkuman panjang dalam kondisi yang mirip produksi.


Sinyal terkuat untuk diperhatikan adalah reliabilitas dari waktu ke waktu. Agent dan coding assistant biasanya dinilai setelah dipakai berulang, ketika rasa baru hilang dan biaya cleanup mulai terlihat. Apakah model menjaga instruksi tetap stabil setelah menerima hasil tool? Apakah ia pulih ketika command gagal? Apakah ia menghasilkan structured output yang bisa diparse sistem downstream? Apakah ia meminta izin pada batas yang tepat, bukan mengarang otoritas? Apakah batas output panjang berubah menjadi detail yang berguna, atau hanya menjadi verbosity yang tidak perlu? Pertanyaan seperti itulah yang menentukan apakah Gemini 3.5 Flash hanya model efisien dengan limit mengesankan atau benar-benar fondasi praktis untuk pekerjaan agentic serius. Rilis ini membuat kemungkinan kedua lebih masuk akal, tetapi tidak menghapus kebutuhan pengujian lokal. Flash tetap kelas yang efisien. Pergeserannya adalah Google kini meminta kelas itu membawa memori, tool, dan penalaran berkelanjutan, bukan hanya jawaban cepat. Jika kebiasaan itu bertahan, rilis stabil menjadi lebih dari label versi. Ia menjadi titik praktis untuk membangun prompt, evaluation set, kebijakan routing, dan ekspektasi internal. Jika tidak, limit besar tetap berguna, tetapi model lebih cocok ditempatkan pada jalur yang sempit. Pada akhirnya, kebiasaan kecil seperti pulih dari gagal dan menahan diri sebelum bertindak menentukan nilai stabilnya dalam pemakaian berulang nyata.

Sumber dan catatan baca

Update ini berdasarkan sumber resmi Google: catatan Google AI for Developers tentang ketersediaan Gemini 3.5 Flash, halaman model Gemini, dan halaman harga Gemini API. Artikel ini mempertahankan fakta yang sudah diverifikasi dari sumber tersebut: Gemini 3.5 Flash stabil dan tersedia umum, ID modelnya gemini-3.5-flash, batas input context adalah 1.048.576 token, batas output adalah 65.536 token, knowledge cutoff adalah Januari 2025, model ini diposisikan untuk eksekusi agentic, coding, tool, dan pekerjaan jangka panjang, serta tier harga berasal dari halaman pricing resmi. Link sumber dipertahankan sebagai teks tertaut, bukan URL mentah yang terlihat, agar halaman terbit tetap nyaman dibaca. Tujuan update ini bukan menyalin seluruh dokumentasi, melainkan menjelaskan mengapa fakta-fakta tersebut penting ketika builder mengevaluasi model Flash yang stabil untuk workflow nyata, bukan prompt tunggal. Rewrite ini juga mempertahankan sudut model-focused first-principles dan tidak memaksakan framing bisnis Sundie. Pilihan sumber seperti ini juga menjadi bagian dari perbaikan keterbacaan artikel. Update mempertahankan referensi yang mudah diikuti tanpa mengubah bagian akhir menjadi tumpukan alamat mentah. Pembaca tetap bisa menelusuri bukti, sementara isi utama fokus pada interpretasi dan konsekuensi praktis. Bagian sumber ini juga sengaja praktis: pembaca memperoleh jalur verifikasi tanpa kehilangan alur utama artikel. Ketiga halaman itu dibaca bersama karena availability note menjelaskan status rilis, model page memberi batas teknis, dan pricing page menentukan asumsi biaya. Ini menjaga pembacaan tetap jujur.


Artikel ini sengaja menghindari klaim benchmark karena kumpulan sumber yang dipakai untuk update ini tidak menyertakan angka benchmark resmi yang layak diulang sebagai bukti. Pembatasan seperti itu penting. Rilis model sering menarik pernyataan kabur tentang lebih cepat, lebih pintar, atau lebih baik untuk developer, tetapi tugas editorial yang berguna adalah memisahkan fakta terverifikasi dari kesimpulan tersirat. Fakta yang terverifikasi sudah cukup untuk mendukung argumen yang kuat: ketersediaan stabil mengubah kepercayaan deployment, konteks panjang mengubah ukuran tugas yang layak diuji, output besar mengubah kelengkapan handoff, dukungan tool mengubah cara sistem bisa dirancang, dan tier harga mengubah tempat model secara operasional. Klaim tersebut tidak membutuhkan leaderboard. Klaim tersebut membutuhkan pembacaan hati-hati terhadap batas model, permukaan kapabilitas, fitur yang tidak didukung, dan struktur biaya. Untuk pembaca yang menentukan langkah berikutnya, rekomendasinya praktis, bukan promosi: uji Gemini 3.5 Flash terhadap workflow utuh, sertakan retrieval dan tool call ketika freshness penting, ukur kualitas penyelesaian dan biaya, lalu perlakukan kemampuan yang tidak didukung sebagai batas arsitektur, bukan detail yang bisa dibereskan belakangan. Dengan kata lain, artikel ini sengaja konservatif soal bukti dan lebih luas dalam penalaran. Ia menjelaskan apa yang dibuat masuk akal oleh fakta resmi, di mana fakta itu berhenti, dan bagaimana tim sebaiknya menguji celahnya. Keseimbangan itu lebih berguna daripada hype ataupun penolakan.

######