Постійно воюю з Gemini 2.5 Flash: то руки криві, то шкіра пластмасова, то взагалі не те, що просив. А ще з Veo 3/3.1 — на одному тарифі звук є, на іншому раптом тиша, хоч персонаж губами рухає.
Знайшов кілька «магічних» прийомів: структуровані JSON-промпти для фото і чіткі вказівки для звуку/діалогів у відео. Ділюсь готовими шаблонами, які працюють стабільно станом на січень 2026. Спробуйте — різниця величезна!
📸 Частина 1. Чому Gemini 2.5 Flash потрібен JSON?
Gemini Flash (особливо версії Imagen) набагато краще розуміє структуровані запити. Звичайний опис типу "молода жінка в кафе" часто видає «пластикові» обличчя.
Рішення: Коли ви розбиваєте запит на блоки (суб'єкт, освітлення, камера), ви отримуєте справжній гіперреалізм: пори шкіри, природні тіні та анатомічно коректні руки.
Універсальний JSON-шаблон для фото
Інструкція: На початку запиту пишіть:
Generate image using this exact JSON structure:
json
{
"subject": {
"type": "young woman",
"age": "25-28",
"appearance": "elegant european features, fair skin with subtle freckles, natural makeup, glowing healthy skin",
"hair": "long wavy chestnut hair, soft strands framing face",
"expression": "gentle confident smile, looking directly at camera",
"pose": "standing three-quarter turn, relaxed shoulders, hands gently crossed"
},
"clothing": {
"outfit": "white linen blouse with subtle lace details, high-waisted beige trousers",
"style": "minimalist chic, soft textures, natural folds"
},
"scene": {
"location": "bright modern cafe interior during golden hour",
"background": "soft bokeh city view through large window, wooden tables, coffee cups",
"atmosphere": "warm cozy, inviting"
},
"lighting": {
"main": "golden hour sunlight from side window",
"quality": "soft diffused, warm tones, gentle shadows, subtle rim light",
"color_temperature": "3200-3800K"
},
"camera": {
"type": "professional portrait",
"lens": "85mm prime",
"aperture": "f/1.8",
"depth_of_field": "shallow, creamy bokeh",
"angle": "eye level",
"framing": "medium close-up, head and shoulders"
},
"style": {
"rendering": "hyperrealistic photograph",
"quality": "8K, ultra detailed skin texture, pores, natural imperfections",
"mood": "elegant, serene, authentic",
"aspect_ratio": "3:4"
}
}
## 🔊 Частина 2. Veo 3 / 3.1: Як гарантовано ввімкнути звук?
На Google AI Pro часто стоїть Veo 3.1 Fast — вона швидка, але звук там зазвичай лише фоновий (ambient). На тарифі Ultra доступний повний Veo 3.1 з native audio та lip-sync.
Секрети активації звуку:
Модель: Переконайтеся, що обрано Veo 3.1 (не Fast).
Діалог: У промпті використовуйте конструкції says: або каже:.
Технічні теги: Додайте: with native audio, clear dialogue, perfect lip-sync, no subtitles.
Готовий JSON для відео з діалогом (Veo 3.1)
`{
"request_type": "video_generation",
"model": "Veo 3.1",
"technical_settings": {
"aspect_ratio": "16:9",
"resolution": "1080p",
"framerate": "24fps",
"style": "Cinematic, realistic vlog, high detail"
},
"character": {
"description": "Молода жінка 25 років, привітна, енергійна",
"action": "Дивиться в камеру, жестикулює під час розмови",
"emotion": "Упевнена"
},
"audio_layer": {
"ambient_sound": "Тихий офісний фон",
"voice_properties": "Жіночий голос, чітка дикція",
"lip_sync": true
},
"dialogue_script": [
{
"speaker": "main_character",
"text": "Привіт! Хочеш приборкати штучний інтелект? Gemini — це твоя нова суперсила!",
"timing": "whole clip"
}
]
}`
## Висновок
Використання структур замість хаотичного тексту — це ключ до професійного контенту в 2026 році. Це позбавляє фото "лялькового" вигляду, а відео робить реалістичним.
Більше про ШІ:[ᴀɪ𝟤𝟦ǫ штучний інтелект | Аналітика та інструменти ](https://t.me/ai24q)
Top comments (0)