Дизайн с помощью ИИ: протестировал 35 модели с сгенерировал 138 картинок

Я сгенерировал одну и ту же задачу 38 разными агентами/моделями, и показываю вам 150 итоговых картинок. Разница в стоимости между самым дорогим и дешевым вариантами — 410 раз.

У этого поста есть еще версия на английском: mikeozornin.ru/blog/all/llm-and-ui-design-en

Иногда коллеги, часто не дизайнеры, после анонсов всяких Клод-дизайнов, спрашивают каково оно. Как оно дизайнит, что это вообще. Насколько хороший дизайн можно ожидать, можно ли взять дизайн-систему и как потом довести до продакшена. Возможно, они хотят услышать, что нейросети заменят не только их, разработчиков, но и дизайнеров тоже, — тогда мы вместе выпиливать столы, жарить кофе или работать курьерами.

Я решил проверить, как дела с ИИ-дизайном обстоят на начало мая 2026 года. Ситуацию быстро меняется, через полгода всё это будет уже неактуально, но сейчас вот так.

1 План эксперимента

Я опишу план эксперимента: процедуру и ограничения, чтобы вы могли во-первых, понять, насколько можно верить результатам, во-вторых, могли провалидировать или повторить их самостоятельно.

TL;DR; Агенты рисовали три экрана: десктоп, мобильный и промостраницу через Paper MCP.

1.1 Процедура

Я дал одну и ту же задачу 34-м разным агентами + моделями. Задача звучала как «сделай три экрана для одного и того же продукта»: десктопный экран, мобильный экран и промостраницу. В качестве продукта взял свою рецептилку и скормил агентам текст со страницы about.

Я взял все популярные агенты и модели, которые сейчас представляю интерес.

Агенты:

Агенты основных вендоров моделей: Claude Code, Codex, даже Antigravity
Самый популярный независимый закрытый агент рынке: Cursor
Два самых популярных открытых агента (и единственные на сейчас, которые заслуживают внимания): Opencode и Kilo Code.

Забегая вперед скажу, что в этой задаче агент не был принципиально важен.

Модели использовались как в нативных провайдерах, так и сторонних через Openrouter. Модели:

Флагманские модели американских лаб: Opus 4.7, Sonnet 4.6, Haiku 4.5, GPT 5.5 и 5.4, Gemini 3.1 Pro.
Модели Cursor Auto, Composer 2 и Composer 2.5, а также нишевые игроки типа Grok 4.3,
Все популярные китайские модели: Qwen 3.7, Qwen 3.6 Max Preview (и более старая Qwen3.5 397B A17B), GLM 5.1, MiniMax 2.7, DeepSeek V4 Pro, Kimi 2.6.

Всем моделям на входе передавалось задание в файле, оно было одинаковым,отличался только адрес файла — каждой модели выдавался свежий файл Paper, чтобы исключить любое влияние предыдущих запусков.

Полный промт для Пейпера ниже (вариант для фигмы отличался только сменой инструмента и ссылки).

I am creating a design for a product.

# Task
Create new pages:
1. A desktop screen interface — choose the main screen and design it. Screen width: 1400px.
2. A recipe screen interface for mobile. You need to design a recipe screen. Screen width: 375px.
3. A promo page describing the product. Screen width: 1400px.

# Where to create it and expected result
Where to create: TODO

If the mockups are long, you can make a tall frame/artboard/layout. You do not have to fit standard screen proportions.

Use Paper MCP to create the design.

Use English for the content inside the mockups.

You can use pregenerated images for illustations: '/Users/mike/work/git-repos/projects/ai workshops/design with ai-tmp'. If you have built-in tools for drawing images, you can use them too.

Below is the product information, which also describes the product capabilities.

# Product information

```
Recipe Scaler — app for those who cook
It reliably stores your recipes, helps you cook, works on your phone and computer, even offline.

Access from phone and computer
You will have access to your recipes both on your phone and computer. The apps will sync automatically, even from offline.
On each platform, the web application uses familiar ways of working: hotkeys on the computer, and standard gesture controls on the phone.
On the phone it works as PWA — install it on your home screen and you won't tell the difference from other apps.

Recalculate recipes for different serving sizes
This is where the app started: recalculating recipes for different serving sizes.
When recalculating, not only the ingredient list is updated, but also the recipe text.

Cooking assistance
The app will help you cook: it won't turn off the screen while cooking, will track time and even send push notifications. Timers are, of course, available on the computer too.

Shopping list
Add ingredients to your shopping list one by one from a recipe, or add the whole recipe at once.
Mark purchased items, sort the list the way you like, and share the list with the person going to the store.

Automagical recipe import
Recipe Scaler can import a recipe from text, a single link, or multiple links at once.
You can also upload a file in almost any text format and even photos of pages from a cookbook, notebook, or handwritten recipe journal.

AI assistant for recipes
If something goes wrong while you cook, the AI assistant can help you save the dish and figure out what to do next.
It can also explain the recipe, suggest the next step, and point out the equipment you may need.
It's like having a chef always at your fingertips, ready to answer your questions.

Discover section
Find new recipes in Discover.
Explore interesting authors, save recipes to your collection, and build your own shortlist of the best finds.

Health-friendly: nutrition calculation
Recipe Scaler will calculate the nutritional value (Kcal, protein, fat, carbs) for a dish and let you view it conveniently: for the entire dish, per 100 grams, or per serving.
If artificial intelligence makes a mistake in the numbers, you can always correct the nutritional value of the needed ingredient.

Cookbook
Download a public recipe collection (your own or someone else's) as a beautifully formatted PDF.
The cookbook includes recipes with photos, ingredients, and cooking instructions.

Telegram bot
Send the bot a recipe text or a link to it and the bot will save the recipe to your account.

Chrome extension for quick import
Install the Recipe Scaler Importer extension and import the recipe into your account in one click.

AI assistant integration
Connect your AI assistant to recipes. It can search recipes, add new ones, or help you cook the way you're used to: in chat, by voice. To connect, use the link: recipe-scaler.ru/mcp
For techies: yes, this is an MCP server.

Careful handling of your data
We are paranoid about your privacy.
The app works without sign-up: we don't know your email or your Google login. Even Telegram is only needed for saving recipes. Don't want it? Don't use it.
We don't use trackers or product analytics.
We don't allow AI models to train on your recipes.
Data export and an API are available, so we don't hold your data hostage.
More details: recipe-scaler.ru/#/privacy

If we've convinced you to try:
Go to app

If we haven't convinced you:
Write what's missing

Made by Mikhail Ozornin with Cursor. App idea inspired by app by Roman Shamin.
© Mikhail Ozornin, 2025

1.2 Особенности эксперимента

Моделям были даны базовые ограничения и инструкции, не было никаких уточнений по стилю, дизайн-системе и прочему. На уточняющие вопросы я не отвечал, скипал их. Вмешательства в процессе не было, максимум — если агент чего-то ждал, я просил начать или продолжить.
Все модели, кроме Опуса 4.7 работали на максимально возможной установке ризонинга или параметра его замещающего (эффорт для клод кода).
Я специально не давал пожеланий по стилю, не прикладывал никакую дизайн-систему, не описывал более важные и менее важные сценарии. Мне хотелось проверить не что я смогу задизайнить с ллм, а что сможет сам агент.
Все тексты были на английском. Это небольшой чит для моделей — хороших шрифтов для английского заметно больше, чем для кириллицы. С кириллицей было бы похуже, я думаю. И шрифтовой выбор был бы более примитивный, и вообще смело бы выбрали шрифты, в которых вообще не бывает кириллицы.
Для дизайна использовался Paper MCP, в качестве резервного варианта — Figma MCP. Paper MCP работает лучше, быстрее и открыт к большему числу агентов. Фигма не позволяет открытым агентам Опенкод и Кило с ними работать. С Figma MCP я тоже проверил, просто запусти вариантов поменьше.
Чтобы сравнение было честнее, я не чинил макеты руками, максимум — изредка растягивал фрейм, если агент сделал артборд меньше собственного контента. Обидно было видеть, что вот же оно.

1.3 Формальные цели

Что я хотел посмотреть и проверить:

Результат: насколько сделанные макеты вообще похожи на решение задачи, насколько результат можно использовать в работе, насколько красиво, аккуратно и в целом хорошо.
Внутренности: насколько чисто сверстано внутри, хочется ли помыть после этого руки.
Что по стоимости решения.
Насколько сильно результат зависит от агента.
Насколько сильно результат зависит от уровня ризонинга.

В целом я хотел понять, какие модели и агенты имеет смысле для чего-то использовать, а какие не имеет.

2 Результаты

Разрыв между моделями огромный — некоторые верстали интересно и красиво. Другие верстали нейрослоп в худшем его понимании, третьи — вообще не могли справиться с тулами и выдавали сломанный макет.

Лучший результат (всё — Опус 4.7 xhigh):

Худший результат (Хайку, Квен 3.5 и одна из итераций Дипсика)

paper__opencode__deepseek-v4-pro-2__all@2x.png

Остальные находятся где-то между. Ниже будет табличка с результатами, а пока поделюсь впечатлениями.

2.1 Качество результата

Модели разбились на четыре категории:

Фенси-дизайн, из которого можно выжать что-то интересное
Такая модель один — Opus 4.7. Каждым этажом и микроформатом видно, что она выпендривается. Самые интересные и сложные промостраницы. Единственные промостраницы, которые не сверстаны как растянутая мобилка. Покажи такой дизайн издалека программисту, он подумает, что без дизайнера не обошлось.

Примеры мелочей оттуда:

Середнячки
Десктопный и мобильный интерфейс простой, но понятный, промостраница скучная (ну прямо как у меня сейчас). Нейродизайн видно сразу, но он хотя бы аккуратный и чистый. При этом явных косяков нет, использовать такое когда под рукой нет дизайнера вполне можно. Opus 4.6, Sonnet 4.6, GPT 5.4, Cursor Auto, Qwen 3.6 и с натяжкой GLM 5.1 (если справится с тулами).

Совсем уже типичный нейрослоп-дизайн
Нейрослоп в худших его проявлениях, заметней всего его на промостранице. Буквально не за что зацепиться глазами. Например, Minimax 2.7, Kimi 2.6 (чуть лучше, но все же здесь), Composer 2 Cursor (доученный Kimi 2.5) тоже недалеко ушел. Даже в целом неплохой Gemini 3.1 Про тут. Grok 4.3 тоже говорит «всем чмоки в этом чате».

Те модели, что не смогли справиться с тулами
Это были Qwen 3.5 39, и в 50% случаев GLM 5.1 с DeepSeek V4 Pro — иногда они справлялись, иногда нет. В эту категорию попадает Haiku 4.5 Антропика, а он, на минуточку, в 1.5 раза дороже GLM 5.1 и в 4 раза дороже, чем Minimax 2.7, которые показали себя лучше его.

Многим не давалась концепция десктоп-приложения, некоторые делали эдиториал-сайт. Это было бы нормально в целом для сайта рецептов, но не для личного приложения менеджера рецептов. Явно я этого не формулировал, но как будто из контекста можно было догадаться.

Мне кажется, что вот таким было пользоваться ежедневно было бы не очень удобно. Усиливается это с добавлением скилла (будет ниже), там у модели начинается просто горе от ума.

У самых слабых моделей всплывают типичный нейрослоп: рамки на рамках, градиенты или цветные плашки, мусор везде, эмодзи, плохая иерархия и ритм. Ощущение, что экраны собрали из того, что не пригодилось моделям получше.

Заметно, что у всех с мобильной версии лучше, чем с промо. Там в целом более простая верстка, меньше элементов, сильные ограничения (узкая колонка). Как следствие — верстка лучше, надежнее и крепче. Как только появляется широкая страница, многие не могут сделать лучше, чем просто растянуть мобильную верстку по ширина 375 → 1400.

Кими 2.6 как-то справился с мобилкой, но не смог ничего на подобном уровне сделать с промостранице. Десктоп тоже плохой.

2.2 Качество верстки

В Paper все модели верстают примерно одинаково — нормально, в Фигме же ГПТ верстал совсем плохо. Все в одном фрейме, по сути — абсолютами. Кожаного дизайнера за такое бы на ревью не похвалили. Он же (ГПТ) в Пейпере верстал нормально, видимо тулы Пейпера попроще, получше и более понятны.

Фигма — все сверстано в одном фрейме, размеры рандомные, по сути если бы в вебе все верстали абсолютами, это ГПТ 5.5.

Тот же ГПТ 5.5 в Пейпере — в целом все чисто, дом-структура нормальная, некоторые слои даже хорошо названы. Кратная разница.

2.3 Размышления и удивления по ходу эксперимента

Поразительно, насколько модели ГПТ плохи в дизайне. Как модели для разработки они в целом нормальные, и отторжения не вызывают, а для дизайна ужас. Причем на том одном эксперименте, что я делал, 5.5 оказалась даже хуже, чем 5.4, хотя дороже примерно вдвое. Единственная СОТА-модель (state of the art), которая проигрывает многим более слабым, в том числе китайцам.
Гемини 3.1 показал себя очень плохо. И в Антигравити (их агент, форк винсёрфа) и в Курсоре. И если про Антигравити я могу понять, он очень плохо сделан, то Курсор — нормальный агент. Недопустимо плохо для модели такого уровня.
Агент в целом не принципиально влияет на результат, он не может сделать из не-опус-модели опус-результат. Т. е. результат в этой простой задаче в первую очередь определяется моделью, и лишь потом агентом. При этом, разница все еще есть. ГПТ 5.4 в Курсоре показал себя даже лучше, чем в родном Кодексе.
Курсор + Опус 4.7 оказался вдвое дороже чем та же модель в Кило, Курсор очень активно собирал обратную связь и постоянно себя скриншотил. Результат в целом мне тоже нравится больше. Особенно должна помочь такая
У моделей есть стиль. ГПТ во всех агентах узнается, Опус 4.7 тоже узнается во всех. По результату я бы предположил, что Опус 4.7 и Опус 4.6 явно тяготеют к одной модели, стиль похожий. У Соннета стиль другой, это не просто обрезанный Опус, это разные модели. А вот Опус от снижение рисонинга (xhigh → med) делает хуже, но остается тем же Опусом по стилю.
Модели, которые по ценам за токены совпадают, не совпадают в финальной цене. Формально ГПТ 5.5 и Опус 4.7 стоит одинаково (ГПТ — 30 долларов, Опус 4.7 — 25). Но это цена за миллион токенов, а тратят они по-разному. Именно 5.5 у меня нет, но был в Курсоре ГПТ 5.4 — у него 4.5 М токенов, а у Опуса (тоже в Курсоре) — 15 М.
Разница между самым дорогим и дешевым вариантами — 410 раз. Понятно, что и разница между ними в качестве — тоже дофига, может даже больше, чем в 410 раз.
Визуально работы Опуса неплохие, но разваливаются в мелочах. Начиная с того, что решение не той задачи, не того продукта, заканчивая версткой. Издалека красиво, но как начнешь смотреть — клинит от кринжа. Наверное примерно такой же уровень кринжа у технарей, когда приносишь им вайбкод-код. Почти все варианты проще выкинуть, чем пытаться доработать.
Еще один неприятный результат — аккаунт на Опенроутере забанили от моделей ОпенАПИ, Клода и Гемини. Пока не могу сказать почему, пытаюсь разобраться.

3 Все результаты по одному

Квоты для Клод кода указаны до недавнего двухкратного увеличения пятичасовой квоты. Т. е. нужно делить предположительно на два. Я не везде засек время или квоту, не везде квоту в целом можно было понять. Там, где написано токены — это и входящие, и исходящие токены, с учетом кеша, поэтому так много.

Полная таблица результатов ниже.

3.1 Paper MCP

Агент	Модель + параметры	Время	Токены	Стоимость	Комментарий
Antigravity	Gemini 3.1 Pro, high	15 мин	—	—	Очень плохо использует тулы, чудовищная интеграция в инструмент
Antigravity	Gemini 3.5 Flash	—	—	—	Заметно лучше, чем Gemini 3.1 Pro (но рост от его уровня несложный). Единственный, кто решил сделать дарк-мод.
Claude Code	Opus 4.7, xhigh	10—15 мин	—	75%+ квоты pro · 5h	Недолго. Дорого. Офигенно.
Claude Code	Opus 4.8, xhigh	—	—	53% квоты pro · 5h (уже удвоенной)	Жрет больше, делает не факт, что лучше, чем 4.7. За три экрана съел половину уже удвоенной 5h pro-квоты.
Claude Code	Opus 4.7, med	5—10 мин	—	56% квоты pro · 5h	Сохраняет стиль Опуса 4.7, упрощает реализацию
Claude Code	Opus 4.6, Max reasoning	—	—	37% квоты pro · 5h	В целом выглядит как упрощенный Опус 4.7, сильно ближе к Соннету по общему лейауту
Claude Code	Sonnet 4.5, xhigh	8 мин	—	25% квоты pro · 5h	Существенно ближе к китайским моделям и моделям попроще. Аккуратно, но совсем нейтрально, совсем упрощено
Claude Code	Haiku 4.5	3 мин	—	6% квоты pro · 5h	Не справился даже с тулами. Нет ни одной причины использовать
Codex	GPT 5.5, xhigh	15 мин	—	26% квоты plus · 5h	Очень дешево по сравнению с опусом, результат соответствующий. Худший результат из СОТА-моделей (state of the art, которые)
Codex	GPT 5.4, xhigh	15 мин	—	17% квоты plus · 5h	Удивительно, что мне этот вариант нравится даже больше, чем у ГПТ 5.5
Cursor	Auto	25 мин	13.7M	$4.33	Поразительно хороший результат для Авто-режима. Не знаю кто делал, может быть общую задачу делал как раз Опус на лоу-ризонинге, а реализация была каким-то ГПТ-нано. Выбор стиля как будто от Опуса
Cursor	Opus 4.7	35 мин	15M	$12.30	Вдвое дороже, чем Опус 4.7 у Кило. Очень много проверяет себя, скриншотил буквально каждый этап и каждый блок. Результат чуть лучше
Cursor	GPT 5.4, xhigh	11 мин	4.5M	$2.20	Агент другой, модель узнается, это все тот же ГПТ 5.4, что был в Кодексе. Но тут как будто чуть лучше вышло.
Cursor	Gemini 3.1 Pro	8 мин	3.4M	$2.01	Результат сопоставимый с Гемини в Антигравити. Очень плохо для модели такого уровня.
Cursor	Grok 4.3	~18 мин	3M	$1.65	От Грока впечатления смешанные. Мобилка в целом норм, на уровне других. Промо хуже чем собраться. Я думал будет дешевле, Грок 4.1 был очень классный именно за счет того, что стоил ну очень мало.
Cursor	GLM 5.1 (z.ai coding plan)	~7 мин	—	37% квоты lite · 5h	ГЛМ в Курсоре почему-то не смог справиться с тулами
Cursor	Composer 2	5 мин	1.3M	$0.33	Очень примитивно, но и зато очень дешево. Не соответствует тому уровню, что Курсор заявляет о своей модели, конечно. Но они честно говорили, что делают модель для кода в первую очередь
Cursor	Composer 2.5	—	1.6M	$0.21	Сопоставим по стоимости с Composer 2, качество подросло, но все еще сильно не очень
Cursor	MiMo V2.5 Pro	—	4.8M	4.8M из 4,1B включённых попугаев	Включённая модель Курсора; в подписке очень дёшево, в дизайне слабо
Source Craft	Default	7 мин	—	65 попугаев из 4500 квоты	Вроде недорого, но пользоваться смысла нет, нейрослописный нейрослоп
Source Craft	Default Thinking	10 мин	—	74 попугаев из 4500 квоты	Как будто Default и Default Thinkign модели в Яндекс Сорс Крафте не просто разные режимы одной модели, а разные модели: слишком разный результат, у рисонинг модели даже хуже.
Kilo Code	Opus 4.7 (Kilo cloud)	27 мин	6.3M	$6.96	Типичный Опус 4.7. Местами чисто, интересно, издалека дак прямо супер-пупер
Kilo Code	Hy3 preview (Kilo cloud)	—	1.6M	$0.06	Самая модная опенсорс-модель на опенроутере. Очень так себе.
Kilo Code	Qwen 3.6 Max Preview (Kilo cloud)	17 мин	2.2M	$0.42	В целом Квен для меня справился неплохо. Туповато, по крепко вполне. В промо просел как все. 1/30 от Опуса по цене.
Kilo Code	Qwen 3.5 397	6 мин	—	—	Не справился с тулами
Kilo Code	Grok Build 0.1 + Google Skill	—	—	$0.83	Тот же промт со скиллом Google design; сравните с OpenCode Grok Build 0.1 без скилла
OpenCode	Opus 4.7, xhigh reasoning (OpenRouter)	—	2.7M	$2.74	Неплохо, что было бы в мобилке не знаю, потому что после этого экрана опенроутер меня забанил от американских СОТА-моделей
OpenCode	Kimi 2.6 (OpenRouter)	42 мин	3.62M	$1.78	Мобилка лучше остального, остальное плохо. Из забавного все дублировалось, но он потом через скриншоты обнаруживал и стирал сам. Из-за этого возился очень долго — 40+ минут.
OpenCode	Grok 4.3 (OpenRouter)	—	1.57M	$1.09	Грок уже был выше, но в отличие от Курсора, Опенкод с моделью вообще не справился, результат сильно хуже, чем у Курсора
OpenCode	Grok Build 0.1 (OpenRouter)	—	3.7M	$1.24	Быстро, слабо, дорого для такого качества
OpenCode	DeepSeek V4 Pro (Deepseek Cloud), Max Reasoning	—	4.1M	$0.09	Дипсик очень дешев, но справился лишь один раз. Мобилку можно смотреть, остальное плохо
OpenCode	DeepSeek V4 Pro (Deepseek Cloud), Max Reasoning	—	2.5M	$0.05	Дипсик очень дешев, но справился лишь один раз. Мобилку можно смотреть, остальное плохо
OpenCode	GLM 5.1 (z.ai coding plan)	—	—	—	В отличие от Курсора Опенкод смог добиться чего-то от ГЛМ, вышло в целом ок для его цены. Он стоит дешевле Хайку, которы не смог буквально ничего
OpenCode	Qwen 3.5 397	—	—	—	Не смогло ничего
OpenCode	MiniMax 2.7 (OpenRouter)	3 мин	242K	$0.03	Невероятно быстро, невероятно дешево, качество соответствующее
OpenCode	Qwen 3.7 Max Preview (OpenRouter)	—	3.13M	$7.95	Дорого для своего результата, не улучшилось с 3.6 Max. Очень плохо работал с тулами (может быть особенность опенкода)

3.2 Figma MCP

Агент	Модель + параметры	Время	Токены	Стоимость	Комментарий
Claude Code	Opus 4.7, xhigh	~19 мин	—	121% квоты pro · 5h	Опус в своем стиле, издалека особенно, но сожрал больше целой 5-часовой квоты
Codex	GPT 5.5, xhigh	20 мин	—	16% квоты plus · 5h	В фигме смог чуть лучше, чем в пейпере. Верстает чудовищно просто
Cursor	GLM 5.1 (z.ai coding plan)	25 мин	—	13% квоты lite · 5h	В целом похуже чем в пейпере. Макет десктопа снизу это я перетащил слой куда нужно, ГЛМ не осилил корректный ДОМ
Cursor	Composer 2	6 мин	1.4M	$0.43	Катастрофически плохо, хуже чем в пейпере

Полный список всех картинок

Paper MCP

Antigravity + Gemini 3.1 Pro, high

Очень плохо использует тулы, чудовищная интеграция в инструмент.

Полные картинки: Всё вместе · Десктоп · Мобильный · Промо

Antigravity + Gemini 3.5 Flash

Заметно лучше, чем Gemini 3.1 Pro (но рост от его уровня несложный). Единственный, кто решил сделать дарк-мод.

Полные картинки: Всё вместе · Десктоп · Мобильный · Промо

Claude Code + Opus 4.7, xhigh

Недолго. Дорого. Офигенно.

Полные картинки: Всё вместе · Десктоп · Мобильный · Промо

Claude Code + Opus 4.8, xhigh

Всё ещё уровень Опуса; на три экрана съел половину уже удвоенной 5h pro-квоты.

Полные картинки: Всё вместе · Десктоп · Мобильный · Промо

Claude Code + Opus 4.7, med

Сохраняет стиль Опуса 4.7, упрощает реализацию.

Полные картинки: Всё вместе · Десктоп · Мобильный · Промо

Claude Code + Opus 4.6, max

В целом выглядит как упрощенный Опус 4.7, сильно ближе к Соннету по общему лейауту.

Полные картинки: Всё вместе · Десктоп · Мобильный · Промо

Claude Code + Sonnet 4.5, xhigh

Существенно ближе к китайским моделям и моделям попроще. Аккуратно, но совсем нейтрально, совсем упрощено.

Полные картинки: Всё вместе · Десктоп · Мобильный · Промо

Claude Code + Haiku 4.5

Не справился даже с тулами. Нет ни одной причины использовать.

Полные картинки: Всё вместе · Десктоп · Мобильный · Промо

Codex + GPT 5.5, xhigh

Очень дешево по сравнению с опусом, результат соответствующий. Худший результат из СОТА-моделей (state of the art, которые).

Полные картинки: Всё вместе · Десктоп · Мобильный · Промо

Codex + GPT 5.4, xhigh

Удивительно, что мне этот вариант нравится даже больше, чем у ГПТ 5.5.

Полные картинки: Всё вместе · Десктоп · Мобильный · Промо

Cursor + Auto

Поразительно хороший результат для Авто-режима. Не знаю кто делал, может быть общую задачу делал как раз Опус на лоу-ризонинге, а реализация была каким-то ГПТ-нано. Выбор стиля как будто от Опуса.

Полные картинки: Всё вместе · Десктоп · Мобильный · Промо

Cursor + Opus 4.7

Вдвое дороже, чем Опус 4.7 у Кило. Очень много проверяет себя, скриншотил буквально каждый этап и каждый блок. Результат чуть лучше.

Полные картинки: Всё вместе · Десктоп · Мобильный · Промо

Cursor + GPT 5.4, xhigh

Агент другой, модель узнается, это все тот же ГПТ 5.4, что был в Кодексе. Но тут как будто чуть лучше вышло.

Полные картинки: Всё вместе · Десктоп · Мобильный · Промо

Cursor + Gemini 3.1 Pro

Результат сопоставимый с Гемини в Антигравити. Очень плохо для модели такого уровня.

Полные картинки: Всё вместе · Десктоп · Мобильный · Промо

Cursor + Grok 4.3

От Грока впечатления смешанные. Мобилка в целом норм, на уровне других. Промо хуже чем собраться. Я думал будет дешевле, Грок 4.1 был очень классный именно за счет того, что стоил ну очень мало.

Полные картинки: Всё вместе · Десктоп · Мобильный · Промо

Cursor + GLM 5.1 (z.ai coding plan)

ГЛМ в Курсоре почему-то не смог справиться с тулами.

Полные картинки: Всё вместе · Десктоп · Мобильный · Промо

Cursor + Composer 2

Очень примитивно, но и зато очень дешево. Не соответствует тому уровню, что Курсор заявляет о своей модели, конечно. Но они честно говорили, что делают модель для кода в первую очередь.

Полные картинки: Всё вместе · Десктоп · Мобильный · Промо

Cursor + Composer 2.5

Сопоставим по стоимости с Composer 2, качество подросло, но все еще сильно не очень.

Полные картинки: Всё вместе · Десктоп · Мобильный · Промо

Cursor + MiMo V2.5 Pro

Включённая модель Курсора; в подписке очень дёшево, в дизайне слабо.

Полные картинки: Всё вместе · Десктоп · Мобильный · Промо

Source Craft + Default

Вроде недорого, но пользоваться смысла нет, нейрослописный нейрослоп.

Полные картинки: Всё вместе · Десктоп · Мобильный · Промо

Source Craft + Default Thinking

Как будто Default и Default Thinkign модели в Яндекс Сорс Крафте не просто разные режимы одной модели, а разные модели: слишком разный результат, у рисонинг модели даже хуже.

Полные картинки: Всё вместе · Десктоп · Мобильный · Промо

Kilo Code + Opus 4.7 (Kilo cloud)

Типичный Опус 4.7. Местами чисто, интересно, издалека дак прямо супер-пупер.

Полные картинки: Всё вместе · Десктоп · Мобильный · Промо

Kilo Code + Hy3 preview (Kilo cloud)

Самая модная опенсорс-модель на опенроутере. Очень так себе.

Полные картинки: Всё вместе · Десктоп · Мобильный · Промо

Kilo Code + Qwen 3.6 Max Preview (Kilo cloud)

В целом Квен для меня справился неплохо. Туповато, по крепко вполне. В промо просел как все. 1/30 от Опуса по цене.

Полные картинки: Всё вместе · Десктоп · Мобильный · Промо

Kilo Code + Qwen 3.5 397

Не справился с тулами.

Полные картинки: Всё вместе · Десктоп · Мобильный · Промо

Kilo Code + Grok Build 0.1 + Google Skill

Тот же промт со скиллом Google design; сравните с OpenCode Grok Build 0.1 без скилла.

Полные картинки: Всё вместе · Десктоп · Мобильный · Промо

OpenCode + Opus 4.7, xhigh reasoning (OpenRouter)

Неплохо, что было бы в мобилке не знаю, потому что после этого экрана опенроутер меня забанил от американских СОТА-моделей.

Полные картинки: Десктоп

OpenCode + Kimi 2.6 (OpenRouter)

Мобилка лучше остального, остальное плохо. Из забавного все дублировалось, но он потом через скриншоты обнаруживал и стирал сам. Из-за этого возился очень долго — 40+ минут.

Полные картинки: Всё вместе · Десктоп · Мобильный · Промо

OpenCode + Grok 4.3 (OpenRouter)

Грок уже был выше, но в отличие от Курсора, Опенкод с моделью вообще не справился, результат сильно хуже, чем у Курсора.

Полные картинки: Всё вместе · Десктоп · Мобильный · Промо

OpenCode + Grok Build 0.1 (OpenRouter)

Быстро, слабо, дорого для такого качества.

Полные картинки: Всё вместе · Десктоп · Мобильный · Промо

OpenCode + DeepSeek V4 Pro (Deepseek Cloud), Max Reasoning

Дипсик очень дешев, но справился лишь один раз. Мобилку можно смотреть, остальное плохо.

Полные картинки: Всё вместе · Десктоп · Мобильный · Промо

Полные картинки: Всё вместе · Десктоп · Мобильный · Промо

OpenCode + GLM 5.1 (z.ai coding plan)

В отличие от Курсора Опенкод смог добиться чего-то от ГЛМ, вышло в целом ок для его цены. Он стоит дешевле Хайку, которы не смог буквально ничего.

Полные картинки: Всё вместе · Десктоп · Мобильный · Промо

OpenCode + Qwen 3.5 397

Не смогло ничего.

Полные картинки: Всё вместе · Десктоп · Мобильный · Промо

OpenCode + MiniMax 2.7 (OpenRouter)

Невероятно быстро, невероятно дешево, качество соответствующее.

Полные картинки: Всё вместе · Десктоп · Мобильный · Промо

OpenCode + Qwen 3.7 Max Preview (OpenRouter

Дорого для своего результата, не улучшилось с 3.6 Max. Очень плохо работал с тулами (может быть особенность опенкода).

Полные картинки: Всё вместе · Десктоп · Мобильный · Промо

Figma: Claude Code + Opus 4.7, xhigh

Опус в своем стиле, издалека особенно, но сожрал больше целой 5-часовой квоты.

Полные картинки: Всё вместе · Десктоп · Мобильный · Промо

Figma: Codex + GPT 5.5, xhigh

В фигме смог чуть лучше, чем в пейпере. Верстает чудовищно просто.

Полные картинки: Всё вместе · Десктоп · Мобильный · Промо

Figma: Cursor + GLM 5.1 (z.ai coding plan)

В целом похуже чем в пейпере. Макет десктопа снизу это я перетащил слой куда нужно, ГЛМ не осилил корректный ДОМ.

Полные картинки: Всё вместе · Десктоп · Мобильный · Промо

Cursor + Composer 2

Катастрофически плохо, хуже чем в пейпере.

Полные картинки: Всё вместе · Десктоп · Мобильный · Промо

После основного эксперимента я реши попробовать дать скилл Impeccable и посмотреть как он повлияет. Тот же самый промт, но со скиллом. Полный конфиг — Claude Code + Opus 4.7, xhigh + Frontend Design Skill

Сделал только один десктопный экран, много жрет, еще более фенси, чем было. Один экран сожрал 44% 5h · pro-квоты в клод коде. Как будто Опус стал еще более опусным и началось какое-то горе от дизайн-ума. Каждый пиксель кричит «смотри какой я красивый». Ошибки есть, но дизайн стал еще более дизайнерским.

Полная картинка: Десктоп

4 Сколько все это стоило, вы спросите

В целом в таблице есть цены, доллары в Курсоре виртуальные (входили в подписку), остальные реальные.

~20 $ — модели
16 $ — Paper Pro с бо́льшим лимитом на MCP.
3×20 $ — подписки Клод, Кодекса и Курсора, но они уже были.

Самый дорогой вариант стоил бы 12,30 $ (Курсор + Опус 4.7), самый дешевый — 0,03 (Минимакс 2.7), разница — 410 раз. Опус работал не на 100%, если бы я включил макс-ризонинг, то было бы примерно ×2.

5 Будущие эксперименты

Что хотелось бы проверить еще, что не вошло в эту серию:

Проверить со скиллами: насколько те или иные скиллы могут улучшить дизайн.
Проверить, задав стили, юзерсценарии и прочий контекст.
Проверить, разрешив задавать уточняющие вопросы: про задачи, продукт, стиль и пользователя.
Проверить, что будет, если дать ему грубый скетч интерфейса и довести до ума.
Дать существующий экран и попросить добавить стиля или улучшить только интерфейс без полной переделки структуры.
Дать почитать советы Горбунова по верстке и проверить снова.

6 Выводы

Опус — на коне. Дорого и офигенно. Удивительно, что следующим идет даже не GPT. Ни 5.4, ни даже 5.5 и близко не стоят. Китайские модели, да даже авто-режим Cursor, делает лучше. Код GPT 5.4 пишет хорошо, объясняет и делает анализы — хорошо. Дизайн — провально.
Китайские модели оверфиттятся на метрики и бенчмарки. В целом все модели за пределами больших лаб такие. По метрикам SWE они уже догнали и обогнали Опус, в реальной же жизни не способны сделать простую задачу. Некоторые даже не справляются с корректным вызовом тулов. Типичный пример — Минимакс 2.7, по всем метрикам — он очень хорош, в дизайне не может ничего. Хорош он в итоге только по скорости и цене (там прямо вау). Кто-то скажет, что дипсик тоже оверфит. Про него так однозначно не скажу: во-первых, дипсик один из макетов сделал заметно лучше, во-вторых у него до сих пор какие-то проблемы с вызовом тулов, как было в версии в 3.2. Лучший результат у тех китайских моделей, которые делают свою работу, не особенно крича — Квен 3.6 (но 3.5 так себе).
Хорошая модель делает достататочно бессмысленным дизайн самими разработчиками и продактами, если только они не разбираются в дизайне. Редко, но бывают такие. Если нет, то модель сделает быстрее и лучше. Дизайнерам пока еще есть работа, можно выдохнуть на квартал.

P. S.

Раз уж зашли, попробуйте recipe-scaler.ru, зря я что ли столько дизайн-экспериментов проводил? Если каждый десятый зайдет, у меня будет +1000% пользователей сразу.

Если вдруг у кого есть подкаст, внутренние созвоны команды или просто захотите созвониться и поговорить про все это — зовите. В Мск и Питере могу и очно. mike.ozornin@gmail.com или t.me/mikeozornin.

Кстати, вот как выгдядит блок аттачей поста:

upd. Добавлены новые модели: gemini 3.5 flash, grok build, mimo 2.5, opus 4.8

474 1 мес дизайн ИИ

Подписаться на блог…

Design with AI: I tested 37 models and I’m showing 146 generated images

I generated the same task with 38 different agents/models and I’m showing you 150 resulting images. The cost difference between the most expensive and the cheapest option is 410x.

There’s also an original Russian version of this post: mikeozornin.ru/blog/all/llm-and-ui-design

Sometimes colleagues, often non-designers, after announcements of various Claude-Design-type things, ask me what it’s like. How does it design, what is this thing in general. How good a design can you expect, can you take a design system, and how do you bring it to production afterwards. Maybe they want to hear that neural networks will replace not only them, the developers, but designers too — then we’ll go cut tables, roast coffee or work as couriers together.

I decided to check how things stand with AI-design at the beginning of May 2026. The situation is changing fast, in half a year all of this will already be outdated, but for now it’s like this.

1 The experiment plan

I’ll describe the experiment plan: the procedure and the limitations, so that you can first, understand how much you can trust the results, and second, validate or repeat them yourself.

TL;DR; The agents drew three screens: desktop, mobile and a promo page through Paper MCP.

1.1 Procedure

I gave the same task to 34 different agents + models. The task sounded like «make three screens for the same product»: a desktop screen, a mobile screen and a promo page. As the product I took my own recipe app and fed the agents the text from the about page.

I took all the popular agents and models that are currently of interest.

Agents:

Agents from the main model vendors: Claude Code, Codex, even Antigravity
The most popular independent closed agent on the market: Cursor
The two most popular open agents (and the only ones at the moment that deserve attention): Opencode and Kilo Code.

Spoiler: in this task the agent wasn’t fundamentally important.

Models were used both via native providers and third-party ones through Openrouter. Models:

Flagship models from American labs: Opus 4.7, Sonnet 4.6, Haiku 4.5, GPT 5.5 and 5.4, Gemini 3.1 Pro.
Cursor Auto, Composer 2 and Composer 2.5 models, as well as niche players like Grok 4.3,
All popular Chinese models: Qwen 3.7, Qwen 3.6 Max Preview (and the older Qwen 3.5 397B A17B), GLM 5.1, MiniMax 2.7, DeepSeek V4 Pro, Kimi 2.6.

All models received the task as a file on input, it was the same — only the file address differed — each model was given a fresh Paper file to exclude any influence from previous runs.

The full prompt for Paper is below (the Figma variant differed only in changing the tool and the link).

I am creating a design for a product.

# Task
Create new pages:
1. A desktop screen interface — choose the main screen and design it. Screen width: 1400px.
2. A recipe screen interface for mobile. You need to design a recipe screen. Screen width: 375px.
3. A promo page describing the product. Screen width: 1400px.

# Where to create it and expected result
Where to create: TODO

If the mockups are long, you can make a tall frame/artboard/layout. You do not have to fit standard screen proportions.

Use Paper MCP to create the design.

Use English for the content inside the mockups.

You can use pregenerated images for illustations: '/Users/mike/work/git-repos/projects/ai workshops/design with ai-tmp'. If you have built-in tools for drawing images, you can use them too.

Below is the product information, which also describes the product capabilities.

# Product information

```
Recipe Scaler — app for those who cook
It reliably stores your recipes, helps you cook, works on your phone and computer, even offline.

Access from phone and computer
You will have access to your recipes both on your phone and computer. The apps will sync automatically, even from offline.
On each platform, the web application uses familiar ways of working: hotkeys on the computer, and standard gesture controls on the phone.
On the phone it works as PWA — install it on your home screen and you won't tell the difference from other apps.

Recalculate recipes for different serving sizes
This is where the app started: recalculating recipes for different serving sizes.
When recalculating, not only the ingredient list is updated, but also the recipe text.

Cooking assistance
The app will help you cook: it won't turn off the screen while cooking, will track time and even send push notifications. Timers are, of course, available on the computer too.

Shopping list
Add ingredients to your shopping list one by one from a recipe, or add the whole recipe at once.
Mark purchased items, sort the list the way you like, and share the list with the person going to the store.

Automagical recipe import
Recipe Scaler can import a recipe from text, a single link, or multiple links at once.
You can also upload a file in almost any text format and even photos of pages from a cookbook, notebook, or handwritten recipe journal.

AI assistant for recipes
If something goes wrong while you cook, the AI assistant can help you save the dish and figure out what to do next.
It can also explain the recipe, suggest the next step, and point out the equipment you may need.
It's like having a chef always at your fingertips, ready to answer your questions.

Discover section
Find new recipes in Discover.
Explore interesting authors, save recipes to your collection, and build your own shortlist of the best finds.

Health-friendly: nutrition calculation
Recipe Scaler will calculate the nutritional value (Kcal, protein, fat, carbs) for a dish and let you view it conveniently: for the entire dish, per 100 grams, or per serving.
If artificial intelligence makes a mistake in the numbers, you can always correct the nutritional value of the needed ingredient.

Cookbook
Download a public recipe collection (your own or someone else's) as a beautifully formatted PDF.
The cookbook includes recipes with photos, ingredients, and cooking instructions.

Telegram bot
Send the bot a recipe text or a link to it and the bot will save the recipe to your account.

Chrome extension for quick import
Install the Recipe Scaler Importer extension and import the recipe into your account in one click.

AI assistant integration
Connect your AI assistant to recipes. It can search recipes, add new ones, or help you cook the way you're used to: in chat, by voice. To connect, use the link: recipe-scaler.ru/mcp
For techies: yes, this is an MCP server.

Careful handling of your data
We are paranoid about your privacy.
The app works without sign-up: we don't know your email or your Google login. Even Telegram is only needed for saving recipes. Don't want it? Don't use it.
We don't use trackers or product analytics.
We don't allow AI models to train on your recipes.
Data export and an API are available, so we don't hold your data hostage.
More details: recipe-scaler.ru/#/privacy

If we've convinced you to try:
Go to app

If we haven't convinced you:
Write what's missing

Made by Mikhail Ozornin with Cursor. App idea inspired by app by Roman Shamin.
© Mikhail Ozornin, 2025

1.2 Particulars of the experiment

The models were given basic limitations and instructions, there were no clarifications about style, design system and so on. I didn’t answer clarifying questions, I just skipped them. There was no intervention in the process — at most, if the agent was waiting for something, I asked it to start or continue.
All models except Opus 4.7 worked on the maximum possible reasoning setting or its substitute parameter (effort for Claude Code).
I deliberately didn’t give any preferences about style, didn’t attach any design system, didn’t describe more important and less important scenarios. I wanted to check not what I could design with an LLM, but what the agent itself could do.
All texts were in English. This is a small cheat for the models — there are noticeably more good fonts for English than for Cyrillic. With Cyrillic it would be worse, I think. The font choice would be more primitive, and they would have boldly picked fonts that don’t have Cyrillic at all.
For design I used Paper MCP, with Figma MCP as a backup option. Paper MCP works better, faster and is open to a larger number of agents. Figma doesn’t let the open agents Opencode and Kilo work with it. I also tested with Figma MCP, just launched fewer variants.
To make the comparison fairer, I didn’t fix the mockups by hand — at most I occasionally stretched the frame if the agent made the artboard smaller than its own content. It was a shame to see that it was right there.

1.3 Formal goals

What I wanted to look at and check:

The result: how close the produced mockups are to solving the task at all, how usable the result is at work, how beautiful, neat and overall good it is.
The internals: how cleanly it’s laid out inside, whether you want to wash your hands after this.
What about the cost of the solution.
How much the result depends on the agent.
How much the result depends on the reasoning level.

In general, I wanted to understand which models and agents make sense to use for something, and which don’t.

2 Results

The gap between the models is huge — some laid things out interestingly and beautifully. Others laid out neuro-slop in its worst sense, the third group couldn’t cope with the tools at all and produced a broken mockup.

Best result (everything is Opus 4.7 xhigh):

Worst result (Haiku, Qwen 3.5 and one of the DeepSeek iterations)

The rest are somewhere in between. Below there will be a table with the results, but for now I’ll share my impressions.

2.1 Quality of the result

The models split into four categories:

Fancy design from which you can squeeze something interesting
There’s only one such model — Opus 4.7. You can see on every floor and micro-format that it’s showing off. The most interesting and complex promo pages. The only promo pages that aren’t laid out as a stretched mobile screen. Show such a design to a programmer from afar — they’ll think a designer was involved.

Examples of small details from there:

Mid-tier
Desktop and mobile interface are simple but understandable, the promo page is boring (literally like mine right now). You can immediately see it’s neuro-design, but at least it’s neat and clean. At the same time, there are no obvious mess-ups, you can quite use this when there’s no designer at hand. Opus 4.6, Sonnet 4.6, GPT 5.4, Cursor Auto, Qwen 3.6 and, with a stretch, GLM 5.1 (if it can handle the tools).

The completely typical neuro-slop design
Neuro-slop in its worst manifestations, most noticeable on the promo page. Literally nothing for your eyes to grab onto. For example, Minimax 2.7, Kimi 2.6 (slightly better, but still here), Cursor’s Composer 2 (a fine-tuned Kimi 2.5) is not far behind. Even the generally not-bad Gemini 3.1 Pro is here. Grok 4.3 also says «hi everyone in this chat».

The models that couldn’t handle the tools
These were Qwen 3.5 39, and in 50% of cases GLM 5.1 with DeepSeek V4 Pro — sometimes they managed, sometimes not. This category includes Anthropic’s Haiku 4.5, and it, by the way, is 1.5x more expensive than GLM 5.1 and 4x more expensive than Minimax 2.7, which performed better than it.

Many couldn’t grasp the concept of a desktop application, some made an editorial site. That would be fine in general for a recipe website, but not for a personal recipe manager app. I didn’t explicitly formulate this, but it’s like you could have guessed from context.

I think it would be inconvenient to use something like this daily. This gets amplified when you add a skill (will be below), there the model gets a serious case of grief from too much thinking.

In the weakest models, typical neuro-slop surfaces: frames on frames, gradients or colored blocks, junk everywhere, emoji, bad hierarchy and rhythm. The feeling that the screens were assembled from things that the better models didn’t need.

It’s noticeable that everyone does better with the mobile version than with the promo. There the layout is generally simpler, fewer elements, strong limitations (narrow column). As a result — the layout is better, more reliable, more solid. As soon as a wide page appears, many can’t do better than just stretching the mobile layout to width 375 → 1400.

Kimi 2.6 somehow handled the mobile, but couldn’t do anything at a similar level for the promo page. The desktop is also bad.

2.2 Quality of the layout

In Paper all models lay things out roughly the same way — normally, but in Figma GPT laid things out really badly. Everything in one frame, essentially — using absolutes. A human designer wouldn’t get praised on review for this. The same GPT in Paper laid things out normally, apparently Paper’s tools are simpler, better and more understandable.

Figma — everything is laid out in one frame, sizes are random, essentially as if on the web everyone laid things out with absolutes — this is GPT 5.5.

The same GPT 5.5 in Paper — in general everything is clean, the DOM structure is normal, some layers are even well named. A multifold difference.

2.3 Thoughts and surprises during the experiment

It’s amazing how bad GPT models are at design. As development models they’re generally fine and don’t cause rejection, but for design — horror. Moreover, in the one experiment I did, 5.5 turned out to be even worse than 5.4, even though it’s about twice as expensive. The only SOTA model (state of the art) that loses to many weaker ones, including the Chinese.
Gemini 3.1 performed very badly. Both in Antigravity (their agent, a fork of Windsurf) and in Cursor. And if I can understand Antigravity, it’s very poorly made, but Cursor is a normal agent. Unacceptably bad for a model of this level.
The agent in general doesn’t fundamentally affect the result, it can’t make an opus-result out of a non-opus model. That is, the result in this simple task is first determined by the model, and only then by the agent. At the same time, there’s still a difference. GPT 5.4 in Cursor showed itself even better than in its native Codex.
Cursor + Opus 4.7 turned out to be twice as expensive as the same model in Kilo, Cursor was very actively collecting feedback and constantly screenshotting itself. I also like the result more overall. Such a thing should help especially.
Models have a style. GPT is recognizable across all agents, Opus 4.7 is also recognizable across all of them. By the result I’d assume that Opus 4.7 and Opus 4.6 clearly gravitate to one model, the style is similar. Sonnet has a different style, this is not just a cut-down Opus, these are different models. But Opus gets worse from lowering the reasoning (xhigh → med), but remains the same Opus in style.
Models that match in token prices don’t match in final price. Formally, GPT 5.5 and Opus 4.7 cost the same (GPT — 30 dollars, Opus 4.7 — 25). But that’s the price per million tokens, and they spend differently. I don’t have 5.5 specifically, but there was GPT 5.4 in Cursor — it has 4.5M tokens, and Opus (also in Cursor) — 15M.
The difference between the most expensive and cheapest options is 410x. It’s clear that the difference between them in quality is also a lot, maybe even more than 410x.
Visually Opus’s works are not bad, but they fall apart in the details. Starting from solving the wrong task, the wrong product, ending with layout. From afar it’s beautiful, but as soon as you start looking — you cringe. Probably approximately the same level of cringe that techies have when you bring them vibe-coded code. Almost all variants are easier to throw away than to try to refine.
Another unpleasant result — my Openrouter account was banned from OpenAI, Claude and Gemini models. I can’t yet say why, trying to figure it out.

3 All the results in one place

Quotas for Claude Code are stated before the recent 2x increase of the five-hour quota. That is, you presumably need to divide by two. I didn’t always note the time or quota, and the quota wasn’t always understandable in general. Where it says tokens — those are both incoming and outgoing tokens, including cache, which is why so many.

The full results table is below.

3.1 Paper MCP

Agent	Model + parameters	Time	Tokens	Cost	Comment
Antigravity	Gemini 3.1 Pro, high	15 min	—	—	Very bad at using tools, monstrous integration into the tool
Antigravity	Gemini 3.5 Flash	—	—	—	Noticeably better than Gemini 3.1 Pro (but improving from its level is not hard). The only one who decided to do a dark mode.
Claude Code	Opus 4.7, xhigh	10—15 min	—	75%+ of pro · 5h quota	Quick. Expensive. Awesome.
Claude Code	Opus 4.8, xhigh	—	—	53% of pro · 5h quota (already doubled)	Burns more; not necessarily better than 4.7. Three screens used half of the already-doubled 5h pro quota.
Claude Code	Opus 4.7, med	5—10 min	—	56% of pro · 5h quota	Keeps the Opus 4.7 style, simplifies the implementation
Claude Code	Opus 4.6, Max reasoning	—	—	37% of pro · 5h quota	In general looks like a simplified Opus 4.7, much closer to Sonnet in overall layout
Claude Code	Sonnet 4.5, xhigh	8 min	—	25% of pro · 5h quota	Substantially closer to the Chinese models and the simpler ones. Neat, but completely neutral, completely simplified
Claude Code	Haiku 4.5	3 min	—	6% of pro · 5h quota	Didn’t even cope with the tools. There’s not a single reason to use it
Codex	GPT 5.5, xhigh	15 min	—	26% of plus · 5h quota	Very cheap compared to opus, the result is accordingly. The worst result among SOTA models (state of the art, that is)
Codex	GPT 5.4, xhigh	15 min	—	17% of plus · 5h quota	Surprisingly, I like this variant even more than GPT 5.5
Cursor	Auto	25 min	13.7M	$4.33	A surprisingly good result for Auto mode. I don’t know who was doing it, maybe Opus on low-reasoning was doing the overall task, and the implementation was some GPT-nano. The style choice is like from Opus
Cursor	Opus 4.7	35 min	15M	$12.30	Twice as expensive as Opus 4.7 at Kilo. Checks itself a lot, screenshotted literally every stage and every block. The result is slightly better
Cursor	GPT 5.4, xhigh	11 min	4.5M	$2.20	The agent is different, the model is recognizable, it’s the same GPT 5.4 that was in Codex. But here it turned out slightly better.
Cursor	Gemini 3.1 Pro	8 min	3.4M	$2.01	Result comparable to Gemini in Antigravity. Very bad for a model of this level.
Cursor	Grok 4.3	~18 min	3M	$1.65	Mixed impressions from Grok. Mobile is generally fine, on the level of others. Promo is worse than ones to collect. I thought it’d be cheaper, Grok 4.1 was very cool precisely because it cost very little.
Cursor	GLM 5.1 (z.ai coding plan)	~7 min	—	37% of lite · 5h quota	GLM in Cursor for some reason couldn’t cope with the tools
Cursor	Composer 2	5 min	1.3M	$0.33	Very primitive, but also very cheap. Doesn’t match the level Cursor claims for its model, of course. But they honestly said they’re making a model for code first
Cursor	Composer 2.5	—	1.6M	$0.21	Comparable in cost to Composer 2, quality has grown, but still very not great
Cursor	MiMo V2.5 Pro	—	4.8M	4.8M of 4.1B included tokens	Included Cursor model; very cheap in subscription terms, weak on design
Source Craft	Default	7 min	—	65 units of 4500 quota	Seems inexpensive, but no point in using it, neuro-slop neuro-slop
Source Craft	Default Thinking	10 min	—	74 units of 4500 quota	It’s like Default and Default Thinking models in Yandex Source Craft are not just different modes of one model, but different models: too different a result, with the reasoning model even worse.
Kilo Code	Opus 4.7 (Kilo cloud)	27 min	6.3M	$6.96	Typical Opus 4.7. Clean in places, interesting, from afar it’s super-duper
Kilo Code	Hy3 preview (Kilo cloud)	—	1.6M	$0.06	The trendiest open-source model on Openrouter. Very so-so.
Kilo Code	Qwen 3.6 Max Preview (Kilo cloud)	17 min	2.2M	$0.42	In general Qwen did decently for me. A bit dim, but pretty solid. Sagged in promo like everyone. 1/30 of Opus’s price.
Kilo Code	Qwen 3.5 397	6 min	—	—	Didn’t cope with the tools
Kilo Code	Grok Build 0.1 + Google Skill	—	—	$0.83	Same prompt with Google’s design skill attached; compare with OpenCode Grok Build 0.1 without a skill
OpenCode	Opus 4.7, xhigh reasoning (OpenRouter)	—	2.7M	$2.74	Not bad, what would have been in mobile I don’t know because after this screen Openrouter banned me from American SOTA models
OpenCode	Kimi 2.6 (OpenRouter)	42 min	3.62M	$1.78	Mobile is better than the rest, the rest is bad. The funny thing is everything was duplicated, but then through screenshots it discovered and erased it itself. Because of this it fussed for a very long time — 40+ minutes.
OpenCode	Grok 4.3 (OpenRouter)	—	1.57M	$1.09	Grok was already above, but unlike Cursor, Opencode couldn’t handle the model at all, the result is much worse than Cursor’s
OpenCode	Grok Build 0.1 (OpenRouter)	—	3.7M	$1.24	Fast, weak, expensive for this quality
OpenCode	DeepSeek V4 Pro (Deepseek Cloud), Max Reasoning	—	4.1M	$0.09	DeepSeek is very cheap, but managed only once. Mobile is watchable, the rest is bad
OpenCode	DeepSeek V4 Pro (Deepseek Cloud), Max Reasoning	—	2.5M	$0.05	DeepSeek is very cheap, but managed only once. Mobile is watchable, the rest is bad
OpenCode	GLM 5.1 (z.ai coding plan)	—	—	—	Unlike Cursor, Opencode managed to get something out of GLM, turned out generally OK for its price. It costs less than Haiku, which couldn’t do literally anything
OpenCode	Qwen 3.5 397	—	—	—	Couldn’t do anything
OpenCode	MiniMax 2.7 (OpenRouter)	3 min	242K	$0.03	Incredibly fast, incredibly cheap, the quality is accordingly
OpenCode	Qwen 3.7	—	3.13M	$7.95	Expensive for its result, no improvement over 3.6 Max. Very bad at using tools (possibly an Opencode issue)

3.2 Figma MCP

Agent	Model + parameters	Time	Tokens	Cost	Comment
Claude Code	Opus 4.7, xhigh	~19 min	—	121% of pro · 5h quota	Opus in its style, especially from afar, but ate more than a full 5-hour quota
Codex	GPT 5.5, xhigh	20 min	—	16% of plus · 5h quota	In Figma it managed slightly better than in Paper. Lays things out monstrously simply
Cursor	GLM 5.1 (z.ai coding plan)	25 min	—	13% of lite · 5h quota	In general worse than in Paper. The desktop layout on the bottom is me dragging a layer to where it needs to go, GLM didn’t master a correct DOM
Cursor	Composer 2	6 min	1.4M	$0.43	Catastrophically bad, worse than in Paper

Full list of all the images

Paper MCP

Antigravity + Gemini 3.1 Pro, high

Very bad at using tools, monstrous integration into the tool.

Full images: All together · Desktop · Mobile · Promo

Antigravity + Gemini 3.5 Flash

Noticeably better than Gemini 3.1 Pro (but improving from its level is not hard). The only one who decided to do a dark mode.

Full images: All together · Desktop · Mobile · Promo

Claude Code + Opus 4.7, xhigh

Quick. Expensive. Awesome.

Full images: All together · Desktop · Mobile · Promo

Claude Code + Opus 4.8, xhigh

Still Opus-level; half the already-doubled 5h pro quota on a full three-screen run.

Full images: All together · Desktop · Mobile · Promo

Claude Code + Opus 4.7, med

Keeps the Opus 4.7 style, simplifies the implementation.

Full images: All together · Desktop · Mobile · Promo

Claude Code + Opus 4.6, max

In general looks like a simplified Opus 4.7, much closer to Sonnet in overall layout.

Full images: All together · Desktop · Mobile · Promo

Claude Code + Sonnet 4.5, xhigh

Substantially closer to the Chinese models and the simpler ones. Neat, but completely neutral, completely simplified.

Full images: All together · Desktop · Mobile · Promo

Claude Code + Haiku 4.5

Didn’t even cope with the tools. There’s not a single reason to use it.

Full images: All together · Desktop · Mobile · Promo

Codex + GPT 5.5, xhigh

Very cheap compared to opus, the result is accordingly. The worst result among SOTA models (state of the art, that is).

Full images: All together · Desktop · Mobile · Promo

Codex + GPT 5.4, xhigh

Surprisingly, I like this variant even more than GPT 5.5.

Full images: All together · Desktop · Mobile · Promo

Cursor + Auto

A surprisingly good result for Auto mode. I don’t know who was doing it, maybe Opus on low-reasoning was doing the overall task, and the implementation was some GPT-nano. The style choice is like from Opus.

Full images: All together · Desktop · Mobile · Promo

Cursor + Opus 4.7

Twice as expensive as Opus 4.7 at Kilo. Checks itself a lot, screenshotted literally every stage and every block. The result is slightly better.

Full images: All together · Desktop · Mobile · Promo

Cursor + GPT 5.4, xhigh

The agent is different, the model is recognizable, it’s the same GPT 5.4 that was in Codex. But here it turned out slightly better.

Full images: All together · Desktop · Mobile · Promo

Cursor + Gemini 3.1 Pro

Result comparable to Gemini in Antigravity. Very bad for a model of this level.

Full images: All together · Desktop · Mobile · Promo

Cursor + Grok 4.3

Mixed impressions from Grok. Mobile is generally fine, on the level of others. Promo is worse than ones to collect. I thought it’d be cheaper, Grok 4.1 was very cool precisely because it cost very little.

Full images: All together · Desktop · Mobile · Promo

Cursor + GLM 5.1 (z.ai coding plan)

GLM in Cursor for some reason couldn’t cope with the tools.

Full images: All together · Desktop · Mobile · Promo

Cursor + Composer 2

Very primitive, but also very cheap. Doesn’t match the level Cursor claims for its model, of course. But they honestly said they’re making a model for code first.

Full images: All together · Desktop · Mobile · Promo

Cursor + Composer 2.5

Comparable in cost to Composer 2, quality has grown, but still very not great.

Full images: All together · Desktop · Mobile · Promo

Cursor + MiMo V2.5 Pro

Included Cursor model; very cheap in subscription terms, weak on design.

Full images: All together · Desktop · Mobile · Promo

Source Craft + Default

Seems inexpensive, but no point in using it, neuro-slop neuro-slop.

Full images: All together · Desktop · Mobile · Promo

Source Craft + Default Thinking

It’s like Default and Default Thinking models in Yandex Source Craft are not just different modes of one model, but different models: too different a result, with the reasoning model even worse.

Full images: All together · Desktop · Mobile · Promo

Kilo Code + Opus 4.7 (Kilo cloud)

Typical Opus 4.7. Clean in places, interesting, from afar it’s super-duper.

Full images: All together · Desktop · Mobile · Promo

Kilo Code + Hy3 preview (Kilo cloud)

The trendiest open-source model on Openrouter. Very so-so.

Full images: All together · Desktop · Mobile · Promo

Kilo Code + Qwen 3.6 Max Preview (Kilo cloud)

In general Qwen did decently for me. A bit dim, but pretty solid. Sagged in promo like everyone. 1/30 of Opus’s price.

Full images: All together · Desktop · Mobile · Promo

Kilo Code + Qwen 3.5 397

Didn’t cope with the tools.

Full images: All together · Desktop · Mobile · Promo

Kilo Code + Grok Build 0.1 + Google Skill

Same prompt with Google’s design skill attached; compare with OpenCode Grok Build 0.1 without a skill.

Full images: All together · Desktop · Mobile · Promo

OpenCode + Opus 4.7, xhigh reasoning (OpenRouter)

Not bad, what would have been in mobile I don’t know, because after this screen Openrouter banned me from American SOTA models.

Full images: Desktop

OpenCode + Kimi 2.6 (OpenRouter)

Mobile is better than the rest, the rest is bad. The funny thing is everything was duplicated, but then through screenshots it discovered and erased it itself. Because of this it fussed for a very long time — 40+ minutes.

Full images: All together · Desktop · Mobile · Promo

OpenCode + Grok 4.3 (OpenRouter)

Grok was already above, but unlike Cursor, Opencode couldn’t handle the model at all, the result is much worse than Cursor’s.

Full images: All together · Desktop · Mobile · Promo

OpenCode + Grok Build 0.1 (OpenRouter)

Fast, weak, expensive for this quality.

Full images: All together · Desktop · Mobile · Promo

OpenCode + DeepSeek V4 Pro (Deepseek Cloud), Max Reasoning

DeepSeek is very cheap, but managed only once. Mobile is watchable, the rest is bad.

Full images: All together · Desktop · Mobile · Promo

Full images: All together · Desktop · Mobile · Promo

OpenCode + GLM 5.1 (z.ai coding plan)

Unlike Cursor, Opencode managed to get something out of GLM, turned out generally OK for its price. It costs less than Haiku, which couldn’t do literally anything.

Full images: All together · Desktop · Mobile · Promo

OpenCode + Qwen 3.5 397

Couldn’t do anything.

Full images: All together · Desktop · Mobile · Promo

OpenCode + MiniMax 2.7 (OpenRouter)

Incredibly fast, incredibly cheap, the quality is accordingly.

Full images: All together · Desktop · Mobile · Promo

OpenCode + Qwen 3.7

Expensive for its result, no improvement over 3.6 Max. Very bad at using tools (possibly an Opencode issue).

Full images: All together · Desktop · Mobile · Promo

Figma: Claude Code + Opus 4.7, xhigh

Opus in its style, especially from afar, but ate more than a full 5-hour quota.

Full images: All together · Desktop · Mobile · Promo

Figma: Codex + GPT 5.5, xhigh

In Figma it managed slightly better than in Paper. Lays things out monstrously simply.

Full images: All together · Desktop · Mobile · Promo

Figma: Cursor + GLM 5.1 (z.ai coding plan)

In general worse than in Paper. The desktop layout on the bottom is me dragging a layer to where it needs to go, GLM didn’t master a correct DOM.

Full images: All together · Desktop · Mobile · Promo

Cursor + Composer 2

Catastrophically bad, worse than in Paper.

Full images: All together · Desktop · Mobile · Promo

After the main experiment I decided to try giving it the Impeccable skill and see how it would influence things. The same prompt, but with the skill. Full config — Claude Code + Opus 4.7, xhigh + Frontend Design Skill

I only made one desktop screen, it eats a lot, even fancier than it was. One screen ate 44% of the 5h · pro quota in Claude Code. It’s like Opus became even more Opus-y and some kind of grief-from-too-much-design-thinking started. Every pixel shouts «look how beautiful I am». There are errors, but the design became even more designer-y.

Full image: Desktop

4 How much all this cost, you ask

In general there are prices in the table, dollars in Cursor are virtual (included in the subscription), the rest are real.

~$20 — the models
$16 — Paper Pro with a higher MCP limit.
3×$20 — subscriptions to Claude, Codex and Cursor, but they were already there.

The most expensive option would cost $12.30 (Cursor + Opus 4.7), the cheapest — $0.03 (Minimax 2.7), the difference — 410x. Opus wasn’t running at 100%, if I had turned on max-reasoning, it would have been about ×2.

5 Future experiments

What I would like to check, that didn’t make it into this series:

Check with skills: how much this or that skill can improve the design.
Check by giving styles, user scenarios and other context.
Check by allowing it to ask clarifying questions: about tasks, product, style and user.
Check what happens if you give it a rough sketch of the interface and bring it to a finished state.
Give an existing screen and ask it to add style or improve only the interface without a complete redo of the structure.
Let it read Gorbunov’s layout advice and check again.

6 Conclusions

Opus is on top. Expensive and awesome. Surprisingly, the next one isn’t even GPT. Neither 5.4 nor even 5.5 come close. Chinese models, even Cursor’s auto mode, do it better. GPT 5.4 writes code well, explains and does analyses well. Design — a flop.
Chinese models are overfitting on metrics and benchmarks. In general all models outside the big labs are like this. By SWE metrics they’ve already caught up with and overtaken Opus, but in real life they can’t do a simple task. Some can’t even cope with correctly calling tools. A typical example is Minimax 2.7 — by all metrics it’s very good, in design it can do nothing. In the end it’s only good in speed and price (those are really wow). Someone will say DeepSeek is overfitting too. I can’t say so unequivocally about it: first, DeepSeek made one of the mockups noticeably better, and second, it still has some kind of problems with calling tools, as was the case in version 3.2. The best result is from those Chinese models that do their work without particularly shouting — Qwen 3.6 (but 3.5 is so-so).
A good model makes design by developers and product managers themselves quite pointless, unless they have an understanding of design. It’s rare, but such people exist. If not, the model will do it faster and better. There’s still work for designers, you can breathe out for a quarter.

P. S.

Since you’re here, try recipe-scaler.ru — the best recipe management app ever made. Wasn’t this all for nothing — so many design experiments? If every tenth person comes in, I’ll have +1000% users instantly.

By the way, here’s what the post attachments block looks like:

upd. Added Gemini 3.5 Flash, Grok Build, MiMo 2.5, Opus 4.8

83 1 мес ai design

Подписаться на блог…

Recipe scaler: набор изменений номер 5

Еще новинки самого лучшего в мире менеджера рецептов

Как вы помните (не помните, конечно), я делаю самый удобный и продвинутый менеджер рецептов — recipe-scaler.ru.

С момента прошлого поста прошла неделя. За это время я в фоне поделал еще пару классных штук.

1. Список покупок

Сейчас можно и список покупок вести в общей приложухе. Синхронизация, оффлайн — все будет работать как привычно. Можно пошарить ссылкой или текстом для месенджера. Можно весь рецепт отправить в покупки.

Ну не кайф ли? Плюс одно приложение внутри приложения.

2. Расширение для Хрома

Телеграм у некоторых не работает, чтобы можно было сохранить рецепт я сделал расширение. Жмакаете, и рецепт отправляет в приложение.

Recipe Scaler Importer

89 2 мес recipe scaler готовка курсор проекты

Подписаться на блог…

Recipe scaler: набор изменений номер 4

Рассказываю о новинках самого лучшего в мире менеджера рецептов

Как вы помните (не помните, конечно), я делаю самый удобный и продвинутый менеджер рецептов — recipe-scaler.ru.

С момента прошлого поста прошло два месяца. За это время я в фоне поделал еще немного разных штук.

1. Раздел Discovery

Можно почитать чужие рецепты. Пока рецепты людей, но потом будут еще и коллекции, ищу где можно найти рецептов так, чтобы не нарушить сразу 100 миллионов авторских прав

2. Универсальный импорт

Импорт сильно прокачался. Сейчас можно импортировать что угодно: много рецептов за раз, много ссылок, рецепты из произвольного текста или файла произвольного формата. Можно даже импортировать рецепты из фотографии, например, отфоткать любимые бабушкины рецепты и автоматически загрузить их к себе.

Если хотите перенести рецепты из своего приложения, то есть описание для формата для агента: гайд для вашего агента

3. Пин рецептов

Частые рецепты можно запинить сверху, чтобы не искать их внизу по алфавиту

4. Эмодзи-иконки

Если начать рецепт с эмодзи, то эмодзи станет его иконкой. Сортировка, понятно, будет работать нормально, без учета эмодзи

5. Вход по QR-коду

Чтобы войти на другом устройстве, например, на телефоне, можно просто отсканировать QR-код, без передачи секретной фразы.

6. Скачать рецепт в ПДФ

Можно скачать рецепт в ПДФ и одной штукой

Кстати, зацените как клод умеет. Можно аттачить в чат рецепт, если подключить Recipe Scaler MCP.

111 2 мес recipe scaler готовка курсор проекты

Подписаться на блог…

ИИ-нативные продукты

Рассуждаю, что важно учесть при разработке сложного софтверного продукта сейчас, чтобы он остался актуальным через год или два

Мир софта меняется и скоро поменяется совсем. Да, я про ИИ и ЛЛМ в частности. Многие компании не пережили прошлую мобильную революцию (вспомните про нокию). Я размышляю как нам пережить эту. Поэтому, я хочу поразмышлять, что значит «ии-нативные продукты».

Я говорю не про конкретные ии-фичи, не про пресловутого бота, который отвечает мимо и невпопад, а скорее про общее ощущение от продуктов. Я говорю про по сути набор нефункциональных требований, касающихся ИИ, которые могут быть применимы ко всем нашим продуктам. Как сделать продукт, который:

будет актуальным в среде агентов, а не людей,
сам будет таким, что в нем агент станет полноценным пользователем и субъектом наряду с человеком

Особенно это важно тем, кто поставляет продукты в он премис, там делают продукт не на месяц вперед. Пока спроектируют, пока разработают, пока клиенты обновятся. Продукт делается сейчас, а клиенты будут пользоваться ими через год.

Хочется сейчас угадать и сделать что-то, что за год-два не потеряет своей актуальности.

Для контекста: почти год назад, в конце февраля, вышел Сонет 3.7. Сонетом 3.7 уже можно было пользоваться, он мог уверенно написать работающий файл. Ну может несколько файлов. Но он не был настолько автономным как Опус 4.6 или ГПТ 5.4.

Для контекста: стоимость решения одной и той же задачи с помощью ЛЛМ падает в 10 раз каждый год.

Вот что мне приходит в голову ↓

1. Не оптимизировать human-only-сценарии

Я бы не вкладывался в долгую разработку удобного интерфейса работы оператора и решения им тех задач, которые он в целом решать не должен. Я бы подумал перед тем как тратить сейчас не одну сотню человеко-часов только на фронте.

Хорошо: сделать графический редактор сценариев в стиле н8, но быстро.
Не стал бы: тратить 500 человеко-часов на конструктор сценариев, хотя за 100 часов можно было бы сделать написание тех же сценариев из войса в телеграме.

2. Удобный, ии-нативный интерфейс

Я бы в целом ожидал возврата к основам линукосовой концепции «всё — это файл» и концепции компонуемости из юникс-утилит — программы как атомарные небольшим программам, результаты которых можно цеплять друг к другу через пайп и с унифицируемым интерфейсом ввода (текст) и вывода (текст).

Я не говорю именно про терминал и текст, но идея компонуемости, как мне кажется, станет более актуальной.

Интерфейс программ должен быть стандартный и максимально дружелюбный для агентов: rest api, терминальные команды, стандартный протокол.

Хорошо: консольный cdk для прогона тестов
Не стал бы: gui-программа для прогона тестов, которая еще работает только для Виндоуза.

Я говорю про достаточно общие протоколы, не обязательно про МПЦ. Я не удивлюсь, если через год агенты научатся работать с любыми апи по опенапи-спеке и мы забудем врапперы типа МПЦ, как тупиковую ветвь эволюции.

3. Агент должен уметь разобраться по доке

Если доки недостаточно, чтобы агент разобрался — дока не очень. Если для интеграции продукта с телеграмом недостаточно дать доку агенту и отправить делать, значит дока не очень понятная или подробная. Если агент не может запустить дев-стенд вашего продукта по доке за один промт — у вас что-то не так.

Сама дока должна быть доступна в агент-френдли формате: сервер-сайд-рендеринг, llm.txt или agents.md, доступность из курла. Никаких реакт-сайтов, которые требуют браузера. Да, агенты уже умеют читать и такое, но зачем усложнять им жизнь.

4. Стандартные форматы хранения, языки и протоколы

Я бы до последнего откладывал придумывание своих кастомных DSL, а попытался бы найти распространенный язык для задачи. Даже если бы он подходил всего лишь на 50%. Я понимаю, что ллм выучит и чужой незнакомый DSL. Но я не специалист и кажется, что лучше бы, чтобы не учила. Наша выучит, другая не станет.

5. Собирать из всего, что можно собрать, датасеты

В каждой фиче думать, какие данные нужно собрать и сохранить. С клиентов: метрики, сценарии действий, телеметрию. С нас самих: сохранять треки работы внутренних пользователей, записи всех митингов и обсуждений, все код-ревью, тикеты в саппорте, вопросы в чатах и поисковые запросы на портале хелпа.

Контекст менеджмент — 50% самого важного в контексте именно написания продукта (вторые 50% — харнес). И поэтому не удивительно, что Ноушен и Линеар сделали своих агентов, у них внутри столько контекста по компании, что зашатаешься.

6. Не замыкаться в текущих ограничениях

Стоит рассчитывать, что через 2-3 года контекстное окно вырастет так, что можно будет отправлять туда 5 миллионов токенов (давайте представим, что я — футурист). Т. е. в окно контекста целиком влезут те данные, для которых сейчас нужно делать сложные система РАГ.

7. Агенты — first class citizens

При реализации каждой фичи нужно начать думать: а какие тулы и апишки нужно в рамках фичи заэкспоузить наружу для будущие агентов, и тратить на это время не по остаточному принципу, а так, чтобы агенты были first class citizen.

Если функция доступна человеку, но недоступна агенту — мы сделали что-то не так.

8. Безопасность всего этого

Придется подумать, как не сделать с агентским продуктом с невероятно широким контектом хуже, чем без него вообще. В какой-то момент в защите инфраструктуры возник zero trust (когда пропал периметр и всё стало периметром), так же и тут нужно будет делать zero trust 2.0.

Как минимум нужны будут:

границы применимости: разделение на задачи, где норм принять решение агенту и на те, где обязателен человек;
трассировка источников: откуда агент взял вывод и как к нему пришел,
аудит: что он сделал и почему;
replayability: можно ли воспроизвести решение агента потом при разборе инцидента.

9. Как встроить ии в feedback loop работы продукта

Хочется как-то перенести ответственность за контекст с человека на агента. Не оператор должен думать какие данные передать агенту, а агент должен у себя иметь инструменты self discovery и data retrival, пусть сам подумает, что ему надо.

Сейчас хорошо работает сказать агенту «задай мне вопросы, которые помогут тебе хорошо решить задачу», хочется что-то аналогичное.

10. Самим заставлять себя решать задачи ллмками и агентами

Самим пытаться становиться ии-нативными, даже если прямо сейчас так медленнее. Например, договориться, в командах, что все лоу-баги чинятся только ЛЛМкой, никакой код нельзя для этого писать руками.

Случайно вышло 10 пунктов, ну и хорошо.

Если вдруг у кого есть, прости господи, подкаст, можем поговорить про это.

142 2 мес ИИ ллм работа

Подписаться на блог…

ЛЛМ и дизайн

Я шарю скилл несколько раз, самое время кинуть в пост

Как делать дизайн с ЛЛМ, чтобы не было дефолтно и ИИшно:

Не делать, делать руками
Кидать референсы
Дать скиллов

Пост про опцию три.

https://impeccable.style
Есть вот такой набор скиллов, в нем разные вещи, чтобы делать дизайн и верстку:

Аудит того, что есть и критика
Есть работа с текстом
Есть работа с визуалкой

На промостранице есть объяснения, начните с них.

Это не серебрянная пуля, по начать, например, можно с этого.

https://developers.openai.com/blog/designing-delightful-frontends-with-gpt-5-4/
Скилл и объяснение от опенаи

107 2 мес вайб-кодинг дизайн ллм

Подписаться на блог…

Street guesser

Игра, чтобы выучить свой район

Как ведь бывает, переехал в новый район, а там все улицы незнакомые. Как вот их учить?

Сделал игру:

Случайный положительный эффект: можно легко сравнить масштаб городов, понять, что Садовое в Москве — это от Фонтанки с заходом на начало Васьки и Петроградки.

178 4 мес street guesser вайб-кодинг игра

Подписаться на блог…

Важность рефлексии растет

На пост меня натолкнула рабочая ситуация: Я написал (будем честны, попросил ллм написать) один скрипт, и некоторые коллеги прореагировали «о, давно о таком мечтаю». И у меня в голове щелкнуло.

Сейчас простые задачи решаются ллмками достаточно хорошо. Ядро линукса они все еще не напишут, но пропарсить все ресурсные файлы проекта, сгруппировать одинаковые строчки и дать к ним мгновенный поиск — это задача на один промт. И все, что удерживает людей сейчас, от того, что некоторая часть их задач начнет быть проще — рефлексия. Все что нужно — остановиться, и заметить момент «ага, я тут хочу упрощение, которое возможно реально»).

И если раньше рефлексия не всегда помогала, например:

Понял, что занимается рутиной, но невозможно понять, что рутина автоматизируема.
Понял, что занимается рутиной, пошел узнать, автоматизируема ли она, ИТ-служба сказала «не существует технической возможности».
Понял, что занимается рутинной автоматизированной задачей, понял, что автоматизируема, а питониста рядом нет.
Понял, что занимается рутинной автоматизированной задачей, понял, что автоматизируема, а питонист рядом занят.
Понял, что занимается рутинной автоматизированной задачей, понял, что автоматизируема, сходил в ИТ, питониста нашли, они задачу взяли, то на Q3 2027 года, потому что есть более важные.

Сейчас ситуация сильно меняется.

Понял, что занимается рутинной автоматизированной задачей, потратил один-два промта и, возможно, получил решение.
Возможно решения не получил, но и потратить 10 минут как будто не так и долго. Время на созвон со знакомым питонистом будете в календаре выбирать дольше.

Нас всегда учили, что идея не стоит ничего. В целом идея все так же стоит ничего, но иногда — чуть больше, чем ничего, если есть ллмка.

220 4 мес вайб-кодинг ИИ работа рефлексия

Подписаться на блог…

ИИ-дизайн

Я задал один и тот же промт нескольким моделям и вот что вышло

Промт

Прочитай @/llm/PRD.md и сверстай статическую html-страницу about. Укажи в ней все преимущества, придумай как их проиллюстрировать, используй модный современный дизайн

Сохрани в файл about-page/{model-name}.html

Ориентируйся только на prd, не используй about-страницу.

Эксперимент проведен в декабре 2025-январе 2026. Использовался openrouter или облака ллммок. В скриншотах могут быть небольшие артефакты, скриншоты снимал плейрайт, он не умеет в стики-позиции.

Для сравнения дизайн кожаного мешка (меня): https://recipe-scaler.ru/#/about

Gemini 3 pro

Grok code fast 1

Minimax 2.1

Minimax 2.1

Minimax 2.1

Minimax 2.1

Тут я просил швейцарский стиль

Minimax 2.1

Тут я просил брутализм

Opus 4.5

Opus 4.5

Тут я просил брутализм

Swe 1.5

Swe 1.5

Yandex assistant 2026-01-20

Zai GLM-4.7

256 5 мес вайб-кодинг ИИ эксперименты

Подписаться на блог…

Псевдозабота Клод Кода

Клод код (Claude Code) заботится обо мне и показывает команды на согласования, к сожалению, он делает это ~~без уважения~~ плохо.

Посмотрите на этот апрув:

Выполняет трехстрочную шелл-команду с вложенными конструкциями: циклы, условия. Если там где-то будет какая-то ошибка, я её просто не замечу.

Я не специально выбирал, что скриншотить, они все такие:

У меня остается два варианта:

Как мартышка жать и жать на кнопку «Approve». В итоге вырабатывается привычка, которая не даст мне себя защититить в опасной ситуации. См. принцип «подтверждения не работают».
Один раз апрувнуть тоже не выйдет, потому что эта конкретная трехэтажная команда вряд ли когда-нибудь появится.
Согласитья на YOLO (You Only Live Once) режим и разрешить ему делать все, что угодно, даже rm -rf /

Оба варианта, как вы понимаете, плохие.

Как надо

Клод код должен выдавать ЛЛМ понятные инструменты к файлам: прочитать, изменить, и т. д. ЛЛМ должна не грепать файлы, а читать их тулами. Тогда клод код с одной стороны сможет не спрашивать никаких разрешений на чтение файлов (разве что на .env), а с другой быть уверенным, что ЛЛМ ничего не сломает своей командой. Тулом чтения ничего сломать нельзя по определению.

Да, это нужно программировать, а греп уже есть. Да, греп более атомарный и гибкий, чем любые придуманные тулы. Да, ЛЛМ точнее сгенерирует команду для грепа, поскольку она на них обучалась. Но блин, апрувить все команды — не решение вовсе.

Понятно, что клод код не увидит мой пост, но вы, когда будете делать ИИ-фичи, не будьте как клод.

158 5 мес ИИ привычки

Подписаться на блог…

Ранее Ctrl + ↓

Ваш пароль

Блог Михаила Озорнина

1 План эксперимента

1.1 Процедура

1.2 Особенности эксперимента

1.3 Формальные цели

2 Результаты

2.1 Качество результата

2.2 Качество верстки

2.3 Размышления и удивления по ходу эксперимента

3 Все результаты по одному

3.1 Paper MCP

3.2 Figma MCP

Полный список всех картинок

Paper MCP

Antigravity + Gemini 3.1 Pro, high

Antigravity + Gemini 3.5 Flash

Claude Code + Opus 4.7, xhigh

Claude Code + Opus 4.8, xhigh

Claude Code + Opus 4.7, med

Claude Code + Opus 4.6, max

Claude Code + Sonnet 4.5, xhigh

Claude Code + Haiku 4.5

Codex + GPT 5.5, xhigh

Codex + GPT 5.4, xhigh

Cursor + Auto

Cursor + Opus 4.7

Cursor + GPT 5.4, xhigh

Cursor + Gemini 3.1 Pro

Cursor + Grok 4.3

Cursor + GLM 5.1 (z.ai coding plan)

Cursor + Composer 2

Cursor + Composer 2.5

Cursor + MiMo V2.5 Pro

Source Craft + Default

Source Craft + Default Thinking

Kilo Code + Opus 4.7 (Kilo cloud)

Kilo Code + Hy3 preview (Kilo cloud)

Kilo Code + Qwen 3.6 Max Preview (Kilo cloud)

Kilo Code + Qwen 3.5 397

Kilo Code + Grok Build 0.1 + Google Skill

OpenCode + Opus 4.7, xhigh reasoning (OpenRouter)

OpenCode + Kimi 2.6 (OpenRouter)

OpenCode + Grok 4.3 (OpenRouter)

OpenCode + Grok Build 0.1 (OpenRouter)

OpenCode + DeepSeek V4 Pro (Deepseek Cloud), Max Reasoning

OpenCode + GLM 5.1 (z.ai coding plan)

OpenCode + Qwen 3.5 397

OpenCode + MiniMax 2.7 (OpenRouter)

OpenCode + Qwen 3.7 Max Preview (OpenRouter

Figma: Claude Code + Opus 4.7, xhigh

Figma: Codex + GPT 5.5, xhigh

Figma: Cursor + GLM 5.1 (z.ai coding plan)

Cursor + Composer 2

4 Сколько все это стоило, вы спросите

5 Будущие эксперименты

6 Выводы

P. S.

1 The experiment plan

1.1 Procedure

1.2 Particulars of the experiment

1.3 Formal goals

2 Results

2.1 Quality of the result

2.2 Quality of the layout

2.3 Thoughts and surprises during the experiment

3 All the results in one place

3.1 Paper MCP

3.2 Figma MCP

Full list of all the images

Paper MCP

Antigravity + Gemini 3.1 Pro, high

Antigravity + Gemini 3.5 Flash

Claude Code + Opus 4.7, xhigh

Claude Code + Opus 4.8, xhigh

Claude Code + Opus 4.7, med

Claude Code + Opus 4.6, max

Claude Code + Sonnet 4.5, xhigh

Claude Code + Haiku 4.5

Codex + GPT 5.5, xhigh