Распознавание изображений
ploughlike_elk — 31.10.2025
Вот еще интересная иллюстрация работы искуственного псевдо-интеллекта. С распознаванием изображений у него все весьма и весьма неплохо. Даю ему вводную картинку и прошу перечислить ВСЕ предметы видимые на картинке. Он справляется с этим лучше чем моя жена (и лучше чем другие языковые модели, но поскольку я сравниваю уровень платного ChatGPT с бесплатным других моделей это нечестное сравнение)

Main Items on the Table
- Laptop computer (displaying the translit.ru website).
- Wireless keyboard (black, slim profile).
- Wireless mouse (black, near right side).
- Eyeglass case, black (hard shell, cylindrical).
- Eyeglass case, wooden / light brown (rectangular, smooth edges).
- Transparent eyeglass lens or lens
cover (small, near the mouse).
[Это просто пятно на столе осталось от горячей чашки. Действительно похоже на какую-то круглую линзу, только почему-то с отрезанным краем. Тут наполовину фейл.]
Visible Fragments / Partial Objects
- Blue notebook or folder edge
(barely visible at the upper left corner behind the laptop
screen).
[Это поставка под телефон, но этот предмет действительно невозможно распознать если заранее не знать что это] - Paper or white sheet (partially visible beneath or behind the blue notebook).
- Cables or dark cords (barely
visible behind the laptop, likely power or peripheral
cables).
[На самом деле кабель едва виден с левой стороны от ноутбука, ибо не попал в фокус. Тут за кабель ИИ принял краешек обложки тетради. Это тоже простительная ошибка]
- Chair or upholstered backrest (visible in the background, upper right and left).
Other Notable Details
- Wooden tabletop surface (medium brown, textured).
- Laptop power indicator lights and keyboard reflection (visible on the screen’s lower bezel).
- Multiple browser tabs open in the laptop’s top bar (part of screen detail).
Would you like me to make a labeled diagram marking each
item’s position (1–13) on the photo?
Но вот обратный процесс ему не удается вовсе. ИИ сам предлагает поставить номерки на картинке согласно списку предметов и обратите внимание - он не просто использует исходное изображение, а генерирует собственное. Но правильно присвоить названия тому что нарисовал не может, вот что характерно и уже далеко не в первый раз вижу.

На самом деле это очень досадно, потому как правильное
иллюстрирование концепций описываемых языковой моделью было бы
исключительно уместно для внедрения псевдо-ИИ в самые разные сферы
деятельности (например, динамическая генерация иллюстраций к любым
текстам, что особенно полезно со всякими мануалами, обучающими
материалами и т.п. - аналог "ты мне пальцем покажи, а не
рассказывай!"
P.S. Интересно еще что режим Deep Research на который
модель потратила аж 20 минут (!) с задачей распознавания справился
гораздо хуже. Тоже не в первый раз замечаю что запрос языковой
модели что-то еще более улучшить приводит к ухудшению начального
результата.
|
|
</> |
Накопление через Финуслуги: как выбрать счет под краткосрочные цели, подключить автопополнение и напоминания
Во время вчерашней прогулки.
Первая десятка в выдаче базы жертв политических репрессий с
Учусь осенью 17/30
1990-е на снимках Игоря Стомахина. 1992. «Шестой съезд народных депутатов СССР
Милоты вам в ленту
Потому что на саиом деле
День рождения. Питер Хэммилл (Van der Graaf Generator)
Опять бэбиситор

