Компьютерное текст-зрение
kvisaz — 27.02.2023
Interrogate CLIP в Stable Diffusion можно было бы адаптировать для
слабовидящих, как дополнительное средство распознавания мира. Он, к
сожалению, не очень хорошо работает. Вместо одного тапка увидел
два, зато правильно описал, что они с мехом и на зеленом полу.
Сложные композиции ему тяжелы, но он почти правильно передает
настроение.Я попробовал мобильные приложения с ключевиком Object Detector - они работают еще хуже.
Вот какой концепт для слабо- и невидящих я вижу - оптимизированный вариант CLIP на каком-то мобильном устройстве, с камерой на 360. По запросу/нажатию - ласково шепчет в ухо
- Впереди красное здание на 3 этажа, сзади лес, слева грузовик, справа светофор.
Это может стать очень мощным помощником. Черт побери, да такой помощник помог бы и велосипедистам, и многим другим на трассе, чтобы не оборачиваться, а просто слушать
- Внимание! Сзади резко появилась фура!
Надеюсь, все к тому и придет. Техника подешевеет, а модели распознавания станут еще лучше.
|
|
</> |
Капитальный ремонт в многоквартирном доме: права и обязанности собственников 
