Автоматическая аннотация изображения

Автоматическая аннотация изображения (также известна как автоматическая маркировка изображений или лингвистическая индексация) — процесс, с помощью которого компьютерная система автоматически назначает метаданные в виде титров или ключевых слов для цифрового изображения. Это применение методов компьютерного зрения используется в системах поиска изображений для организации и поиска изображений из базы данных, представляющих интерес.

Этот метод можно рассматривать как тип многоклассовой классификации изображений с очень большим количеством классов — размер сопоставим со словарным запасом. Обычно анализ изображений в виде извлеченных векторов признаков и обучающих слов аннотации используются техниками машинного обучения, чтобы попытаться автоматически применять аннотации к новым изображениям. Первые методы изучали корреляции между характеристиками изображения и обучающими аннотациями, затем были разработаны методы с использованием машинного перевода, чтобы попытаться перевести текстовый словарь с «визуальным словарем» или кластеризованными областями, известными как блобы. Работа после этих усилий включала в себя классификационные подходы, модели релевантности и так далее.

Преимущества автоматической аннотации изображения по сравнению с контентным поиском изображения (CBIR) заключаются в том, что запросы могут быть более естественно заданы пользователем.[1] CBIR обычно (в настоящее время) требует, чтобы пользователи выполняли поиск по таким понятиям изображения, как цвет и текстура, или находили примеры запросов. Некоторые функции изображений в примерах изображений могут отвергать концепцию, на которой действительно сосредоточен пользователь. Традиционные методы поиска изображений основаны на изображениях, помеченных вручную, что является дорогостоящим и трудоемким процессом, особенно с учетом больших и постоянно растущих существующих баз данных изображений.

Некоторые движки подключены к сети Интернет, в том числе механизм маркировки в реальном времени[2], разработанный исследователями из Университета штата Пенсильвания и Behold. Такие компании, как Playment, Edgecase.ai, Microsoft VOTT.ai и dataloop.ai создали встроенные автоматические движки для аннотирования видео. Компании, такие как Alegion.com, Infolks, DataPure.co, Scaleapi.com, Diffgram.com, Figure-eight.com предлагают комбинацию автоматической аннотации изображений с комбинацией ручного обзора при сбое автоматизации.

Примечания

Masashi Inoue. On the need for annotation-based image retrieval // National Institute of Informatics 2-1-2 Hitotsubashi, Chiyoda-ku Tokyo, Japan.
ALIPR.com (неопр.) (недоступная ссылка). Архивировано 3 марта 2016 года.

This article is issued from Wikipedia. The text is licensed under Creative Commons - Attribution - Sharealike. Additional terms may apply for the media files.

[1] Masashi Inoue. On the need for annotation-based image retrieval // National Institute of Informatics 2-1-2 Hitotsubashi, Chiyoda-ku Tokyo, Japan.

[2] ALIPR.com (неопр.) (недоступная ссылка). Архивировано 3 марта 2016 года.