Визуализация данных
Визуализация данных — это представление данных в виде, который обеспечивает наиболее эффективную работу человека по их изучению.[1] Визуализация данных находит широкое применение в научных и статистических исследованиях (в частности, в прогнозировании, интеллектуальном анализе данных, бизнес-анализе), в педагогическом дизайне для обучения и тестирования, в новостных сводках и аналитических обзорах. Визуализация данных связана с визуализацией информации, инфографикой, визуализацией научных данных, разведочным анализом данных и статистической графикой.
Связь с инфографикой
Термины «визуализация данных» (ВД) и «инфографика» часто считаются синонимами, однако специалисты в области представления информации проводят между ними различие.[2] В одном из подходов ВД считается частью инфографики, которая, согласно этой точке зрения, представляет собой комбинацию ВД, иллюстраций, рисунков и текста, служащую для подачи целостного сообщения.[3]
Другой подход условно проводит разграничение между этими понятиями по методу создания, эстетическим качествам и количеству данных. Согласно этому подходу, инфографика относится к представлениям данных, которые: созданы при участии человека, специфичны по отношению к представляемой информации, высокоэстетичны и не содержат много данных. Напротив, визуализация данных относится к представлениям, которые созданы алгоритмическим путём, легко воспроизводимы для разных выборок и схожих типов данных, не содержат много декоративных элементов, но отражают большие объёмы данных.[4]
История
Истоки представления данных в виде таблиц, диаграмм и карт прослеживаются с древнейших времён.[5] Ощутимая потребность в качественном представлении информации стала возникать в эпоху Возрождения, с появлением больших количеств данных и визуальной информации из географии, астрономии, геометрии, статистики и других наук.[6]
В первой половине XIX века наблюдался значительный рост работ, в которых использовалось графическое отображение данных. К середине века были изобретены все основные типы представления данных: столбчатые и круговые диаграммы, гистограммы, линейные графики, графики временных рядов, контурные диаграммы и т. д.[7]
Тенденция роста пошла на спад в начале XX века, уступив место точной математике. Тем не менее, именно в этот период стали появляться учебники и курсы по графическим методам представления данных, а сами графики стали использоваться не только для представления результатов, но и для исследования информации и выдвижения гипотез в астрономии, физике, биологии и других науках.[8]
Новый виток визуализация получила в третьей четверти XX века. Этому способствовали три события[9]:
- Появление работы Джона Тьюки, посвящённой разведочному анализу данных.[10]
- Появление книги Жака Бертена (Jacques Bertin) «Графическая семиология» (фр. Sémiologie graphique).[11]
- Возможность визуализации данных с помощью вычислительных машин: появление эффективных средств вывода (перьевых графопостроителей, графических терминалов), а также эргономичных средств ввода данных в компьютер (кодирующего планшета, мыши).
Классификация
По цели представления данных визуализация делится на презентационную (англ. «presentation», «explanation») и исследовательскую (англ. «exploration»). Презентационная визуализация предназначена для представления данных некоторой аудитории (например, в рамках научной работы, доклада или аналитического обзора в новостях). Исследовательская визуализация предназначена для анализа и обработки набора данных, например, с целью обнаружения закономерностей в них.
Существуют также гибридные презентационно-исследовательские формы визуализации данных. В этом случае целью является всё та же презентация заложенной информации, однако человеку предоставляется возможность подробно изучать показываемый набор данных посредством интерактивных элементов, например, накладывая какие-либо ограничения на данные.[12]
Визуализация как этап анализа данных
Подсистема визуализации данных является важной составной частью качественных систем интеллектуального анализа данных, особенно ориентированных на обработку больших объёмов информации. В системах бизнес-аналитики визуализация может использоваться на всех этапах процесса обработки данных[13]:
- Визуализация исходных данных. Этот этап полезен для оценки степени соответствия ожиданиям и пригодности данных к анализу, выдвижения гипотез о закономерностях и необходимых процедурах первичной обработки.
- Визуализация выборки, загруженной в систему обработки.
- Визуализация результатов первичной обработки.
- Визуализация промежуточных результатов.
- Визуализация окончательных результатов.
В отличие от обычного графического интерфейса, эти средства обеспечивают:
- краткость (англ. concision) — способность одновременного отображения большого числа разнотипных данных;
- относительность (англ. relativity) и близость (англ. proximity) — способность демонстрировать в результатах запроса кластеры, относительные размеры групп, схожесть и различие групп, выпадающие значения (англ. outliers);
- концентрацию и контекст (англ. focus with context) — взаимодействие с некоторым выбранным объектом с возможностью просмотра его положения и связей с контекстом;
- масштабируемость (англ. zoomability) — способность легко и быстро перемещаться между микро- и макропредставлением;
- ориентацию на «правое полушарие» — предоставление пользователю не только заранее установленных методов работы с данными (обеспечивающими его намеренные и спланированные подходы к поиску нужной информации), но и поддержка его интуитивных, импровизационных когнитивных процессов идентификации закономерностей.
См. также
Примечания
- Паклин, Орешков, 2013, с. 173.
- Krum, 2014, p. 2.
- Krum, 2014, p. 6.
- Iliinsky, 2011, pp. 5—7.
- Friendly, 2009, p. 3.
- Friendly, 2009, p. 7.
- Friendly, 2009, p. 15.
- Friendly, 2009, p. 27.
- Friendly, 2009, p. 32.
- Tukey, 1977.
- Bertin, 1967.
- Iliinsky, 2011, pp. 7—8.
- Паклин, Орешков, 2013.
Литература
- Паклин Н. Б., Орешков В. И. Визуализация данных // Бизнес-аналитика. От данных к знаниям. — 2-е изд. — СПб.: Питер, 2013. — С. 173—210. — ISBN 978-5-459-00717-6.
- Bertin J., Barbut M. C. Sémiologie Graphique. Les diagrammes, les réseaux, les cartes. — Paris: Gauthier-Villars, 1967. — 431 p.
- Английский перевод: Bertin J. Semiology of Graphics: Diagrams, Networks, Maps. — University of Wisconsin Press, 1983. — 415 p. — (Central Asia book series). — ISBN 9780299090609.
- Friendly M. (2009-08-24). «Milestones in the history of thematic cartography, statistical graphics, and data visualization»., York University. Дата обращения: 2014-10-30 11:47:10. Архивная копия от 26 сентября 2018 на Wayback Machine
- Iliinsky N., Steele J. Designing Data Visualizations. — Sebastopol, CA: O'Reilly, 2011. — ISBN 9781449312282 1449312284.
- Krum R. Cool infographics: effective communication with data visualization and design. — Indianapolis: Wiley, 2014. — 348 p. — ISBN 978-1-118-58230-5.
- Tukey J. W. Exploratory Data Analysis. — Reading, Mass: Pearson, 1977. — 688 p. — ISBN 9780201076165.
- Русский перевод: Тьюки Дж. Анализ результатов наблюдений: разведочный анализ / Под ред. В. Ф. Писаренко. — М.: Мир, 1981. — 693 с.
Ссылки
- A Periodic Table of Visualization Methods (англ.). Visual-literacy.org. Дата обращения: 30 октября 2014.
- https://datavisualization.ch/ - сайт о визуализации данных.