Тёмные данные
Тёмные данные — данные, которые автоматически собираются в ходе рутинных действий в компьютерных сетях, но никоим образом не используются для получения информации или принятия решений[1][2]. Способность организации собирать данные может превышать пропускную способность, с которой она может анализировать данные. В некоторых случаях организация может даже не знать, что данные собираются[3]. По оценкам IBM, примерно 90 процентов данных, генерируемых датчиками и аналого-цифровыми преобразователями, никогда не используются[4].
В промышленном контексте тёмные данные могут включать информацию, собранную датчиками и телематикой[5].
Организации хранят скрытые данные по множеству причин, и, по оценкам, большинство компаний анализируют только 1 % своих данных[6]. Причинами хранения неиспользуемых данных может быть необходимость соблюдения нормативных требований[7] и ведения архивов[1]. Некоторые организации считают, что скрытые данные могут быть им полезны в будущем, когда появятся более совершенные технологии аналитики и бизнес-аналитики[3]. Поскольку хранение стоит недорого, хранить данные легко. Однако хранение и защита данных обычно влечет за собой более высокие расходы, чем потенциальная прибыль.
Профессор Дэвид Хэнд из Имперского колледжа Лондона использует термин «тёмные данные» для обозначения отсутствующих данных: «тёмные данные — это данные, которых у вас нет»[8][lower-alpha 1].
Анализ
Многие тёмные данные неструктурированы, что означает, что информация представлена в форматах, которые может быть трудно классифицировать, прочитать компьютер и, таким образом, проанализировать. Часто причина того, что бизнес не анализирует свои тёмные данные, заключается в количестве ресурсов, которые ему потребуются, и сложности анализа этих данных. По данным журнала Computer Weekly, 60 % организаций считают, что их собственные возможности бизнес-аналитики «неадекватны», а 65 % говорят, что у них «несколько неорганизованные подходы к управлению контентом»[10].
Актуальность
В категорию тёмных данных могут попадать и полезные данные потерявшие актуальность со временем. Это происходит из-за недостаточной скорости обработки данных. Например, если геолокация клиента известна бизнесу, компания может сделать предложение на основе местоположения, однако, если эти данные не обрабатываются немедленно, они могут быть неактуальными в будущем. По данным IBM, около 60 процентов собираемых данных сразу теряют свою ценность[4].
Хранение
По данным New York Times, 90 % энергии, используемой центрами обработки данных, тратится впустую[11]. Отказ от хранения избыточных данных позволил бы сэкономить на расходах на электроэнергию. Кроме того, существуют издержки, связанные с недоиспользованием информации и, как следствие, упущенными возможностями. Согласно Datamation, "данные, которые хранятся в организациях-членах EMEA на 54 % состоят из тёмных данных, 32 % — избыточные, устаревшие и тривиальные данные и лишь 14 % представляют какую-то ценность. По состоянию на 2020 год хранение избыточных данных обходится в примеро в 900 млд долл. США[12].
Постоянное хранение тёмных данных может подвергнуть организацию риску, особенно если эти данные являются конфиденциальными. Утечка данных может привести к серьезным последствиям: финансовым, юридическими и репутационным. Например, утечка личных данных клиентов может привести к массированной краже личных данных . Другим примером может быть утечка собственной конфиденциальной информации компании, например, относящейся к исследованиям и разработкам . Эти риски можно уменьшить, оценив и проверив необходимость данных для организации, а также используя надежное шифрование и другие меры безопасност[13] . Удаление ненужных данных следует делать таким образом, чтобы их невозможно было восстановить[14].
Будущее
Принято считать, что по мере создания более совершенных вычислительных систем, ценность тёмных данных будет возрастать. Существует мнение, что данные и их анализ станут основой новой промышленной революции[5]. В число потенциально полезных данных входят и те, которые в настоящее время считаются «тёмными данными», поскольку для их обработки недостаточно ресурсов. Все эти данные, могут быть использованы в будущем для обеспечения максимальной производительности и способности организаций удовлетворять потребности потребителей. Особенно большую пользу от обработки неиспользуемых данных могут в будущем получить организации здравоохранения и образования, которые имеют дело с большими объемами данных[15].
Примечания
- Сноски
- Хэндс насчитывает 15 различных типов тёмных данных, в зависимости от природы последних[9]
- Примечания
- Dark Data . Gartner.
- Tittel. The Dangers of Dark Data and How to Minimize Your Exposure . CIO (24 September 2014).
- Brantley. The API Briefing: the Challenge of Government's Dark Data . Digitalgov.gov (17 июня 2015).
- Johnson. Digging up dark data: What puts IBM at the forefront of insight economy (англ.) ?. SiliconANGLE (30 октября 2015). Дата обращения: 3 ноября 2015.
- Dennies. TeradataVoice: Factories Of The Future: The Value Of Dark Data . Forbes (February 19, 2015). Архивировано 22 февраля 2015 года.
- Shahzad. The big data challenge of transformation for the manufacturing industry . IBM Big Data & Analytics Hub (January 3, 2017).
- Are you using your dark data effectively (недоступная ссылка). Дата обращения: 27 апреля 2021. Архивировано 16 января 2017 года.
- David Hand. 10-Minute Talks: Dark data . The British Academy. The British Academy (18 November 2020). Дата обращения: 2 марта 2021.
- Хэнд, 2021, с. 17.
- Miles. Dark data could halt big data's path to success . ComputerWeekly (27 December 2013). Дата обращения: 3 ноября 2015.
- Glanz. Data Centers Waste Vast Amounts of Energy, Belying Industry Image, The New York Times (22 сентября 2012). Дата обращения 2 ноября 2015.
- Hernandez. Enterprises are Hoarding 'Dark' Data: Veritas . Datamation (October 30, 2015). Дата обращения: 4 ноября 2015.
- DarkShield Uses Machine Learning to Find and Mask PII, IRI. Дата обращения 14 января 2019.
- Tittel. The Dangers of Dark Data and How to Minimize Your Exposure . CIO (24 сентября 2014). Дата обращения: 2 ноября 2015.
- Prag. Leveraging Dark Data: Q&A with Melissa McCormack (англ.) ?. The Machine Learning Times (30 сентября 2014). Дата обращения: 4 ноября 2015.
Литература
- Дэвид Хэнд. Темные данные. Практическое руководство по принятию правильных решений в мире недостающих данных = David J. Hand. Dark Data Why What We Don’t Know Is Even More Important Than What We Do. — М.: Альпина Паблишер, 2021. — 366 с. — ISBN 978-5-9614-4143-7.