Цифровой тёмный век
Цифрово́й тёмный век — понятие, описывающее потенциальное исчезновение исторических данных в информационную эру из-за потери доступа к электронным документам. К этому сценарию могут привести отсутствие практик электронного архивирования, устаревание форматов файлов и носителей информации. Понятие «цифровой тёмный век» является отсылкой к термину «Тёмные века», часто используемому для описания Средневековья.
Проблему начали обсуждать уже в конце 1990-х годов, когда сохранённые в старых форматах файлы перестали быть доступными, а магнитные ленты и диски начали портиться, что привело к исчезновению многих крупных баз данных. Со временем был утерян доступ и к постепенно вышедшим из оборота накопителям и носителям информации, включая дискеты, zip-накопители и компакт-диски. Для обозначения исчезновения информации в 1997 году на конференции Международной федерации библиотечных ассоциаций и учреждений было предложено использовать термин «цифровой тёмный век».
Для предотвращения наступления «тёмного века» исследователи предлагают развивать практики электронного архивирования и создавать бумажные копии цифровых данных.
Характеристика
Традиционно архивированием и сохранением информации занимались монахи и монастыри. Их работа обеспечила сохранность информации о наследии греческих, римских и арабских культур. С распространением книгопечатания в XV веке[1] эти обязанности постепенно перешли к библиотекарям и архивариусам частных и публичных библиотек[2], отслеживающих информацию об имущественных правах, налоговых документах, импорте и экспорте. Вплоть до начала информационной эры в конце XX столетия подавляющее большинство материалов хранилось на бумажных носителях. Несмотря на существующую опасность пожелтения страниц и потенциальную уязвимость перед огнём, водой и разрушением из-за времени, такие документы были универсально доступны[3][4].
С наступлением «информационной эры» обмен данными стал преимущественно цифровым[4]. Поэтому всё больше исследователей стали задаваться вопросом, что произойдёт в случае полного перехода на электронный формат при одновременном отсутствии физических копий, вроде печатных документов и фотографий. По их мнению, существует риск, что многие данные будут однажды утеряны и будущие поколения не смогут получить к ним доступ[2].
Уже к концу 1990-х годов стали очевидны недостатки архивирования электронных документов. Так, сохранённые в старых форматах файлы перестали быть доступными, а магнитные ленты и диски начали портиться, что привело к исчезновению многих крупных баз данных[5]. Со временем был утерян доступ к постепенно вышедшим из оборота накопителям и носителям информации, включая дискеты, zip-накопители и компакт-диски[6][7].
В 1997 году на конференции Международной федерации библиотечных ассоциаций и учреждений исследователи впервые предложили использовать термин Digital Dark Age или «цифровой тёмный век» для описания этой проблемы. Словосочетание «тёмный век» является отсылкой к эпохе средних веков — периоду, который характеризовался практически полным отсутствием письменных свидетельств[4][8]. Другие эксперты называют XXI век «информационной чёрной дырой» из опасения, что программное обеспечение и компьютеры будущего не смогут воспроизвести созданные в наше время данные[9]. В 2015 году американский учёный и вице-президент Google Винтон Серф выступил с заявлением, что человечество движется к «цифровому тёмному веку». В своём выступлении в Национальном пресс-клубе Вашингтона он выразил обеспокоенность общим состоянием сохранения электронных материалов и выступил за разработку практик архивирования электронной информации в соответствии с законодательством об авторском праве[10][11][12][13].
Причины
С архивированием цифровых данных в XXI веке связаны две основные проблемы. Первая — это необходимость сохранения физического носителя в рабочем состоянии. Политические кризисы, а также природные катастрофы, вроде наводнений и землетрясений, могут помешать обслуживанию оборудования и поддержанию его в рабочем состоянии[4].
Вторая причина связана с устареванием форматов — многие из них в будущем могут оказаться нечитаемыми. Это связано с развитием программного обеспечения, появлением новых форматов файлов и окончанием поддержки старых[14][15].
Примеры
В 1986 году BBC запустил проект BBC Domesday Project (или «Судный день») в честь 900-летия Книги Страшного суда — свода материалов, созданных в 1086 году по приказу Вильгельма Завоевателя. Король заказал подробное исследование земельных владений своего королевства и объединил полученные данные в пятитомное издание, в настоящее время хранящееся в Национальном архиве Великобритании. В проекте BBC приняло участие более миллиона человек, включая детей примерно из 9000 школ по всей Великобритании, которых попросили задокументировать их родные города. Собранная с помощью краудсорсинга информация была объединена с профессиональными фотографиями, картами, видео-турами по историческим местам и всей переписью населения 1981 года. Впоследствии все данные были загружены на несколько лазерных дисков. Однако к началу 2000-х годов оказалось, что почти все физические носители проекта Domesday были сломаны или утеряны, а данные — безвозвратно потеряны[6].
Другим примером является программа НАСА Lunar Or, в рамках которой были сделаны подробные фотографии лунной поверхности. Все изображения были записаны на магнитные ленты, которые могли быть прочитаны только с помощью редкой модели LTO[16]. По этой причине доступ к материалам был потерян на несколько десятилетий, его возобновили только после долгосрочного анализа данных и изучения механизма работы машин, записывающих информацию на магнитные ленты[4].
В 1995 году правительство США чуть не потеряло доступ к части данных национальной переписи населения из-за устаревшей технологии поиска данных[5].
В 2019 году стало известно, что социальная сеть Myspace удалила всю музыку, загруженную на сайт в период с 2003 по 2015 год. Были удалены примерно 53 млн файлов. Безвозвратная потеря данных вызвала широкую общественную реакцию[17][18].
В декабре 2018 года правительство штата Мэн сообщило о потере большого количества документации, произведённой за 2005—2011 годы администрацией губернаторов Ангуса Кинга и Джона Балдаччи. В число утерянных данных вошла бо́льшая часть электронных писем, отправленных от лица правительства штата до 2008 года[3].
В 2019 году социальная сеть Google+ прекратила свою работу, удалив профили основателей и ведущих сотрудников компании — Сундара Пичаи, Эрика Шмидта, Сергея Брина и Ларри Пейджа[19]. Это привело к потере данных о принятии некоторых ключевых решений в истории Google, например, разъяснений политики компании в отношении программы PRISM в 2013 году[20].
Предотвращение
Создание общих стандартов
Одним из главных условий повсеместного внедрения практик электронного архивирования является развитие общих стандартов по сохранению цифровых материалов. Так, впервые опубликованный в 1997 году международный стандарт Open Archival Information System (OAIS) определяет подходы и решения в области электронного архивирования[21]. OAIS содержит описание «архивного пакета» и «цифровых объектов». Впоследствии стандарт стал прототипом для будущих инициатив по созданию электронных репозиториев, доступу к существующим базам данных и метаданным[22]. В 2003 году OAIS утвердили в качестве международного стандарта IISO 14721:2003 «Базовая модель открытой архивной информационной системы» (Open Archival Information System) l (OAIS)[23].
Другим основополагающим стандартом является DOD 5015.2, созданный в результате серии международных коллабораций InterPARES Project, инициированных в 1994—1997 годах Университетом Британской Колумбии совместно с Министерством обороны США и Национальным управлением архивов и документации США[24][25][26][27].
Технические стратегии
«Цифровой тёмный век» можно предотвратить при внедрении ряда технических стратегий по сохранению электронных документов. Одной из таких стратегий является консервация — работа с материалами в оригинальных форматах и на оригинальных носителях. В результате исходная информация доступна в первозданном формате[28].
К другим способам архивирования относят эмуляцию (воспроизведение функциональной системы для обеспечения доступа к устаревшим файлам и форматам)[21][28], инкапсуляцию (включение технического описания документа в состав самого цифрового объекта, благодаря чему уменьшается его зависимость от внешней среды)[21][29], а также миграцию (перенос электронных документов на другие носители или же в другую операционную систему, например, с магнитной ленты на компакт-диск). Последний способ является одним из самых популярных, поскольку позволяет сохранить целостность цифрового материала и способность пользователей находить и использовать информацию и не зависеть от устаревания технологий[28][30][31]. В отдельных случаях применяют цифровую археологию или спасение электронных объектов, которые стали недоступными из-за технологического устаревания и/или физической деградации. Однако ввиду высокой стоимости и отсутствия гарантий на восстановление использование подобного метода обычно считается вынужденной мерой[31][21].
Архивирование интернета
В 1996 году в Сан-Франциско американский программист Брюстер Кейл основал некоммерческую организацию Архив Интернета. Деятельность «Архива» направлена на архивирование всей когда-либо опубликованной в интернете информации. Коллекция состоит из множества архивированных веб-сайтов, оцифрованных книг, аудио и видео файлов, игр, программного обеспечения. В 2001 году Кейл запустил отдельный сервис Wayback Machine, занимающийся сохранением веб-страниц с помощью поисковых роботов или веб-краулеров[32]. Архивные снимки отображаются в формате HTML, JavaScript и CSS[33][34]. На июль 2021 года Wayback Machine предоставлял доступ к более чем 591 млрд сохранённых веб-страниц[35][36].
К другим аналогичным проектам относят созданный Библиотекой Гарвардской школы права портал Perma.cc[37], сайт archive.today[38], а также WebCite[39].
Проекты
В 2007 году Национальные архивы Великобритании и Microsoft объявили о начале сотрудничества в сфере архивирования данных. В рамках совместного проекта компания работала с Британской библиотекой над установкой Virtual PC — программного пакета визуализации, позволяющим пользователем запускать сразу несколько операционных систем одновременно и получать доступ к устаревшим форматом Microsoft Office. Так, только в архивах Великобритании хранится около 580 терабайт данных, записанных на старых версиях Office[40].
В 2018 году по результатам ежегодного Всемирного экономического форума в Давосе было принято решение запустить Global Centre for Cybersecurity. Деятельность центра направлена на предотвращение наступления цифрового тёмного века[41]. Над долгосрочным контролем и поддержанием электронных материалов работают службы цифрового хранения, такие как LOCKSS, HathiTrust и Portico[42].
В рамках борьбы с проблемой потери цифровых данных многие издания архивируют собственные выпуски. Так, The Economist предоставляет электронные копии каждого номера, начиная с первого выпуска в 1843 году[43], а The New York Times инициировала проект по сохранению онлайн-контента. На официальном сайте газеты размещена копия HTML-страниц с момента их первой публикации, с сохранением дизайна[44].
Одними из первых организаций, начавших разрабатывать практики по сохранению электронных писем, стали Архивы Смитсоновского института. В своих коллекциях Архивы хранят записи электронной почты, относящиеся к 1980-м годам и созданные с помощью ELM[45]. Под руководством Библиотеки Конгресса действовала архивная программа National Digital Information Infrastructure and Preservation Program, занимающаяся распространением информации о проблемах сохранения цифровых данных[46].
Архивированием научных работ занимаются такие проекты как Jstor, DSpace[47], arXiv.org, JSTOR, Public Library of Science (PLoS), BioMed Central[48]. По состоянию на октябрь 2021 года Справочник журналов открытого доступа насчитывает более 16 900 журналов открытого доступа и более 5 млн статей[49].
Критика
Отдельные исследователи и журналисты указывают на то, что повседневные цифровые данные не нуждаются в дополнительном архивировании по причине того, что интернет и так переполнен информацией, которую люди добавляют в свои аккаунты в социальных сетях. Поэтому у следующих поколений не будет проблем с доступом к информации[50]. Другие критикуют термин за его предполагаемый «алармистский» характер. По мнению сторонников этой теории, в области сохранения данных уже был достигнут значительный прогресс и использование такой риторики только преувеличивает проблему и намеренно искажает ситуацию[51].
См. также
Примечания
- Tim Harford. How the invention of paper changed the world . BBC (13 марта 2017). Дата обращения: 2 октября 2021.
- Kuny, 1997.
- Richard Ovenden. We must fight to preserve digital information . The Economist (21 февраля 2019). Дата обращения: 28 сентября 2021.
- Giaretta, 2011.
- Digital Domesday Book lasts 15 years not 1000 . The Guardian (3 марта 2002). Дата обращения: 27 сентября 2021.
- Veronique Greenwood. The digital Dark Ages . Yale Alumni Magazine (June 2020). Дата обращения: 27 сентября 2021.
- Dan Greene. The erosion of personal ownership . Vox (21 апреля 2021). Дата обращения: 28 сентября 2021.
- Panos, 2003.
- Adam Wernick. Scientists warn we may be creating a 'digital dark age' . The World (1 января 2018). Дата обращения: 26 сентября 2021.
- To avoid a digital dark age, all stakeholders must put their heads together . The Times of India (17 сентября 2020). Дата обращения: 27 сентября 2021.
- Lauren Maffeo. Google's Vint Cerf on how to prevent a digital dark age . The Guardian (29 мая 2015). Дата обращения: 27 сентября 2021.
- Dave Smith. Father of the internet: 'If we don’t move now, we risk losing all the data we’ve created in the 21st century' . Business Insider (20 февраля 2015). Дата обращения: 28 сентября 2021.
- Николай Удинцев. Цитата дня: почему может начаться «цифровой Тёмный век» . Look at Me (13 февраля 2015). Дата обращения: 28 сентября 2021.
- Jeffrey, 2012, с. 553—570.
- Kurt Bollacker. Avoiding a Digital Dark Age . American Scientist. Дата обращения: 26 сентября 2021.
- Bollacker, 2010.
- Damon Krukowski. History Disappeared When Myspace Lost 12 Years of Music, and It Will Happen Again . Pitchfork (19 марта 2019). Дата обращения: 28 сентября 2021.
- Zoe Klenman. MySpace admits losing 12 years' worth of music uploads . BBC News (18 марта 2019). Дата обращения: 28 сентября 2021.
- Molly Wood. If it’s online, it’s not permanent. Internet archives can disappear . WHYY PBS (9 апреля 2019). Дата обращения: 28 сентября 2021.
- Daniel Van Boo,. Google Plus shutdown means key Google moments are being lost to the ether . C Net (3 апреля 2019). Дата обращения: 28 сентября 2021.
- Баласанян В.Э. Сохранность электронных документов: проблемы и решения . Отечественные архивы (2019). Дата обращения: 5 августа 2021.
- Baucom, 2019, с. 6—7.
- Храмцовская, 2012, с. 68—78.
- Fan, 2018, с. 387—297.
- Project Background . InterPARES Project. Дата обращения: 7 августа 2021.
- Baucom, 2019, с. 7—8.
- Duranti, 2008.
- Lee, 2002, с. 93—106.
- Encapsulation . PADI. Дата обращения: 23 июля 2021.
- Samiei, 2020.
- Formenton, 2020, с. 1—26.
- Arora, 2015.
- Lerner, 2017, с. 1741—1755.
- Michael Bryant. What is the Wayback Machine and Why is it Useful? . Groovy Post (22 апреля 2021). Дата обращения: 29 мая 2021.
- Wayback Machine . Wayback Machine. Дата обращения: 7 июня 2021.
- Panos, 2003, с. 343—347.
- Perkel, 2015, с. 111—112.
- Martin Brinkmann. Create publicly available web page archives with Archive.is . G Hacks (22 апреля 2015). Дата обращения: 2 ноября 2021.
- [https://www.webcitation.org/faq WebCite] . WebCite. Дата обращения: 4 ноября 2021.
- Maev Kennedy. National Archive project to avert digital dark age . The Guardian (4 июля 2007). Дата обращения: 26 сентября 2021.
- Digital dark age fears stoked by Davos elite do little to address cybersecurity . The Conversation (6 февраля 2018). Дата обращения: 28 сентября 2021.
- Who is preventing the digital dark age? . The Deakin Library blog (15 января 2019). Дата обращения: 27 сентября 2021.
- Lost in cyberspace . The Economist. Дата обращения: 28 сентября 2021.
- Shan Wang. The New York Times Archive . NiemanLab (12 апреля 2018). Дата обращения: 8 февраля 2021.
- Email Preservation - DArcMail . Smithsonian Institution Archives. Дата обращения: 4 августа 2021.
- Digital Preservation . Library of Congress. Дата обращения: 4 августа 2021.
- Smith, 2003.
- Liesegang, 2013, с. 423—432.
- Find open access journals & articles . DOAJ. Дата обращения: 3 октября 2021.
- Larry Cebula. An Open Letter to the Historians of the 22nd Century . Slate (22 июля 2013). Дата обращения: 28 сентября 2021.
- Harvey, 2018.
Литература
- Arora S., Li Y., Youtie J., Shapira P. Using the wayback machine to mine websites in the social sciences: A methodological resource. — 2015. — Т. 67, вып. 8. — С. 1904—1915. — doi:10.1002/asi.23503.
- Baucom E. A Brief History of Digital Preservation // University of Montana. — 2019. — С. 3—19.
- D. Bollacker K. Computing Science: Avoiding a Digital Dark Age // American Scientist. — 2010. — Т. 98, вып. 2. — С. 106—110.
- Giaretta D. Avoiding a Digital Dark Age for data: why publishers shoudl care about digital preservation // Learned Publishing. — 2011. — С. 1—18.
- Jeffrey S. A new Digital Dark Age? Collaborative web tools, social media and long-term preservation // Open Archeology. — 2012. — Т. 44, вып. 4. — С. 553—570. — doi:10.1080/00438243.2012.737579.
- Kuny T. A Digital Dark Ages? Challenges in the Preservation of Electronic Information // 63RD IFLA Council and General Conference. — 1997.
- Panos P. The Internet Archive: An End to the Digital Dark Age // Journal of Social Work Education. — 2003. — Т. 39, вып. 2. — С. 343—347. — doi:10.1080/10437797.2003.10779139.
- Rosenzweig R. carcity or Abundance? Preserving the Past in a Digital Era // American Historical Review. — 2003. — Т. 103, вып. 3. — С. 735—762.
- Fan G. Making Better out of Technologies: Responses of Interpares to Digital Records Management Challenges // FR-HT 2018 - Special Session on Managing Digital Data, Information and Records: Firm Responses to Hard Technologies. — 2018. — С. 387—397.
- Duranti L., Preston R. International Research on Permanent Authentic Records in Electronic Systems (InterPARES) 2: Experiential, Interactive and Dynamic Records. — Associazione Nazionale Archivistica Italiana. — Padova, Italy, 2008.
- Lee K., Slattery O., Lu R., Tang X., McCrary V. The State of the Art and Practice in Digital Preservation // Journal of Research of the National Institute of Standards and Technology. — 2002. — Т. 107, вып. 1. — С. 93—106.
- Samiei M. Digital preservation: Concepts and strategies // Journal of Advanced Pharmacy Education and Research. — 2020. — Т. 10, вып. S4. — С. 127—135.
- Formenton D., Luciana de Souza Gracioso. Digital Preservation challenges, requirements, strategies and scientific output // Digital Journal of Library and Infromation Science. — 2020. — Т. 18. — doi:10.20396/rdbci.v018i0.8658868.
- Rackley M. Internet Archive // Encyclopedia of Library and Information Sciences. — 2010. — Т. 1, вып. 1. — С. 2966—2976.
- Lerner A., Kohno T., Roesner F. Rewriting History: Changing the Archived Web from the Present // Association for Computing Machinery. — 2017. — doi:10.1145/3133956.3134042.
- Liesegang T. Perspectives. The continued movement for open access to peer-reviewed literature // American Journal of Ophtalmology. — 2013. — Т. 156, вып. 3. — С. 423—432. — doi:10.1016/j.ajo.2013.04.033.
- Perkel J. The trouble with reference rot // Nature. — 2015. — Т. 521. — С. 111—112.
- Smith M., Bass M., McClellan G., Tansley R., Barton M., Branschofsky M. DSpace. An Open Source Dynamic Digital Repository // D-Lib Magazine. — 2003. — Т. 9, вып. 1. — ISSN 1082-9873.
- Harvey R. Preserving Digital Materials. — Rowman & Littlefield. — Lanham, MD, 2018. — 25 с. — ISBN 9781538102961.
- Храмцовская Н. Разработка концепции электронного архива // Делопроизводство и документооборот на предприятии. — 2012. — Вып. 4. — С. 68—78.