Цифровой тёмный век

Цифрово́й тёмный век — понятие, описывающее потенциальное исчезновение исторических данных в информационную эру из-за потери доступа к электронным документам. К этому сценарию могут привести отсутствие практик электронного архивирования, устаревание форматов файлов и носителей информации. Понятие «цифровой тёмный век» является отсылкой к термину «Тёмные века», часто используемому для описания Средневековья.

Проблему начали обсуждать уже в конце 1990-х годов, когда сохранённые в старых форматах файлы перестали быть доступными, а магнитные ленты и диски начали портиться, что привело к исчезновению многих крупных баз данных. Со временем был утерян доступ и к постепенно вышедшим из оборота накопителям и носителям информации, включая дискеты, zip-накопители и компакт-диски. Для обозначения исчезновения информации в 1997 году на конференции Международной федерации библиотечных ассоциаций и учреждений было предложено использовать термин «цифровой тёмный век».

Для предотвращения наступления «тёмного века» исследователи предлагают развивать практики электронного архивирования и создавать бумажные копии цифровых данных.

Характеристика

Традиционно архивированием и сохранением информации занимались монахи и монастыри. Их работа обеспечила сохранность информации о наследии греческих, римских и арабских культур. С распространением книгопечатания в XV веке[1] эти обязанности постепенно перешли к библиотекарям и архивариусам частных и публичных библиотек[2], отслеживающих информацию об имущественных правах, налоговых документах, импорте и экспорте. Вплоть до начала информационной эры в конце XX столетия подавляющее большинство материалов хранилось на бумажных носителях. Несмотря на существующую опасность пожелтения страниц и потенциальную уязвимость перед огнём, водой и разрушением из-за времени, такие документы были универсально доступны[3][4].

С наступлением «информационной эры» обмен данными стал преимущественно цифровым[4]. Поэтому всё больше исследователей стали задаваться вопросом, что произойдёт в случае полного перехода на электронный формат при одновременном отсутствии физических копий, вроде печатных документов и фотографий. По их мнению, существует риск, что многие данные будут однажды утеряны и будущие поколения не смогут получить к ним доступ[2].

Уже к концу 1990-х годов стали очевидны недостатки архивирования электронных документов. Так, сохранённые в старых форматах файлы перестали быть доступными, а магнитные ленты и диски начали портиться, что привело к исчезновению многих крупных баз данных[5]. Со временем был утерян доступ к постепенно вышедшим из оборота накопителям и носителям информации, включая дискеты, zip-накопители и компакт-диски[6][7].

В 1997 году на конференции Международной федерации библиотечных ассоциаций и учреждений исследователи впервые предложили использовать термин Digital Dark Age или «цифровой тёмный век» для описания этой проблемы. Словосочетание «тёмный век» является отсылкой к эпохе средних веков — периоду, который характеризовался практически полным отсутствием письменных свидетельств[4][8]. Другие эксперты называют XXI век «информационной чёрной дырой» из опасения, что программное обеспечение и компьютеры будущего не смогут воспроизвести созданные в наше время данные[9]. В 2015 году американский учёный и вице-президент Google Винтон Серф выступил с заявлением, что человечество движется к «цифровому тёмному веку». В своём выступлении в Национальном пресс-клубе Вашингтона он выразил обеспокоенность общим состоянием сохранения электронных материалов и выступил за разработку практик архивирования электронной информации в соответствии с законодательством об авторском праве[10][11][12][13].

Причины

С архивированием цифровых данных в XXI веке связаны две основные проблемы. Первая — это необходимость сохранения физического носителя в рабочем состоянии. Политические кризисы, а также природные катастрофы, вроде наводнений и землетрясений, могут помешать обслуживанию оборудования и поддержанию его в рабочем состоянии[4].

Вторая причина связана с устареванием форматов — многие из них в будущем могут оказаться нечитаемыми. Это связано с развитием программного обеспечения, появлением новых форматов файлов и окончанием поддержки старых[14][15].

Примеры

Компьютерный терминал с лазерным диском, содержащим информацию из проекта BBC «Судный день» 1986 года

В 1986 году BBC запустил проект BBC Domesday Project (или «Судный день») в честь 900-летия Книги Страшного суда — свода материалов, созданных в 1086 году по приказу Вильгельма Завоевателя. Король заказал подробное исследование земельных владений своего королевства и объединил полученные данные в пятитомное издание, в настоящее время хранящееся в Национальном архиве Великобритании. В проекте BBC приняло участие более миллиона человек, включая детей примерно из 9000 школ по всей Великобритании, которых попросили задокументировать их родные города. Собранная с помощью краудсорсинга информация была объединена с профессиональными фотографиями, картами, видео-турами по историческим местам и всей переписью населения 1981 года. Впоследствии все данные были загружены на несколько лазерных дисков. Однако к началу 2000-х годов оказалось, что почти все физические носители проекта Domesday были сломаны или утеряны, а данные — безвозвратно потеряны[6].

Другим примером является программа НАСА Lunar Or, в рамках которой были сделаны подробные фотографии лунной поверхности. Все изображения были записаны на магнитные ленты, которые могли быть прочитаны только с помощью редкой модели LTO[16]. По этой причине доступ к материалам был потерян на несколько десятилетий, его возобновили только после долгосрочного анализа данных и изучения механизма работы машин, записывающих информацию на магнитные ленты[4].

В 1995 году правительство США чуть не потеряло доступ к части данных национальной переписи населения из-за устаревшей технологии поиска данных[5].

В 2019 году стало известно, что социальная сеть Myspace удалила всю музыку, загруженную на сайт в период с 2003 по 2015 год. Были удалены примерно 53 млн файлов. Безвозвратная потеря данных вызвала широкую общественную реакцию[17][18].

В декабре 2018 года правительство штата Мэн сообщило о потере большого количества документации, произведённой за 2005—2011 годы администрацией губернаторов Ангуса Кинга и Джона Балдаччи. В число утерянных данных вошла бо́льшая часть электронных писем, отправленных от лица правительства штата до 2008 года[3].

В 2019 году социальная сеть Google+ прекратила свою работу, удалив профили основателей и ведущих сотрудников компании — Сундара Пичаи, Эрика Шмидта, Сергея Брина и Ларри Пейджа[19]. Это привело к потере данных о принятии некоторых ключевых решений в истории Google, например, разъяснений политики компании в отношении программы PRISM в 2013 году[20].

Предотвращение

Создание общих стандартов

Одним из главных условий повсеместного внедрения практик электронного архивирования является развитие общих стандартов по сохранению цифровых материалов. Так, впервые опубликованный в 1997 году международный стандарт Open Archival Information System (OAIS) определяет подходы и решения в области электронного архивирования[21]. OAIS содержит описание «архивного пакета» и «цифровых объектов». Впоследствии стандарт стал прототипом для будущих инициатив по созданию электронных репозиториев, доступу к существующим базам данных и метаданным[22]. В 2003 году OAIS утвердили в качестве международного стандарта IISO 14721:2003 «Базовая модель открытой архивной информационной системы» (Open Archival Information System) l (OAIS)[23].

Другим основополагающим стандартом является DOD 5015.2, созданный в результате серии международных коллабораций InterPARES Project, инициированных в 1994—1997 годах Университетом Британской Колумбии совместно с Министерством обороны США и Национальным управлением архивов и документации США[24][25][26][27].

Технические стратегии

«Цифровой тёмный век» можно предотвратить при внедрении ряда технических стратегий по сохранению электронных документов. Одной из таких стратегий является консервация — работа с материалами в оригинальных форматах и на оригинальных носителях. В результате исходная информация доступна в первозданном формате[28].

К другим способам архивирования относят эмуляцию (воспроизведение функциональной системы для обеспечения доступа к устаревшим файлам и форматам)[21][28], инкапсуляцию (включение технического описания документа в состав самого цифрового объекта, благодаря чему уменьшается его зависимость от внешней среды)[21][29], а также миграцию (перенос электронных документов на другие носители или же в другую операционную систему, например, с магнитной ленты на компакт-диск). Последний способ является одним из самых популярных, поскольку позволяет сохранить целостность цифрового материала и способность пользователей находить и использовать информацию и не зависеть от устаревания технологий[28][30][31]. В отдельных случаях применяют цифровую археологию или спасение электронных объектов, которые стали недоступными из-за технологического устаревания и/или физической деградации. Однако ввиду высокой стоимости и отсутствия гарантий на восстановление использование подобного метода обычно считается вынужденной мерой[31][21].

Архивирование интернета

В 1996 году в Сан-Франциско американский программист Брюстер Кейл основал некоммерческую организацию Архив Интернета. Деятельность «Архива» направлена на архивирование всей когда-либо опубликованной в интернете информации. Коллекция состоит из множества архивированных веб-сайтов, оцифрованных книг, аудио и видео файлов, игр, программного обеспечения. В 2001 году Кейл запустил отдельный сервис Wayback Machine, занимающийся сохранением веб-страниц с помощью поисковых роботов или веб-краулеров[32]. Архивные снимки отображаются в формате HTML, JavaScript и CSS[33][34]. На июль 2021 года Wayback Machine предоставлял доступ к более чем 591 млрд сохранённых веб-страниц[35][36].

К другим аналогичным проектам относят созданный Библиотекой Гарвардской школы права портал Perma.cc[37], сайт archive.today[38], а также WebCite[39].

Проекты

В 2007 году Национальные архивы Великобритании и Microsoft объявили о начале сотрудничества в сфере архивирования данных. В рамках совместного проекта компания работала с Британской библиотекой над установкой Virtual PC — программного пакета визуализации, позволяющим пользователем запускать сразу несколько операционных систем одновременно и получать доступ к устаревшим форматом Microsoft Office. Так, только в архивах Великобритании хранится около 580 терабайт данных, записанных на старых версиях Office[40].

В 2018 году по результатам ежегодного Всемирного экономического форума в Давосе было принято решение запустить Global Centre for Cybersecurity. Деятельность центра направлена на предотвращение наступления цифрового тёмного века[41]. Над долгосрочным контролем и поддержанием электронных материалов работают службы цифрового хранения, такие как LOCKSS, HathiTrust и Portico[42].

В рамках борьбы с проблемой потери цифровых данных многие издания архивируют собственные выпуски. Так, The Economist предоставляет электронные копии каждого номера, начиная с первого выпуска в 1843 году[43], а The New York Times инициировала проект по сохранению онлайн-контента. На официальном сайте газеты размещена копия HTML-страниц с момента их первой публикации, с сохранением дизайна[44].


Одними из первых организаций, начавших разрабатывать практики по сохранению электронных писем, стали Архивы Смитсоновского института. В своих коллекциях Архивы хранят записи электронной почты, относящиеся к 1980-м годам и созданные с помощью ELM[45]. Под руководством Библиотеки Конгресса действовала архивная программа National Digital Information Infrastructure and Preservation Program, занимающаяся распространением информации о проблемах сохранения цифровых данных[46].

Архивированием научных работ занимаются такие проекты как Jstor, DSpace[47], arXiv.org, JSTOR, Public Library of Science (PLoS), BioMed Central[48]. По состоянию на октябрь 2021 года Справочник журналов открытого доступа насчитывает более 16 900 журналов открытого доступа и более 5 млн статей[49].

Критика

Отдельные исследователи и журналисты указывают на то, что повседневные цифровые данные не нуждаются в дополнительном архивировании по причине того, что интернет и так переполнен информацией, которую люди добавляют в свои аккаунты в социальных сетях. Поэтому у следующих поколений не будет проблем с доступом к информации[50]. Другие критикуют термин за его предполагаемый «алармистский» характер. По мнению сторонников этой теории, в области сохранения данных уже был достигнут значительный прогресс и использование такой риторики только преувеличивает проблему и намеренно искажает ситуацию[51].

См. также

Примечания

  1. Tim Harford. How the invention of paper changed the world. BBC (13 марта 2017). Дата обращения: 2 октября 2021.
  2. Kuny, 1997.
  3. Richard Ovenden. We must fight to preserve digital information. The Economist (21 февраля 2019). Дата обращения: 28 сентября 2021.
  4. Giaretta, 2011.
  5. Digital Domesday Book lasts 15 years not 1000. The Guardian (3 марта 2002). Дата обращения: 27 сентября 2021.
  6. Veronique Greenwood. The digital Dark Ages. Yale Alumni Magazine (June 2020). Дата обращения: 27 сентября 2021.
  7. Dan Greene. The erosion of personal ownership. Vox (21 апреля 2021). Дата обращения: 28 сентября 2021.
  8. Panos, 2003.
  9. Adam Wernick. Scientists warn we may be creating a 'digital dark age'. The World (1 января 2018). Дата обращения: 26 сентября 2021.
  10. To avoid a digital dark age, all stakeholders must put their heads together. The Times of India (17 сентября 2020). Дата обращения: 27 сентября 2021.
  11. Lauren Maffeo. Google's Vint Cerf on how to prevent a digital dark age. The Guardian (29 мая 2015). Дата обращения: 27 сентября 2021.
  12. Dave Smith. Father of the internet: 'If we don’t move now, we risk losing all the data we’ve created in the 21st century'. Business Insider (20 февраля 2015). Дата обращения: 28 сентября 2021.
  13. Николай Удинцев. Цитата дня: почему может начаться «цифровой Тёмный век». Look at Me (13 февраля 2015). Дата обращения: 28 сентября 2021.
  14. Jeffrey, 2012, с. 553—570.
  15. Kurt Bollacker. Avoiding a Digital Dark Age. American Scientist. Дата обращения: 26 сентября 2021.
  16. Bollacker, 2010.
  17. Damon Krukowski. History Disappeared When Myspace Lost 12 Years of Music, and It Will Happen Again. Pitchfork (19 марта 2019). Дата обращения: 28 сентября 2021.
  18. Zoe Klenman. MySpace admits losing 12 years' worth of music uploads. BBC News (18 марта 2019). Дата обращения: 28 сентября 2021.
  19. Molly Wood. If it’s online, it’s not permanent. Internet archives can disappear. WHYY PBS (9 апреля 2019). Дата обращения: 28 сентября 2021.
  20. Daniel Van Boo,. Google Plus shutdown means key Google moments are being lost to the ether. C Net (3 апреля 2019). Дата обращения: 28 сентября 2021.
  21. Баласанян В.Э. Сохранность электронных документов: проблемы и решения. Отечественные архивы (2019). Дата обращения: 5 августа 2021.
  22. Baucom, 2019, с. 6—7.
  23. Храмцовская, 2012, с. 68—78.
  24. Fan, 2018, с. 387—297.
  25. Project Background. InterPARES Project. Дата обращения: 7 августа 2021.
  26. Baucom, 2019, с. 7—8.
  27. Duranti, 2008.
  28. Lee, 2002, с. 93—106.
  29. Encapsulation. PADI. Дата обращения: 23 июля 2021.
  30. Samiei, 2020.
  31. Formenton, 2020, с. 1—26.
  32. Arora, 2015.
  33. Lerner, 2017, с. 1741—1755.
  34. Michael Bryant. What is the Wayback Machine and Why is it Useful?. Groovy Post (22 апреля 2021). Дата обращения: 29 мая 2021.
  35. Wayback Machine. Wayback Machine. Дата обращения: 7 июня 2021.
  36. Panos, 2003, с. 343—347.
  37. Perkel, 2015, с. 111—112.
  38. Martin Brinkmann. Create publicly available web page archives with Archive.is. G Hacks (22 апреля 2015). Дата обращения: 2 ноября 2021.
  39. [​​https://www.webcitation.org/faq WebCite]. WebCite. Дата обращения: 4 ноября 2021.
  40. Maev Kennedy. National Archive project to avert digital dark age. The Guardian (4 июля 2007). Дата обращения: 26 сентября 2021.
  41. Digital dark age fears stoked by Davos elite do little to address cybersecurity. The Conversation (6 февраля 2018). Дата обращения: 28 сентября 2021.
  42. Who is preventing the digital dark age?. The Deakin Library blog (15 января 2019). Дата обращения: 27 сентября 2021.
  43. Lost in cyberspace. The Economist. Дата обращения: 28 сентября 2021.
  44. Shan Wang. The New York Times Archive. NiemanLab (12 апреля 2018). Дата обращения: 8 февраля 2021.
  45. Email Preservation - DArcMail. Smithsonian Institution Archives. Дата обращения: 4 августа 2021.
  46. Digital Preservation. Library of Congress. Дата обращения: 4 августа 2021.
  47. Smith, 2003.
  48. Liesegang, 2013, с. 423—432.
  49. Find open access journals & articles. DOAJ. Дата обращения: 3 октября 2021.
  50. Larry Cebula. An Open Letter to the Historians of the 22nd Century. Slate (22 июля 2013). Дата обращения: 28 сентября 2021.
  51. Harvey, 2018.

Литература

  • Arora S., Li Y., Youtie J., Shapira P. Using the wayback machine to mine websites in the social sciences: A methodological resource. — 2015. Т. 67, вып. 8. С. 1904—1915. doi:10.1002/asi.23503.
  • Baucom E. A Brief History of Digital Preservation // University of Montana. — 2019. С. 3—19.
  • D. Bollacker K. Computing Science: Avoiding a Digital Dark Age // American Scientist. — 2010. Т. 98, вып. 2. С. 106—110.
  • Giaretta D. Avoiding a Digital Dark Age for data: why publishers shoudl care about digital preservation // Learned Publishing. — 2011. С. 1—18.
  • Jeffrey S. A new Digital Dark Age? Collaborative web tools, social media and long-term preservation // Open Archeology. — 2012. Т. 44, вып. 4. С. 553—570. doi:10.1080/00438243.2012.737579.
  • Kuny T. A Digital Dark Ages? Challenges in the Preservation of Electronic Information // 63RD IFLA Council and General Conference. — 1997.
  • Panos P. The Internet Archive: An End to the Digital Dark Age // Journal of Social Work Education. — 2003. Т. 39, вып. 2. С. 343—347. doi:10.1080/10437797.2003.10779139.
  • Rosenzweig R. carcity or Abundance? Preserving the Past in a Digital Era // American Historical Review. — 2003. Т. 103, вып. 3. С. 735—762.
  • Fan G. Making Better out of Technologies: Responses of Interpares to Digital Records Management Challenges // FR-HT 2018 - Special Session on Managing Digital Data, Information and Records: Firm Responses to Hard Technologies. — 2018. С. 387—397.
  • Duranti L., Preston R. International Research on Permanent Authentic Records in Electronic Systems (InterPARES) 2: Experiential, Interactive and Dynamic Records. — Associazione Nazionale Archivistica Italiana. — Padova, Italy, 2008.
  • Lee K., Slattery O., Lu R., Tang X., McCrary V. The State of the Art and Practice in Digital Preservation // Journal of Research of the National Institute of Standards and Technology. — 2002. Т. 107, вып. 1. С. 93—106.
  • Samiei M. Digital preservation: Concepts and strategies // Journal of Advanced Pharmacy Education and Research. — 2020. Т. 10, вып. S4. С. 127—135.
  • Formenton D., Luciana de Souza Gracioso. Digital Preservation challenges, requirements, strategies and scientific output // Digital Journal of Library and Infromation Science. — 2020. Т. 18. doi:10.20396/rdbci.v018i0.8658868.
  • Rackley M. Internet Archive // Encyclopedia of Library and Information Sciences. — 2010. Т. 1, вып. 1. С. 2966—2976.
  • Lerner A., Kohno T., Roesner F. Rewriting History: Changing the Archived Web from the Present // Association for Computing Machinery. — 2017. doi:10.1145/3133956.3134042.
  • Liesegang T. Perspectives. The continued movement for open access to peer-reviewed literature // American Journal of Ophtalmology. — 2013. Т. 156, вып. 3. С. 423—432. doi:10.1016/j.ajo.2013.04.033.
  • Perkel J. The trouble with reference rot // Nature. — 2015. Т. 521. С. 111—112.
  • Smith M., Bass M., McClellan G., Tansley R., Barton M., Branschofsky M. DSpace. An Open Source Dynamic Digital Repository // D-Lib Magazine. — 2003. Т. 9, вып. 1. ISSN 1082-9873.
  • Harvey R. Preserving Digital Materials. — Rowman & Littlefield. — Lanham, MD, 2018. — 25 с. — ISBN 9781538102961.
  • Храмцовская Н. Разработка концепции электронного архива // Делопроизводство и документооборот на предприятии. — 2012. Вып. 4. С. 68—78.

Ссылки

This article is issued from Wikipedia. The text is licensed under Creative Commons - Attribution - Sharealike. Additional terms may apply for the media files.