WebCite

WebCite — сервис веб-архивирования, запущенный в 2003 году по инициативе Гюнтера Эйзенбаха из Торонтского университета. WebCite обеспечивает долгосрочную доступность URL-адресов. Сервис не использовал поисковых роботов для архивирования ресурсов целиком и обрабатывал запросы пользователей на сохранение отдельных страниц. WebCite «захватывал» HTML, PDF, CSS, JavaScript, изображения и другие составляющие веб-страницы.

WebCite
WebCite
URL webcitation.org
Тип сайта архив
Язык(-и) английский
Владелец Торонтский университет
Автор Gunther Eysenbach[d]
Начало работы 2003
Рейтинг Alexa 107 073[1]
 Медиафайлы на Викискладе

С июля 2019 года WebCite из-за многолетних финансовых проблем был фактически свёрнут: сервис больше не принимает запросы на архивацию, однако продолжает обслуживать уже созданные архивы. До этого сервис был одним из самых популярных инструментов в своей нише, активно использовался в Википедии для архивации источников. С конца 2020 года WebCite заблокирован в России из-за «пропаганды или сбыта наркотиков».

История

Гюнтер Эйзенбах в 2009 году

Идея создания WebCite принадлежит Гюнтеру Эйзенбаху, сотруднику Centre for Global eHealth Innovation (с англ.«Центр глобальных инноваций в области здравоохранения») при Торонтском университете. Изначально Эйзенбах задумывал WebCite как платформу, которая будет не только сохранять интернет-ресурсы, но и определять их «индекс цитирования» (аналог импакт-фактора), измеряя количество гиперссылок, ведущих на тот или иной веб-сайт. В 1998 году Эйзенбах обосновал необходимость такого сервиса в своей статье о контроле качества интернета, опубликованной в PubMed Central[2]. В этом же году был запущен одноимённый пилотный проект, который, однако, не был продлён — с расширением сферы деятельности «Архива Интернета» и Google Cache отпала острая потребность в таком сервисе[3].

Эйзенбах перезапустил WebCite в 2003 году. К этому его подтолкнула вышедшая в Science статья о вымирании ссылок в научных работах, обозначившая недостаток стандартизации в сфере электронного архивирования[4]. К тому же все существующие на тот момент сервисы веб-архивирования сохраняли ресурсы с помощью поисковых роботов (или веб-краулеров), архивация веб-страниц по запросу была невозможна. WebCite заполнил эту нишу и стал первой платформой такого рода, архивирующей страницы по запросам пользователей. Партнёрами проекта стали факультет информационных исследований и библиотека Торонтского университета, а также «Архив Интернета». Помимо этого, был создан одноимённый некоммерческий консорциум, членами которого могли стать редакции научных журналов и издательства. К 2008 году в него вошли около 200 участников[5][3][5].

Первое время после создания WebCite финансировался средствами Centre for Global eHealth Innovation. Частично работу сервиса оплачивали члены консорциума, которым требовалось архивировать использованные в авторских публикациях ссылки[6]. С 2011 года WebCite испытывал проблемы с финансированием, поэтому Эйзенбах рассматривал возможность коммерциализации сервиса. В 2012 году WebCite был вынужден покинуть Международный консорциум сохранения интернета, так как, согласно твиту Эйзенбаха, не имел возможности оплачивать ежегодный членский взнос в €4000[7][8].

В 2013 году Эйзенбах начал кампанию по сбору пожертвований на модернизацию WebCite. Заявленная сумма составляла $25-50 тысяч, подразумевалось, что в том числе она покроет перенос базы данных на Amazon EC2 (на 2012 год размер архива составлял 2 терабайта[9]) и правовую поддержку. Сбор проходил на платформе FundRazr[9].

Сервис активно использовался в работе Википедии. Ещё июне 2009 года из-за увеличенной нагрузки на серверы, вызванной работой бота WebCiteBOT в англоязычном разделе, WebCite был временно недоступен. Полное восстановление заняло несколько недель[10]. На фоне постоянных финансовых трудностей WebCite редакторы Википедии в феврале 2013 года предлагали Фонду Викимедиа взять под контроль проект, так как с его помощью на тот момент было архивировано более 500 000 ссылок из вики-статей, однако всё ограничилось обсуждением идеи внутри сообщества[11]. Также сайт был временно недоступен в 2013 и 2014 годах[12].

Финансовые трудности привели к фактическому закрытию проекта. С июля 2019 года WebCite не принимает новые запросы на архивацию, но продолжает поддерживать доступ к уже созданным веб-архивам[13][14].

Принцип работы

WebCite обеспечивает долгосрочную доступность URL-адресов, архивированных по прямому запросу пользователей. В основе сервиса лежит исключительно открытое программное обеспечение[15][3]. Слово WebCite является зарегистрированной торговой маркой[16].

WebCite чаще применялся для сохранения статических сайтов. Как и многие другие сервисы веб-архивирования, он не мог в полной мере сохранять сложные веб-страницу с динамическим контентом[17].

WebCite предоставлял пользователям три основных инструмента для архивации. Первый — специальная форма на сайте с полями для указания URL и электронной почты, на которую приходили ссылки на копию запрашиваемой веб-страницы. Второй инструмент — букмарклет или небольшая JavaScript-программа, устанавливаемая в браузер и позволяющая сохранять выбранные веб-страницы прямо в момент их просмотра в интернете. Третий способ под названием Comb заключался в «оптовом» архивировании — сервис формировал список всех гиперссылок на указанной странице, и пользователь мог указать те ресурсы, которые необходимо сохранить. Инструмент Comb больше всего подходил для обработки разбитых на несколько страниц крупных статей[6].

После ввода URL WebCite делал «снимок» страницы, сохраняя копию HTML и загружая изображения (или любые другие файлы, например, в формате PDF) на сервер[5]. После этого пользователи получали на указанную электронную почту письмо с двумя новыми ссылками. Первая, более длинная, содержала в себе URL оригинальной страницы и дату архивации, и могла быть использована вместо исходного адреса. Вторая, более короткая, не содержала этой информации и чаще всего указывалась в дополнение к исходному URL. Таким образом, WebCite работал и как сокращатель ссылок[3]. Также каждой сохранённой веб-странице присваивали уникальный числовой идентификатор[6].

Длинная и короткая версия ссылки
https://webcitation.org/query?url=http://en.wikipedia.org/wiki/Main_Page&date=2008-03-04
http://webcitation.org/5W56XTY5h

Посетители сайта могут искать документы в коллекции WebCite, используя URL, дату создания копии страницы или присвоенный ей идентификатор[6].

Использование

Авторы, редакторы и издатели, заинтересованные в создании рабочих ссылок на сетевые источники, которые можно использовать для цитирования в академических публикациях, широко применяли WebCite[6][7][18]. Услуги по архивированию предоставлялись бесплатно, однако издатели могли войти в одноимённый консорциум и за членский взнос получить доступ к услуге ретроспективного архивирования — в таком случае WebCite настраивал поисковых роботов для «прочёсывания» статей организации на предмет несохранённых URL-адресов. Также входящие в консорциум издания прописывали использование сервиса в своих положениях и предписывали авторам архивировать все используемые ссылки через WebCite перед подачей рукописей[19][15][20].

Работа WebCite была основана на доктрине добросовестного использования. Сервис рассматривает архивные копии страниц как трансформативные произведения — общественно-полезные для научных исследований и не наносящие вреда рыночной стоимости любой охраняемой авторским правом работы[5][6]. Поэтому WebCite не запрашивал разрешение для архивации того или иного ресурса, однако удалял страницы из публичного доступа по требованиям правообладателей. Такие работы помещались в «тёмный архив» (англ. dark archive), доступ к которому можно было получить на платной основе — $200 за 5 страниц плюс $100 за каждые последующие 10 страниц. Сервис соблюдал стандарт исключений для роботов, теги no-cache и no-archive[15][21].

В России домен webcitation.org внесён в Единый реестр запрещённых сайтов. Сервис был добавлен в реестр по решению МВД 20 ноября 2020 года, в качестве причины указана «пропаганда или сбыт наркотиков»[22].

Примечания

  1. Alexa Internet (англ.) — 1996.
  2. Diepgen, 1998.
  3. Eysenbach, 2008, pp. 378—389.
  4. Going, Going, Gone: Lost Internet References (англ.). Science (31 октября 2003). Дата обращения: 21 декабря 2021. Архивировано 22 декабря 2021 года.
  5. WebCite® Consortium FAQ (англ.). WebCitation. Дата обращения: 21 декабря 2021. Архивировано 29 сентября 2011 года.
  6. Алексей Кутовенко. Интернет-летописцы. Сервисы кэширования веб-ресурсов (англ.). OSP-Гид по технологиям цифровой коммуникации (6 ноября 2011). Дата обращения: 26 декабря 2021. Архивировано 31 мая 2020 года.
  7. Ian Milligan. Three Tools for the Web-Savvy Historian: Memento, Zotero, and WebCite (англ.). Active History (7 июля 2014). Дата обращения: 21 декабря 2021. Архивировано 24 сентября 2021 года.
  8. Twitter post (англ.) (11 июня 2012). Дата обращения: 21 декабря 2021. Архивировано 5 марта 2016 года.
  9. Conversation between GiveWell and Webcite on 4/10/13 (англ.). Give Well. Дата обращения: 21 декабря 2021. Архивировано 20 ноября 2021 года.
  10. Gunther Eysenbach (англ.). Twitter. Дата обращения: 27 декабря 2021. Архивировано 6 июня 2019 года.
  11. WebCite (англ.). Meta - Wikimedia. Дата обращения: 21 декабря 2021. Архивировано 24 ноября 2021 года.
  12. Данные о работоспособности сервиса на протяжении его истории носят фрагментарный характер
  13. Fund WebCite (http://www.webcitation.org) (англ.). FundRz. Дата обращения: 18 декабря 2021.
  14. Archive Now (archivenow) (англ.). GitHub. Дата обращения: 20 декабря 2021. Архивировано 20 декабря 2021 года.
  15. Eysenbach, 2005.
  16. WebCite Legal and Copyright Information (англ.). WebCite Consortium. Дата обращения: 16 июня 2009. Архивировано 25 июля 2008 года.
  17. Matthew Cockerill. Webcite links provide access to archived copy of linked web pages (англ.). BMC (17 сентября 2007). Дата обращения: 21 декабря 2021. Архивировано 31 августа 2021 года.
  18. Alexander Lawrence. Unveiling Hidden Connections with Google Analytics IDs (англ.). Bellingcat (23 июля 2015). Дата обращения: 21 декабря 2021. Архивировано 27 октября 2021 года.
  19. Михаил Горбунов-Посадов. Живая публикация (англ.). OSP. Дата обращения: 26 декабря 2021. Архивировано 13 июня 2019 года.
  20. Leighton Walter Kille. The growing problem of Internet “link rot” and best practices for media and online publishers (англ.). The Journalist's Resource (9 октября 2015). Дата обращения: 21 декабря 2021. Архивировано 10 октября 2021 года.
  21. WebCite takedown requests policy (англ.). WebCite. Дата обращения: 27 декабря 2021. Архивировано 11 декабря 2021 года.
  22. Заблокированный сайт webcitation.org (англ.). Rubanlist.com — список запрещенных сайтов. Дата обращения: 1 января 2022. Архивировано 3 января 2022 года.

Литература

  • Eysenbach G., Trudel M. Going, Going, Still There: Using the WebCite Service to Permanently Archive Cited Web Pages (англ.) // J Med Internet Res. — 2005. Vol. 7, iss. 5. doi:10.2196/jmir.7.5.e60.
  • Eysenbach G. Preserving The Scholarly Record With WebCite (www.webcitation.org): An Archiving System For Long-Term Digital Preservation Of Cited Webpages (англ.) // Proceedings ELPUB 2008 Conference on Electronic Publishing. — Toronto, Canada, 2008.
  • Eysenbach G., Diepgen T. Towards quality management of medical information on the internet: evaluation, labelling, and filtering of information (англ.). — 1998. Vol. 317, iss. 7171. doi:10.1136/bmj.317.7171.1496.

Ссылки

This article is issued from Wikipedia. The text is licensed under Creative Commons - Attribution - Sharealike. Additional terms may apply for the media files.