Всемирная паутина
Всеми́рная паути́на (англ. World Wide Web) — распределённая система, предоставляющая доступ к связанным между собой документам, расположенным на различных компьютерах, подключённых к сети Интернет. Для обозначения Всемирной паутины также используют слово веб (англ. web «паутина») и аббревиатуру WWW.
Всемирную паутину образуют сотни миллионов веб-серверов. Большинство ресурсов Всемирной паутины основано на технологии гипертекста. Гипертекстовые документы, размещаемые во Всемирной паутине, называются веб-страницами. Несколько веб-страниц, объединённых общей темой или дизайном, а также связанных между собой ссылками и обычно находящихся на одном и том же веб-сервере, называются веб-сайтом. Для загрузки и просмотра веб-страниц используются специальные программы — браузеры (англ. browser).
Всемирная паутина вызвала настоящую революцию в информационных технологиях и дала мощный толчок развитию Интернета. В повседневной речи, говоря об Интернете, часто имеют в виду именно Всемирную паутину. Однако важно понимать, что это не одно и то же.
Структура и принципы
Всемирную паутину образуют миллионы веб-серверов сети Интернет, расположенных по всему миру. Веб-сервер — компьютерная программа, запускаемая на подключённом к сети компьютере и использующая протокол HTTP для передачи данных. В простейшем виде такая программа получает по сети HTTP-запрос на определённый ресурс, находит соответствующий файл на локальном жёстком диске и отправляет его по сети запросившему компьютеру. Более сложные веб-серверы способны в ответ на HTTP-запрос динамически генерировать документы с помощью шаблонов и сценариев.
Для просмотра информации, полученной от веб-сервера, на клиентском компьютере применяется специальная программа — веб-браузер. Основная функция веб-браузера — отображение гипертекста. Всемирная паутина неразрывно связана с понятиями гипертекста и гиперссылки. Большая часть информации в Вебе представляет собой именно гипертекст.
Для создания, хранения и отображения гипертекста во Всемирной паутине традиционно используется язык HTML (англ. HyperText Markup Language «язык разметки гипертекста»). Работа по созданию (разметке) гипертекстовых документов называется вёрсткой, она делается веб-мастером либо отдельным специалистом по разметке — верстальщиком. После HTML-разметки получившийся документ сохраняется в файл, и такие HTML-файлы являются основным типом ресурсов Всемирной паутины. После того, как HTML-файл становится доступен веб-серверу, его начинают называть «веб-страницей». Набор веб-страниц образует веб-сайт.
Гипертекст страниц Всемирной паутины содержит гиперссылки. Гиперссылки помогают пользователям Всемирной паутины легко перемещаться между ресурсами (файлами) вне зависимости от того, находятся ресурсы на локальном компьютере или на удалённом сервере. Для определения местонахождения ресурсов во Всемирной паутине используются единообразные локаторы ресурсов URL (англ. Uniform Resource Locator). Например, полный URL главной страницы русского раздела Википедии выглядит так: http://ru.wikipedia.org/wiki/Заглавная_страница
. Подобные URL-локаторы сочетают в себе технологию идентификации URI (англ. Uniform Resource Identifier «единообразный идентификатор ресурса») и систему доменных имён DNS (англ. Domain Name System). Доменное имя (в данном случае ru.wikipedia.org
) в составе URL обозначает компьютер (точнее — один из его сетевых интерфейсов), который исполняет код нужного веб-сервера. URL текущей страницы обычно можно увидеть в адресной строке браузера, хотя многие современные браузеры предпочитают по умолчанию показывать лишь доменное имя текущего сайта.
Технологии
Для улучшения визуального восприятия веба стала широко использоваться технология CSS, которая позволяет задавать единые стили оформления для множества веб-страниц. Ещё одно нововведение, на которое стоит обратить внимание, — система обозначения ресурсов URN (англ. Uniform Resource Name).
Популярная концепция развития Всемирной паутины — создание семантической паутины. Семантическая паутина — надстройка над существующей Всемирной паутиной, которая призвана сделать размещённую в сети информацию более понятной для компьютеров. Это также концепция сети, в которой каждый ресурс на человеческом языке был бы снабжён описанием, понятным компьютеру. Семантическая паутина открывает доступ к чётко структурированной информации для любых приложений, независимо от платформы и независимо от языков программирования. Программы смогут сами находить нужные ресурсы, обрабатывать информацию, классифицировать данные, выявлять логические связи, делать выводы и даже принимать решения на основе этих выводов. При широком распространении и грамотном внедрении семантическая паутина может вызвать революцию в Интернете. Для создания понятного компьютеру описания ресурса, в семантической паутине используется формат RDF (англ. Resource Description Framework), который основан на синтаксисе XML и использует идентификаторы URI для обозначения ресурсов. Новинки в этой области: RDFS (англ. RDF Schema) и SPARQL (англ. Protocol And RDF Query Language) (произносится как «спа́ркл»), новый язык запросов для быстрого доступа к данным RDF.
История
Изобретателями всемирной паутины считаются Тим Бернерс-Ли и, в меньшей степени, Роберт Кайо. Тим Бернерс-Ли является автором технологий HTTP, URI/URL и HTML. В 1980 году он работал в Европейском совете по ядерным исследованиям (фр. conseil européen pour la recherche nucléaire, CERN) консультантом по программному обеспечению. Именно там, в Женеве (Швейцария), он для собственных нужд написал программу «Энквайр» (англ. Enquire, можно вольно перевести как «Дознаватель»), которая использовала случайные ассоциации для хранения данных и заложила концептуальную основу для Всемирной паутины.
В 1989 году, работая в CERN над внутренней сетью организации, Тим Бернерс-Ли предложил глобальный гипертекстовый проект, теперь известный как «Всемирная паутина». Проект подразумевал публикацию гипертекстовых документов, связанных между собой гиперссылками, что облегчило бы поиск и консолидацию информации для учёных CERN. Для осуществления проекта Тимом Бернерсом-Ли (совместно с его помощниками) были изобретены идентификаторы URI, протокол HTTP и язык HTML. Это технологии, без которых уже нельзя себе представить современный Интернет. В период с 1991 по 1993 год Бернерс-Ли усовершенствовал технические спецификации этих стандартов и опубликовал их. Но, всё же, официально годом рождения Всемирной паутины нужно считать 1989 год.
В рамках проекта Бернерс-Ли написал первый в мире веб-сервер, называвшийся «httpd», и первый в мире гипертекстовый веб-браузер, называвшийся «WorldWideWeb». Этот браузер был одновременно и WYSIWYG-редактором (сокр. от англ. what you see is what you get — что видишь, то и получишь), его разработка была начата в октябре 1990 года, а закончена в декабре того же года. Программа работала в среде NeXTStep и начала распространяться по Интернету летом 1991 года.
Майк Сендал (Mike Sendall) покупает в это время компьютер «NeXT cube» для того, чтобы понять, в чём состоят особенности его архитектуры, и отдаёт его затем Тиму [Бернерс-Ли]. Благодаря совершенству программной системы «NeXT cube» Тим написал прототип, иллюстрирующий основные положения проекта, за несколько месяцев. Это был впечатляющий результат: прототип предлагал пользователям, кроме прочего, такие развитые возможности, как WYSIWYG browsing/authoring!… В течение одной из сессий совместных обсуждений проекта в кафетерии ЦЕРНа мы с Тимом попытались подобрать «цепляющее» название (catching name) для создаваемой системы. Единственное, на чём я настаивал, это чтобы название не было в очередной раз извлечено всё из той же греческой мифологии. Тим предложил «world wide web». Всё в этом названии мне сразу очень понравилось, только трудно произносится по-французски.
— Robert Cailliau, 2 ноября 1995[1]
Первый в мире веб-сайт был размещён Бернерсом-Ли 6 августа 1991 года на первом веб-сервере, доступном по адресу http://info.cern.ch/
, (здесь архивная копия). Ресурс определял понятие «Всемирной паутины», содержал инструкции по установке веб-сервера, использования браузера и т. п. Этот сайт также являлся первым в мире интернет-каталогом, потому что позже Тим Бернерс-Ли разместил и поддерживал там список ссылок на другие сайты.
На первой фотографии, появившейся во Всемирной паутине, была изображена пародийная филк-группа Les Horribles Cernettes[2]. Тим Бернерс-Ли попросил у лидера группы отсканированные фотографии после музыкального фестиваля «CERN hardronic festival».
И всё же теоретические основы веба были заложены гораздо раньше Бернерса-Ли. Ещё в 1945 году Ванна́вер Буш разработал концепцию Memex — вспомогательных механических средств «расширения человеческой памяти». Memex — устройство, в котором человек хранит все свои книги и записи (а в идеале и все свои знания, поддающиеся формальному описанию) и которое выдаёт нужную информацию с достаточной скоростью и гибкостью. Оно является расширением и дополнением памяти человека. Бушем было также предсказано всеобъемлющее индексирование текстов и мультимедийных ресурсов с возможностью быстрого поиска необходимой информации. Следующим значительным шагом на пути ко Всемирной паутине было создание гипертекста (термин введён Тедом Нельсоном в 1965 году).
С 1994 года основную работу по развитию Всемирной паутины взял на себя консорциум Всемирной паутины (англ. world wide web consortium, в сокращённой записи W3C), основанный и до сих пор возглавляемый Тимом Бернерсом-Ли. Данный консорциум — организация, разрабатывающая и внедряющая технологические стандарты для Интернета и Всемирной паутины. Миссия W3C: «Полностью раскрыть потенциал Всемирной паутины путём создания протоколов и принципов, гарантирующих долгосрочное развитие Сети». Две другие важнейшие задачи консорциума — обеспечить полную «интернационализа́цию Сети́» и сделать Сеть доступной для людей с ограниченными возможностями.
W3C разрабатывает для Интернета единые принципы и стандарты (называемые «рекомендациями», англ. W3C recommendations), которые затем внедряются производителями программ и оборудования. Таким образом достигается совместимость между программными продуктами и аппаратурой различных компаний, что делает Всемирную сеть более совершенной, универсальной и удобной. Все рекомендации консорциума Всемирной паутины открыты, то есть не защищены патентами и могут внедряться любым человеком без всяких финансовых отчислений консорциуму.
Перспективы развития
В настоящее время наметились два направления в развитии Всемирной паутины: семантическая паутина и социальная паутина.
- Семантическая паутина предполагает улучшение связности и релевантности информации во Всемирной паутине через введение новых форматов метаданных.
- Социальная паутина полагается на пользователей, выполняющих упорядочивание имеющейся в сети информации.
В рамках второго направления наработки, являющиеся частью семантической паутины, активно используются в качестве инструментов (RSS и другие форматы веб-каналы, OPML, микроформаты XHTML). Частично семантизированные участки дерева категорий «Википедии» помогают пользователям осознанно перемещаться в информационном пространстве, однако, очень мягкие требования к подкатегориям не дают основания надеяться на расширение таких участков. В связи с этим интерес могут представлять попытки составления атласов Знания.
Существует также популярное понятие Web 2.0, обобщающее сразу несколько направлений развития Всемирной паутины.
Способы активного отображения информации
Представленная в сети информация может быть доступна:
- только для чтения («пассивно»);
- для чтения и добавления/изменения («активно»).
К способам активного отображения информации во Всемирной паутине относятся:
- гостевые книги (англ. guestbook);
- форумы (англ. forum);
- чаты (англ. chat);
- блоги (англ. blog);
- wiki-проекты;
- социальные сети (англ. social networking service);
- системы управления контентом (англ. content management system, CMS).
Это деление весьма условно. Так, скажем, блог или гостевую книгу можно рассматривать как частный случай форума, который, в свою очередь, является частным случаем системы управления контентом. Обычно разница проявляется в назначении, подходе и позиционировании того или иного продукта.
Отчасти информация с сайтов может также быть доступна через речь. В Индии уже началось[3] тестирование системы, делающей текстовое содержимое страниц доступным даже для людей, не умеющих читать и писать.
Безопасность
Для киберпреступников Всемирная паутина стала ключевым способом распространения вредоносного программного обеспечения. Кроме того, под понятие сетевой преступности подпадают кража личных данных, мошенничество, шпионаж и незаконный сбор сведений о тех или иных субъектах или объектах[4]. Веб-уязвимости, по некоторым данным, в настоящее время превосходят по количеству любые традиционные проявления проблем компьютерной безопасности; по оценкам Google, примерно одна из десяти страниц во Всемирной паутине может содержать вредоносный код[5][6][7]. По данным компании Sophos, британского производителя антивирусных решений, большинство кибератак в веб-пространстве совершается со стороны легитимных ресурсов, размещённых по преимуществу в США, Китае и России[8]. Наиболее распространённым видом подобных нападений, по сведениям от той же компании, является SQL-инъекция — злонамеренный ввод прямых запросов к базе данных в текстовые поля на страницах ресурса, что при недостаточном уровне защищённости может привести к раскрытию содержимого БД[9]. Другой распространённой угрозой, использующей возможности HTML и уникальных идентификаторов ресурсов, для сайтов Всемирной паутины является межсайтовое выполнение сценариев (XSS), которое стало возможным с введением технологии JavaScript и набрало обороты в связи с развитием Web 2.0 и Ajax — новые стандарты веб-дизайна поощряли использование интерактивных сценариев[10][11][12]. По оценкам 2008 года, до 70 % всех веб-сайтов в мире были уязвимы для XSS-атак против их пользователей[13].
Предлагаемые решения соответствующих проблем существенно варьируются вплоть до полного противоречия друг другу. Крупные поставщики защитных решений вроде McAfee, Avira, Avast и другие разрабатывают продукты для оценки информационных систем на предмет их соответствия определённым требованиям, другие игроки рынка (например, Finjan) рекомендуют проводить активное исследование программного кода и вообще всего содержимого в режиме реального времени, вне зависимости от источника данных[4][14]. Есть также мнения, согласно которым предприятия должны воспринимать безопасность как удачную возможность для развития бизнеса, а не как источник расходов; для этого на смену сотням компаний, обеспечивающих защиту информации сегодня, должна прийти немногочисленная группа организаций, которая приводила бы в исполнение инфраструктурную политику постоянного и повсеместного управления цифровыми правами[15][16].
Конфиденциальность
Каждый раз, когда пользовательский компьютер запрашивает у сервера веб-страницу, сервер определяет и, как правило, протоколирует IP-адрес, с которого поступил запрос. Аналогичным образом большинство обозревателей Интернета записывают сведения о посещённых страницах, которые затем можно просмотреть в журнале браузера, а также кэшируют загруженное содержимое для возможного повторного использования. Если при взаимодействии с сервером не используется зашифрованное HTTPS-соединение, запросы и ответы на них передаются через Интернет открытым текстом и могут быть считаны, записаны и просмотрены на промежуточных узлах сети.
Когда веб-страница запрашивает, а пользователь предоставляет определённый объём личных сведений, таких, к примеру, как имя и фамилия либо реальный или электронный адрес, поток данных может быть деанонимизирован и ассоциирован с конкретным человеком. Если веб-сайт использует файлы cookie, поддерживает аутентификацию пользователя или другие технологии отслеживания активности посетителей, то между предыдущими и последующими визитами также может быть установлена взаимосвязь. Таким образом, работающая во Всемирной паутине организация имеет возможность создавать и пополнять профиль конкретного клиента, пользующегося её сайтом (или сайтами). Такой профиль может включать, к примеру, информацию о предпочитаемом отдыхе и развлечениях, потребительских интересах, роде занятий и других демографических показателях. Такие профили представляют существенный интерес для маркетологов, сотрудников рекламных агентств и других специалистов подобного рода. В зависимости от условий обслуживания конкретных сервисов и местных законов такие профили могут продаваться или передаваться третьим сторонам без ведома пользователя.
Раскрытию сведений способствуют также социальные сети, предлагающие участникам самостоятельно изложить определённый объём личных данных о себе. Неосторожное обращение с возможностями таких ресурсов может приводить к попаданию в открытый доступ сведений, которые пользователь предпочёл бы скрыть; помимо прочего, такая информация может становиться предметом внимания хулиганов или, более того, киберпреступников. Современные социальные сети предоставляют своим участникам довольно широкий спектр настроек конфиденциальности профиля, однако эти настройки могут быть излишне сложны — в особенности для неопытных пользователей[17].
Распространение
В период с 2005 по 2010 год количество веб-пользователей удвоилось и достигло отметки двух миллиардов[18]. Согласно ранним исследованиям 1998 и 1999 годов, большинство существующих веб-сайтов не индексировалось корректно поисковыми системами, а сама веб-сеть оказалась крупнее, чем ожидалось[19][20]. По данным на 2001 год было создано уже более 550 миллионов веб-документов, большинство из которых, однако, находилось в пределах невидимой сети[21]. По данным на 2002 год было создано более 2 миллиардов веб-страниц[22], 56,4 % всего интернет-содержимого было на английском языке, после него шёл немецкий (7,7 %), французский (5,6 %) и японский (4,9 %). Согласно исследованиям, проводимым в конце января 2005 года, на 75 разных языках было определено более 11,5 миллиарда веб-страниц, которые были индексированы в открытой сети[23]. А по данным на март 2009 года, количество страниц увеличилось до 25,21 миллиарда[24]. 25 июля 2008 года инженеры программного обеспечения Google Джессе Альперт и Ниссан Хайай объявили, что поисковик Google засёк более миллиарда уникальных URL-ссылок[25].
См. также
Примечания
- Статья «Web как „следующий шаг“ (NextStep) революции персональных компьютеров».
- LHC: The first band on the web
- IBM разработала голосовой интернет
- Ben-Itzhak, Yuval. Infosecurity 2008 – New defence strategy in battle against e-crime, ComputerWeekly, Reed Business Information (18 апреля 2008). Дата обращения 20 апреля 2008.
- Christey, Steve and Martin, Robert A. Vulnerability Type Distributions in CVE (version 1.1) . MITRE Corporation (22 мая 2007). Дата обращения: 7 июня 2008. Архивировано 15 апреля 2013 года.
- Symantec Internet Security Threat Report: Trends for July–December 2007 (Executive Summary) (англ.) : journal. — Symantec Corp., 2008. — April (vol. XIII). — P. 1—2. Архивировано 25 июня 2008 года.
- Google searches web's dark side, BBC News (11 мая 2007). Дата обращения 26 апреля 2008.
- Security Threat Report (PDF). Sophos (Q1 2008). Дата обращения: 24 апреля 2008. Архивировано 15 апреля 2013 года.
- Security threat report (PDF). Sophos (июль 2008). Дата обращения: 24 августа 2008. Архивировано 15 апреля 2013 года.
- Fogie, Seth, Jeremiah Grossman, Robert Hansen, and Anton Rager. Cross Site Scripting Attacks: XSS Exploits and Defense (англ.). — Syngress, Elsevier Science & Technology, 2007. — P. 68—69, 127. — ISBN 1-59749-154-3.
- O'Reilly, Tim. What Is Web 2.0 4–5. O'Reilly Media (30 сентября 2005). Дата обращения: 4 июня 2008. Архивировано 15 апреля 2013 года.
- Ritchie, Paul. The security risks of AJAX/web 2.0 applications (неопр.) // Infosecurity. — Elsevier, 2007. — March. Архивировано 25 июня 2008 года. Архивированная копия (недоступная ссылка). Дата обращения: 15 апреля 2013. Архивировано 25 июня 2008 года.
- Berinato, Scott. Software Vulnerability Disclosure: The Chilling Effect, CSO, CXO Media (1 января 2007), С. 7. Архивировано 18 апреля 2008 года. Дата обращения 7 июня 2008.
- Prince, Brian. McAfee Governance, Risk and Compliance Business Unit, eWEEK, Ziff Davis Enterprise Holdings (9 апреля 2008). Дата обращения 25 апреля 2008.
- Preston, Rob. Down To Business: It's Past Time To Elevate The Infosec Conversation, InformationWeek, United Business Media (12 апреля 2008). Архивировано 14 апреля 2008 года. Дата обращения 25 апреля 2008.
- Claburn, Thomas. RSA's Coviello Predicts Security Consolidation, InformationWeek, United Business Media (6 февраля 2007). Архивировано 7 февраля 2009 года. Дата обращения 25 апреля 2008.
- boyd, danah; Hargittai, Eszter. Facebook privacy settings: Who cares? (неопр.) // First Monday. — University of Illinois at Chicago, 2010. — July (т. 15, № 8).
- Lynn, Jonathan. Internet users to exceed 2 billion …, Reuters (19 октября 2010). Архивировано 22 апреля 2012 года. Дата обращения 9 февраля 2011.
- S. Lawrence, C.L. Giles, "Searching the World Wide Web, " Science, 280(5360), 98-100, 1998.
- S. Lawrence, C.L. Giles, "Accessibility of Information on the Web, " Nature, 400, 107—109, 1999.
- The 'Deep' Web: Surfacing Hidden Value . Brightplanet.com. Дата обращения: 27 июля 2009. Архивировано 4 апреля 2008 года.
- Distribution of languages on the Internet . Netz-tipp.de. Дата обращения: 27 июля 2009. Архивировано 24 мая 2013 года.
- Alessio Signorini. Indexable Web Size . Cs.uiowa.edu. Дата обращения: 27 июля 2009. Архивировано 24 мая 2013 года.
- The size of the World Wide Web . Worldwidewebsize.com. Дата обращения: 27 июля 2009. Архивировано 24 мая 2013 года.
- Alpert, Jesse; Hajaj, Nissan. We knew the web was big… . The Official Google Blog (25 июля 2008). Архивировано 24 мая 2013 года.
Литература
- Филдинг, Р.; Геттис, Дж.; Могул, Дж.; Фристик, Г.; Мазинтер, Л.; Лич, П.; Бернерс-Ли, Т. Hypertext Transfer Protocol — http://1.1 (неопр.). — Information Sciences Institute, 1999. — June (т. Request For Comments 2616). Архивировано 22 ноября 2009 года. Архивная копия от 22 ноября 2009 на Wayback Machine
- Бернерс-Ли, Тим; Брэй, Тим; Конноли, Дэн; Коттон, Пол; Филдинг, Рой; Джекл, Марио; Лилли, Крис; Мендельсон, Ной; Оркард, Дэвид; Уолш, Норман; Уиллиамс, Стюарт. Architecture of the World Wide Web, Volume One (неопр.). — W3C, 2004. — 15 December (т. Version 20041215).
- Поло, Лучано. World Wide Web Technology Architecture: A Conceptual Analysis . New Devices (2003). Дата обращения: 31 июля 2005. Архивировано 23 августа 2011 года.
Ссылки
- Официальный сайт Консорциума Всемирной паутины (World Wide Web Consortium (W3C)) (англ.)
- Tim Berners-Lee, Mark Fischetti. Плетя паутину: истоки и будущее Всемирной паутины = Weaving the Web: The Original Design and Ultimate Destiny of the World Wide Web. — New York: HarperCollins Publishers. — 256 p. — ISBN 0-06-251587-X, ISBN 978-0-06-251587-2. Архивная копия от 3 января 2010 на Wayback Machine (англ.)
- Историческое предложение Тима Бернерса-Ли для CERN (англ.)
- Первый в мире веб-сайт (архив) (англ.)
- Эволюция Веба (интерактивное представление)
- The BBC Standards and Guidelines for Mobile Accessibility (англ.)