Слабоструктурированные данные

Слабоструктури́рованные да́нные (полуструктурированные или плохо структурированные данные) — это форма структурированных данных, не соответствующая строгой структуре таблиц и отношений в моделях реляционных баз данных, тем не менее эта форма данных содержит теги и другие маркеры для отделения семантических элементов и для обеспечения иерархической структуры записей и полей в наборе данных[1]. Таким образом, такой вид данных можно назвать бессхемным (schemaless), а структуру — самоописываемой.

В слабоструктурированных данных сущности, принадлежащие одному и тому же классу, могут иметь разные атрибуты, даже если классы принадлежат к одной группе. Порядок атрибутов также не важен.

Слабоструктурированные данные становятся важным объектом для исследований по нескольким причинам[2]:

к таким источникам данных, как Веб, удобно обращаться как к базам данных, но Веб нельзя «уложить» в прокрустово ложе какой-либо определённой схемы данных;
желательно иметь предельно гибкий формат для обмена данными между разными базами данных;
даже при работе со структурированными данными может быть удобно представлять их в виде слабоструктурированных данных с целью навигации по ним.

Таким образом, слабоструктурированные данные встречаются всё чаще, поскольку с развитием интернета для полнотекстовых документов и баз данных требуется формат данных, выступающий в качестве информационного посредника. Слабоструктурированные данные часто можно встретить в объектно-ориентированных базах данных.

Типы слабоструктурированных данных

XML[3] и другие языки разметки, email и сообщения в форматах EDI — всё это примеры слабоструктурированных данных.

Модель обмена данных (OEM)[4] предшествовала XML и являлась самоописываемой структурой данных.

Примечания

Tutorial on semi-structured data by Peter Buneman from Symposium on Principles of Database Systems, 1997 Архивная копия от 17 мая 2009 на Wayback Machine
Peter Buneman, Semistructured data, Proceedings of the sixteenth ACM SIGACT-SIGMOD-SIGART symposium on Principles of database systems, p.117-121, May 11-15, 1997, Tucson, Arizona, United States
The Penn database group has semi-structured and XML data project
Stanford Universities Lore DBMS

This article is issued from Wikipedia. The text is licensed under Creative Commons - Attribution - Sharealike. Additional terms may apply for the media files.

[1] Tutorial on semi-structured data by Peter Buneman from Symposium on Principles of Database Systems, 1997 Архивная копия от 17 мая 2009 на Wayback Machine

[2] Peter Buneman, Semistructured data, Proceedings of the sixteenth ACM SIGACT-SIGMOD-SIGART symposium on Principles of database systems, p.117-121, May 11-15, 1997, Tucson, Arizona, United States

[3] The Penn database group has semi-structured and XML data project

[4] Stanford Universities Lore DBMS