DBpedia

DBpedia — краудсорсинговый проект, направленный на извлечение структурированной информации из данных, созданных в рамках проекта Википедия и публикации её в виде доступных под свободной лицензией наборов данных. Проект был отмечен Тимом Бернерсом-Ли как один из наиболее известных примеров реализации концепции связанных данных[2].

DBpedia
URL dbpedia.org (англ.)
Коммерческий нет
Тип сайта база знаний, онлайн-база данных, database derived from Wikimedia projects[d] и граф знаний[d]
Язык(-и) Scala, Java, Virtuoso Server Pages
Язык программирования Java и Scala
Владелец Лейпцигский университет и Университет Мангейма
Автор Лейпцигский университет, Университет Мангейма и Институт Хассо Платнера[d]
Начало работы 10 января 2007
Рейтинг Alexa 102 111[1]
 Медиафайлы на Викискладе

Проект был начат группой добровольцев из Свободного университета Берлина и Лейпцигского университета, в сотрудничестве с фирмой OpenLink Software, первый набор данных опубликован в 2007 году. С 2012 года активным участником проекта является Университет Мангейма.

Базы данных

По состоянию на апрель 2016 года базы данных DBpedia описывают более 6 млн понятий, из которых 5,2 млн классифицированы в соответствии с онтологией, в том числе 1,5 млн персоналий, 810 тыс. географических объектов, 135 тыс. музыкальных альбомов, 106 тыс. фильмов, 20 тыс. видеоигр, 275 тыс. организаций, 201 тыс. таксонов и 5 тыс. заболеваний. DBpedia содержит 38 млн меток и аннотаций на 125 языках; 25,2 млн ссылок на изображения и 29,8 млн ссылок на внешние веб-страницы; 50 млн внешних ссылок на другие базы данных RDF-формата, 80,9 млн категорий Википедии.

Проект использует Resource Description Framework (RDF) для представления извлечённой информации, на сентябрь 2014 года базы состоят из более чем 9,5 млрд RDF-троек, из которых 1,3 млрд были взяты из английского раздела Википедии и 5,0 млрд извлечены из разделов на других языках.

Одна из проблем при извлечении информации из Википедии состоит в том, что одни и те же понятия могут быть выражены в шаблонах разными способами, например, понятие «место рождения» может быть сформулировано в английском языке как «birthplace» и как «placeofbirth». Из-за этой неоднозначности запрос проходит по обоим вариантам для получения более достоверного результата. Для облегчения поиска при сокращении количества синонимов был разработан специальный язык — DBpedia Mapping Language, а у пользователей DBpedia появилась возможность повышать качество извлечения данных с помощью сервиса Mapping.

Пример

DBpedia извлекает фактическую информацию со страниц Википедии, позволяя пользователям найти ответы на вопросы в ситуациях, когда требуемая информация находится в нескольких различных статьях Википедии. Например, чтобы найти все работы иллюстратора манги Tokyo Mew Mew возможно выполнить следующий SPARQL-запрос[3]:

 PREFIX dbprop: <http://dbpedia.org/property/>
 PREFIX db: <http://dbpedia.org/resource/>
 SELECT ?who ?work ?genre WHERE { 
  db:Tokyo_Mew_Mew dbprop:illustrator ?who .
  ?work  dbprop:author ?who .
  OPTIONAL { ?work dbprop:genre ?genre } .
 }

Примечания

  1. Alexa Internet (англ.) — 1996.
  2. Transcript: Sir Tim Berners-Lee Talks with Talis about the Semantic Web Архивировано 10 мая 2013 года.
  3.  — на запрос на SPARQL к DBPedia
This article is issued from Wikipedia. The text is licensed under Creative Commons - Attribution - Sharealike. Additional terms may apply for the media files.