Извлечение знаний

Извлечение знаний (англ. knowledge extraction) — создание знаний из структурированных (реляционных баз данных, XML) и неструктурированных источников (тексты, документы, изображения). Полученное знание должно иметь формат, позволяющий компьютерный ввод, и должно представлять знания так, чтобы облегчить логические выводы. Хотя по методике процесс подобен извлечению информации (обработке естественного языка, англ. Natural language processing, NLP) и процессу «Извлечения, Преобразования, Загрузки» (англ. Extract, Transform, Load, ETL, для хранилищ данных), главный критерий результата — создание структурированной информации или преобразование в реляционную схему. Это требует либо преобразования существующего формального знания (повторного использования идентификаторов или онтологий), либо генерацией схемы, основанной на исходных данных.

Группа RDB2RDF W3C[1] занимается стандартизацией языка для извлечения среды описания ресурса (англ. resource description frameworks, RDF) из реляционной базы данных. Другой популярный пример извлечения знаний — преобразование Википедии в структурированные данные и отображение в существующее знание (см. DBpedia и Freebase).

Обзор

После стандартизации языков представления знания, таких как «среда описания ресурса» (англ. Resource Description Framework, RDF) и «язык описания онтологий» (англ. Web Ontology Language, OWL), много исследований проводилось в этой области, особенно относительно преобразования реляционной базы данных в RDF, способности распознавания, обнаружения знаний и обучения онтологий. Основной процесс использует традиционные методы извлечения информации и методы «извлечения, преобразования и загрузка» (англ. extract, transform, load, ETL), которые преобразуют данные из исходных форматов в структурированные форматы.

Следующие критерии могут быть использованы для попыток категоризации в этой теме (некоторые из них обеспечивают извлечение знаний из реляционных баз данных)[2]:

Источник Какие данные могут быть обработаны: Текст, Реляционная база данных, XML, CSV
Представление Как извлечённые данные могут быть представлены для использования (файл онтологии (объектной модели), семантическая база данных)? Как можно запрашивать информацию из полученного представления?
Синхронизация Выполняется ли извлечение знания один раз для получения дампа или результат синхронизируется с источником? Извлечение статическое или динамическое? Записываются ли изменения в результате обратно в источник (двунаправленность)?
Повторное использование словаря Позволяет ли средство извлечения повторное использование существующих словарей при извлечении. Например, столбец таблицы 'firstName' может быть отражён в столбец foaf: firstName. Некоторые автоматические подходы не способны к отображению словаря.
Автоматизация Степень участия/автоматизации извлечения: Ручной режим, есть GUI, полуавтоматический, автоматический.
Необходимость объектной модели предметной области Требуется ли наперёд заданная объектная модель для отображения в неё. Таким образом, либо отображение создаётся, либо схема получается из источника путём (обучения онтологий).

Примеры

Связывание именованных сущностей

  1. DBpedia Spotlight, OpenCalais, Dandelion dataTXT, Zemanta API, Extractiv и PoolParty Extractor анализируют произвольный текст с помощью распознавания именованных сущностей, а затем разрешения неоднозначностей путём разрешения имён и связывания найденных сущностей в депозитарий знаний DBpedia[3] (Dandelion dataTXT demo, или DBpedia Spotlight web demo, или PoolParty Extractor Demo).

Президент Обама призвал в среду Конгресс включить расширение налоговых каникул для студентов в пакет экономического стимулирования, утверждая, что эта политика даст более крепкую поддержку.

Так как Президент Обама связан в DBpedia с ресурсом LinkedData, дальнейшая информация может быть извлечена автоматически и Семантический механизм рассуждений может, например, сделать вывод, что упомянутая сущность является неким типом личности (используя FOAF) и президентом США (используя YAGO). Контрпримеры: Методы, которые только распознают сущности и не связывают со статьями в Википедии или другими объектами, не обеспечивают извлечение дальнейших структурированных данных и формального знания.

Преобразование реляционной базы данных в RDF

  1. Triplify, D2R Server, Ultrawrap и Virtuoso прредставления RDF являются средствами, которые преобразуют реляционную базу данных в RDF. В течение это процесса эти средства позволяют повторное использование словарей и онтологии в процессе преобразования. Когда преобразуется типичная реляционная таблица с названием users, один столбец (например, name) или группа столбцов (например, first_name и last_name) должны обеспечивать унифицированный идентификатор создаваемой сущности. Обычно используется главный ключ. Любой другой столбец может быть извлечён как связанный с этой сущностью[4]. Затем используются (и повторно используются) свойства с формально определённой семантикой для интерпретации информации. Например, столбец таблицы user, названный marriedTo (женат на/замужем за) может быть определён как семантическое отношение, а столбец homepage (домашняя страница) может быть преобразован в свойство из словаря FOAF с названием foaf: homepage, тем самым квалифицируя его как обратную функциональность. Тогда каждый вход таблицы user может быть сделан экземпляром класса foaf:Person (онтология Население). Кроме того, предметная область (в виде онтологии) может быть создана из status_id путём вручную созданных правил (если status_id равен 2, строка таблицы принадлежит классу Учитель) или (полу-)автоматическими методами (Обучение онтологий). Ниже приведён пример преобразования:
NamemarriedTohomepagestatus_id
PeterMaryhttp://example.org/Peters_page (недоступная+ссылка)1
ClausEvahttp://example.org/Claus_page (недоступная+ссылка)2
 :Peter :marriedTo :Mary .  
 :marriedTo OWL:SymmetricProperty .  
 :Peter foaf:homepage  <http://example.org/Peters_page> .  
 :Peter foaf:Person (Физическое лицо).   
 :Peter :Student (Студент).  
 :Claus :Teacher (Учитель).

Извлечение из структурированных источников в RDF

Отображение 1:1 из таблиц/представлений реляционной базы данных в RDF сущности/атрибуты/значения

При построении представления реляционной базы данных (РБД, англ. relational database) стартовой точкой часто служит диаграмма сущность-связь (англ. entity-relationship diagram, ERD). Обычно каждая сущность представлена как таблица базы данных, каждое свойство сущности становится столбцом в этой таблице, а связь между сущностями показывается внешними ключами. Каждая таблица обычно определяет конкретный класс сущностей, а каждый столбец определяет одно из свойств этой сущности. Каждая строка в таблице описывает экземпляр сущности, однозначно определённый главным ключом. Строки таблицы вместе описывают набор сущностей. В эквивалентном RDF представлении того же набора сущности:

  • Каждый столбец в таблице является свойством (то есть предикатом)
  • Каждое значение в столбце является свойством атрибута (то есть является объектом)
  • Каждый ключ строки представляет ID сущности (то есть субъектом)
  • Каждая строка представляет экземпляр сущности
  • Каждая строка (экземпляр сущности) представляется в RDF коллекцией кортежей с общим субъектом (ID сущности).

Таким образом, чтобы выразить эквивалентное представление, основанное на семантике RDF, базовый алгоритм будет выглядеть следующим образом:

  1. создаём схему RDF (RDFS) класса для каждой таблицы
  2. преобразуем все главные ключи и внешние ключи в IRI идентификаторы
  3. назначаем IRI предикат каждому столбцу
  4. назначаем rdf: type предикат каждой строке, связывая его с IRI идентификатором RDFS класса
  5. Для каждого столбца, не являющегося ни частью главного ключа, ни частью внешнего ключа, строим тройку, содержащую IRI главного ключа в качестве субъекта (подлежащего), IRI столбца в качестве предиката и значения столбца в качестве объекта.

Раннее упоминание базового или прямого отображения можно найти в сравнении Тимом Бернерсом-Ли ER-модели с RDF моделью[4].

Сложные отображения реляционных баз данных в RDF

1:1 отображение, упомянутое выше представляет старые данные как RDF напрямую, а дополнительная доработка может быть использована для улучшения полноценности вывода RDF соответственно заданному сценарию использования. Как правило, информация теряется в течение преобразования диаграммы сущность-связь (англ. entity-relationship diagram, ERD) в реляционные таблицы (детальное описание можно найти в статье «Объектно-реляционная потеря соответствия») и должна быть восстановлена путём обратного проектирования. С концептуальной точки зрения подходы для извлечения могут прийти с двух направлений. Первое направление пытается извлечь или обучить (с помощью машинного обучения) OWL схему из заданной схемы базы данных. Ранние подходы использовали фиксированное количество созданных вручную правил отображения для улучшения 1:1 отображения[5][6][7]. Более тщательно разработанные методы использовали эвристические или обучающие алгоритмы для порождения схематической информации (методы частично совпадают с обучением онтологий). В то время как некоторые подходы пытаются извлечь информацию из структуры, присущей SQL схеме[8] (анализируя, например, внешние ключи), другие подходы анализируют содержимое и значения в таблицах для создания концептуальных иерархий[9] (например, столбцы с малым числом значений являются кандидатами стать категориями). Второе направление пытается отобразить схему и её содержимое в существующую онтологию предметной области (см. также «Отображение онтологий»). Часто, однако, подходящая онтология предметной области не существует и её сначала следует создать.

XML

Поскольку XML структурирован в виде дерева, любые данные легко представить в формате RDF, который структурирован в виде графа. XML2 RDF является одним примером подхода, который использует пустые узлы RDF и преобразует элементы и атрибуты XML в свойства RDF. Случай, однако, более сложен, чем в случае реляционных баз данных. В реляционных таблицах главный ключ является идеальным кандидатом для субъекта выделенных троек. XML элемент, однако, может быть преобразован — в зависимости о контекста — как субъект, как предикат или как объект тройки. XSLT может быть использован как стандартный язык преобразования для ручного преобразования XML в RDF.

Обзор методов / средств

НазваниеИсточник
данных
Представление результатаСинхронизация данныхЯзык отображенияПовторное исполь-
зование словаря
Автома-
тизация отобра-
жения
Требуется онтология областиИсполь-
зование
GUI
Прямое отображение реляционных данных в RDFРеляционные
данные
SPARQL/ETLдинамическаянетавтомати-
ческая
нетнет
CSV2RDF4LODCSVETLстатическаяRDFдаручнаянетнет
Convert2RDFТекстовый файл с разделителямиETLстатическаяRDF/DAMLдаручнаянетда
D2R Server Архивная копия от 26 февраля 2012 на Wayback MachineРБДSPARQLдвунаправленнаяD2R Mapдаручнаянетнет
DartGridРБДЯзык запросов OWLдинамическаяВизуальные средствадаручнаянетда
DataMasterРБДETLстатическаясобственныйдаручнойдада
Расширение Google Refine’s RDFCSV, XMLETLстатическаяотсутствуетполуавто-
матическая
нетда
KrextorXMLETLстатическаяXSLTдаручнаяданет
MAPONTOРБДETLстатическаясобственныйдаручнаяданет
METAmorphosesРБДETLстатическаясобственный язык, базирующийся на xml отображениидаручнаянетда
MappingMasterCSVETLстатическаяMappingMasterдаGUIнетда
ODEMapsterРБДETLстатическаясобственнаядаручнаядада
OntoWiki CSV Importer Plug-in — DataCube & TabularCSVETLстатическаяRDF Data Cube Vocaublaryдаполуавто-
матическая
нетда
Poolparty Extraktor (PPX)XML, TextLinkedDataдинамическаяRDF (SKOS)даполуавто-
матическая
данет
RDBToOntoРБДETLстатическаяотсутствуетнетавтомати-
ческая, пользователь имеет шанс тонкой настройки результата
нетда
RDF 123CSVETLстатическаянетнетручнаянетда
RDOTEРБДETLстатическаяSQLдаручнаядада
Relational.OWLРБДETLстатическаяотсутствуетнетавтомати-
ческая
нетнет
T2LDCSVETLстатическаянетнетавтомати-
ческая
нетнет
RDF-словарь куба данных (англ. RDF Data Cube Vocabulary)Многомерные статистические данные в электронных таблицахсловарь Куба данныхдаручнаянет
TopBraid ComposerCSVETLстатическаяSKOSнетполуавто-
матическая
нетда
TriplifyРБДLinkedDataдинамическаяSQLдаручнаянетнет
UltrawrapРБДSPARQL/ ETLдинамическаяR2RMLдаполуавто-
матическая
нетда
Virtuoso RDF ViewsРБДSPARQLдинамическаяMeta Schema Languageдаполуавто-
матическая
нетда
Virtuoso Spongerструктури-
рованные и полуструкту-
рированные источники данных
SPARQLдинамическаяVirtuoso PL & XSLTдаполуавто-
матическая
нетнет
VisAVisРБДRDQL[10]ручнаяSQLдаручнаядада
XLWrap: Spreadsheet to RDFCSVETLстатическаяTriG Syntaxдаручнаянетнет
XML в RDFXMLETLстатическаянетнетавтомати-
ческая
нетнет

Извлечение из естественного языкового источника

Наибольшая порция информации, содержащаяся в бизнес-документе (около 80 %[11]), закодирована в естественном языке и потому не структурирована. Поскольку неструктурированные данные является, скорее, сложной задачей для извлечения знания, требуются более изощрённые методы, которые обычно дают худшие результаты по сравнению со структурированными данными. Однако возможность приобрести огромное количество извлечённых знаний компенсирует увеличивающуюся сложность и ухудшающееся качество извлечения. Далее источники на естественном языке понимаются как источники информации, в которых данные приведены как неструктурированные текстовые данные. Если данный текст вставлен в документ с разметкой (например, HTML-документ), упомянутые системы обычно удаляют элементы разметки автоматически.

Традиционное извлечение информации

Традиционное извлечение информации (англ. information extraction, IE[12])[13] — это технология обработки естественного языка, которая извлекает информацию из текстов на естественном языке и структурирует их подходящим образом. Виды информации, которые следует извлечь, должны быть указаны в модели перед началом процесса обработки, вот почему весь процесс традиционного извлечения информации зависим от рассматриваемой предметной области. ИЗ (англ. IE) распадается на следующие пять подзадач.

  • Распознавание именованных сущностей (англ. Named entity recognition, NER)
  • Разрешение кореференции(англ. Coreference resolution, CO)
  • Построение элементов шаблона (ПЭ, англ. Template element construction, TE) (или Добавление атрибутов к сущностям)
  • Выявление связей между сущностями (ВС, англ. Template relation construction, TR)
  • Построение полного описания события (ППО, англ. Template scenario production, ST)

Задача распознавания именованных сущностей заключается в узнавании и категоризации всех именованных сущностей, содержащихся в тексте (назначение именованным сущностям предопределённые категории). Это работает путём применения методов, основанных на грамматике, или на статистических моделях.

Разрешение кореференции устанавливает эквивалентные сущности, которые были распознаны в тексте алгоритмом NER. Есть два связанных вида отношения эквавалентности. Первое отношение относится к связи между двумя различными сущностями (например, IBM Europe и IBM), а второе относится к связи между сущностью и её анафорической ссылкой (например, it и IBM). Оба вида могут быть распознаны разрешением кореференции.

Во время построения элементов шаблона система IE устанавливает описательные свойства сущностей, распознанные системами NER и CO. Эти свойства соответствуют обычным качествам, как «красный» или «большой».

Выявление связей между отдельными сущностями устанавливает отношения, которые существуют между элементами шаблона. Эти отношения могут быть нескольких видов, такие как работает-для или расположено-в, с ограничением, что как область, так и диапазон соответствуют сущностям.

Полные описания событий, которые проводятся в тексте, распознаются и структурируются согласно сущностям, распознанных системами NER и CO, а отношения распознаются системой ВС.

Извлечение информации на основе онтологий

Извлечение информации на основе онтологий (англ. Ontology-based information extraction, OBIE)[11] является подобластью извлечения информации, в которой используется по меньшей мере одна онтология для управления процессом извлечения информации из текста на естественном языке. Система OBIE использует методы традиционного извлечения информации для распознавания понятий, сущностей и отношений использованных онтологий в тексте, которые будут структурированы в онтологию после процесса. Таким образом, вводимые онтологии формируют модель извлекаемой информации.

Обучение онтологий

Обучение онтологий (англ. Ontology learning, OL) это автоматическое или полуавтоматическое создание онтологий, включая извлечение соответствующих терминов объектной области из текста естественного языка. Так как построение онтологий вручную требует крайне интенсивной работы и затрат времени, существует большой стимул для автоматизации процесса.

Семантическое аннотирование

Во время семантического аннотирования (англ. semantic annotation, SA)[14] текст на естественном языке сопровождается метаданными (часто представимы в атрибутах RDF, англ. Resource Description Framework in Attributes), которые должны сделать семантику содержащихся элементов понимаемыми машинами. В этом процессе, который обычно является полуавтоматическим, знания извлекаются в том смысле, что устанавливается связь между лексическими элементами и, например, понятиями из онтологий. Таким образом получаем знания, которые открывают значение сущности в обрабатываемом контексте, а потому определяет значение текста в воспринимаемой машиной информации с возможностью делать логические выводы. Семантическая аннотация обычно расщепляется на следующие две подзадачи.

  1. Извлечение терминологии
  2. Связывание именованных сущностей

На уровне извлечения терминологии из текста извлекаются лексические термины. С этой целью лексический анализатор сначала определяет границы слов и выделяет аббревиатуры. Затем из текста извлекаются термины, которые соответствуют понятиям, с помощью словаря специфичных области исследования для связывания сущностей.

При связывании сущностей[15] устанавливается связь между извлечёнными лексическими членами из текста-источника и понятиями из онтологии или базы знаний, такой как DBpedia. Для этого кандидаты в понятия выявляются согласно определённым значениям элемента с помощью словаря. Наконец, анализируется контекст терминов для определения наиболее подходящего разрешения многозначности и термину назначается правильное понятие.

Средства

Следующие критерии могут быть использованы для категоризации средств, которые извлекают знание из текстов на естественном языке.

ИсточникКакие входные форматы могут быть обработаны (простой текст, HTML или PDF, например)?
Парадигма доступаМожет ли средство запросить часть данных из источника или необходим полный дамп для процесса извлечения?
Синхронизация данныхСинхронизирован ли результат извлечения с источником?
Использование объектной моделиСвязывает ли средство результат с объектной моделью?
Автоматизация отображенияНасколько автоматизирован процесс извлечения (ручной, полуавтоматический или автоматический)?
Требование объектной моделиТребует ли средство наличия объектной модели для извлечения?
Использование GUIИмеет ли средство графический пользовательский интерфейс (англ. Graphical User Interface, GUI)?
ПодходКакой подход (IE, OBIE, OL или SA) средство использует?
Извлекаемые сущности                   Какие типы сущностей (например, именованные сущности, концепции или отношения) могут быть извлечены средством?
Применяемые техникиКакие техники применяются (например, NLP, статистические методы, кластеризация или машинное обучение)?
Выходная модельКакая модель используется для представления результата средства (например, RDF или OWL)?
Поддерживаемые предметные областиКакие предметные области поддерживаются (например, экономика или биология)?
Поддерживаемые языкиКакие языки могут быть обработаны (например, английский, немецкий или русский)?

Следующая таблица описывает некоторые средства для извлечения знаний из источников естественного языка.

НазваниеИсточникПарадигма доступаСинхронизация данныхИспользование объектной моделиАвтоматизация отображенияТребование объектной моделиИспользование GUIПодходИзвлекаемые сущности                   Применяемые техникиВыходная модельПоддерживаемые областиПоддерживаемые языки
AeroText[16] текстовые данные, HTML, XML, SGMLдампнетдаавтоматическоедадаIEименованные сущности, связи, событиялингвинистические правиласобственнаяне зависит от областианглийский, испанский, арабский, китайский, индонезийский
AlchemyAPI[17]текстовые данные, HTMLавтоматическоедаSAмногоязычный
ANNIE

[18]

текстовые данныедампдадаIEалгоритмы конечного автоматамногоязычный
ASIUM (LRI)текстовые данныедампполуавтоматдаOLпонятия, иерархия понятийNLP, кластеризация
Exhaustive Extraction компании AttensityавтоматическоеIEименованные сущности, связи, событияNLP
Dandelion APIтекстовые данные, HTML, URLRESTнетнетавтоматическинетдаSAименованные сущности, понятиястатистические методыJSONне зависит от областимногоязычный
DBpedia Spotlight[19]текстовые данные, HTMLдамп, SPARQLдадаавтоматическоенетдаSAannotation to each word, annotation to non-stopwordsNLP, statistical methods, машинное обучениеRDFaне зависит от областианглийский
EntityClassifier.euтекстовые данные, HTMLдампдадаавтоматическоенетдаIE, OL, SAannotation to each word, annotation to non-stopwordsrule-based grammarXMLне зависит от областианглийский, немецкий, голландский
FRED[20] текстовые данныедамп, REST APIдадаавтоматическоенетдаIE, OL, SA, онтологические шаблоны проектирования, семантика фреймовслова NIF или EarMark аннотация, предикаты, экземпляры, композиционная семантика, понятия таксономий, семантические роли, описательные отношения, события, наклонение, грамматическое время, связывание именованных сущностей, связывание событий, эмоцииNLP, машинное обучение, heuristic rulesRDF / OWLне зависит от областианглийский, другие языки после перевода
iDocument[21]HTML, PDF, DOCSPARQLдадаOBIEinstances, property valuesNLPpersonal, business
NetOwl Extractor[22] текстовые данные, HTML, XML, SGML, PDF, MS OfficeдампнетдаавтоматическидадаIEименованные сущности, связи, событияNLPXML, JSON, RDF — OWL, othersмножественные областианглийский, арабский, китайский (упрощённый и традийионный), французский, корейский, персидский (фарси и дари), русский, испанский
OntoGen Архивная копия от 30 марта 2010 на Wayback Machine[23]полуавтоматдаOLпонятия, иерархия понятий, non-taxonomic отношения, instancesNLP, машинное обучение, кластеризация
OntoLearn Архивная копия от 9 августа 2017 на Wayback Machine[24]текстовые данные, HTMLдампнетдаавтоматическиданетOLпонятия, иерархия понятий, instancesNLP, statistical methodsсобственнаяне зависит от областианглийский
OntoLearn Reloadedтекстовые данные, HTMLдампнетдаавтоматическиданетOLпонятия, иерархия понятий, instancesNLP, statistical methodsсобственнаяне зависит от областианглийский
OntoSyphon[25]HTML, PDF, DOCдамп, search engine queriesнетдаавтоматическиданетOBIEпонятия, отношения, instancesNLP, statistical methodsRDFне зависит от областианглийский
ontoX[26]текстовые данныедампнетдаполуавтоматическиданетOBIEinstances, datatype property valuesheuristic-based methodsсобственнаяне зависит от областине зависит от языка
OpenCalaisтекстовые данные, HTML, XMLдампнетдаавтоматическиданетSAannotation to entities, annotation to события, annotation to factsNLP, машинное обучениеRDFне зависит от областианглийский, французский, испанский
PoolParty Extractor (2011)текстовые данные, HTML, DOC, ODTдампнетдаавтоматическидадаOBIEименованные сущности, понятия, отношения, понятия, that categorize the text, enrichmentsNLP, машинное обучение, статистические методыRDF, OWLне зависит от областианглийский, немецкий, испанский, французский
Rosokaтекстовые данные, HTML, XML, SGML, PDF, MS OfficeдампдадаавтоматическинетдаIEизвлечение именованных сущностей, разрешение сущностей, извлечение связей, атрибутов, понятий, мультивекторный анализ тональности высказывания, геопривязка, идентификация языка, машинное обучениеNLPXML, JSON, POJOмножественные областимногоязычный (200+ язык)
SCOOBIEтекстовые данные, HTMLдампнетдаавтоматическинетнетOBIEinstances, property values, RDFS typesNLP, машинное обучениеRDF, RDFaне зависит от областианглийский, немецкий
SemTag[27][28] HTMLдампнетдаавтоматическиданетSAмашинное обучениеdatabase recordне зависит от областине зависит от языка
smart FIXтекстовые данные, HTML, PDF, DOC, e-MailдампданетавтоматическинетдаOBIEименованные сущностиNLP, машинное обучениесобственнаяне зависит от областианглийский, немецкий, французский, голландский, польский
Text2Onto[29]текстовые данные, HTML, PDFдампданетполуавтоматическидадаOLпонятия, концепция понятий, non-taxonomic отношения, instances, axiomsNLP, статистические методы, машинное обучение, rule-based methodsOWLне зависит от областианглийский, немецкий, испанский
Text-To-Onto[30]текстовые данные, HTML, PDF, PostScriptдампполуавтоматическидадаOLпонятия, иерархия понятий, non-taxonomic отношения, lexical entities referring понятиям, lexical entities referring to отношенияNLP, машинное обучение, кластеризация, статистические методынемецкий
ThatNeedle Текстовые данные дамп автоматически нет понятия, отношения, hierarchy NLP, собственная JSON множественные области английский
The Wiki Machine[31] текстовые данные, HTML, PDF, DOCдампнетдаавтоматическидадаSAмаркировка имен собственных, маркировка имён нарицательныхмашинное обучениеRDFaнезависимый от областианглийский, немецкий, испанский, французский, португальский, итальянский, русский
ThingFinder[32]IEименованные сущности, связи, событиямногоязычный

Обнаружение знаний

Обнаружение знаний описывает процесс автоматического поиска больших объёмов данных для моделей, которые могут считаться знанием о данных[33]. Это часто описывается как извлечение знания из входных данных. Обнаружение знаний разрабатывается для анализа данных и тесно связано как с методологией, так и терминологией[34].

Наиболее известная ветвь интеллектуального анализа данных — обнаружение знаний, известное также как обнаружение знаний в базах данных. Как и многие другие формы обнаружения знаний, этот анализ создаёт абстракции входных данных. Знание, приобретённое в результате этого процесса, может стать дополнительными данными, которые могут быть использованы для дальнейшего использования и поисков. Часто выходные данные процесса обнаружения знаний не имеет практической ценности, так что обнаружение активного знания, известное также как «Анализ данных по предметной области»[35], предназначено для обнаружения и извлечения (имеющего практическое значение) активного знания и выводов из этого знания.

Другое перспективное приложение обнаружения знаний находится в области модернизации программного обеспечения, обнаружения слабых мест и соответствия стандартам, которое вовлекает понимание существующего программного обеспечения. Этот процесс связан с понятием обратной разработки. Обычно знание, получаемое из существующего программного обеспечения, представляется в виде моделей, к которым могут быть сделаны конкретные запросы, если необходимо. Модель сущность — связь является частым форматом, представляющим знание и получаемым из существующего программного обеспечения. Консорциум Object Management Group разработал спецификацию метамодели обнаружения знаний (англ. Knowledge Discovery Metamodel, KDM), которая определяет онтологию для программных ресурсов и их связей, предназначенную для обнаружения знаний в существующем коде. Обнаружение знаний из известных программных систем, известное также как интеллектуальный анализ программного обеспечения, тесно связано с интеллектуальным анализом данных, поскольку существующие программные находки имеют огромное значение для управления рисками и коммерческую ценность, которые служат ключевыми элементами для анализа и развития программных систем. Вместо анализа индивидуальных наборов данных интеллектуальный анализ программного обеспечения фокусируется на метаданных, таких как производственный поток (например, поток данных, поток управления, схема вызовов), архитектуре, схемах баз данных и деловых правилах/терминах/процессах.

Ввод данных

Форматы вывода

См. также

Примечания

  1. RDB2RDF Working Group, Website: http://www.w3.org/2001/sw/rdb2rdf/, charter: http://www.w3.org/2009/08/rdb2rdf-charter, R2RML: RDB в RDF Mapping Language: http://www.w3.org/TR/r2rml/
  2. LOD2 EU (недоступная ссылка) Deliverable 3.1.1 Knowledge Extraction from Structured Sources
  3. Calais Release 4, 2009.
  4. Berners-Lee, 1998.
  5. Hu, Qu, 2007, с. 225‐238.
  6. Ghawi, Cullot, 2007.
  7. Li, Du, Wang, 2005, с. 209—220.
  8. Tirmizi, Miranker, Sequeda, 2008.
  9. Cerbah, 2008.
  10. RDQL = RDF Query Language
  11. Wimalasuriya, Dou, 2010, с. 306 – 323.
  12. Не путать с MS IE = Интернет эксплорер компании Микрософт!
  13. Cunningham, 2005, с. 665–677.
  14. Erdmann, Maedche, Schnurr, Staab, 2000.
  15. Rao, McNamee, Dredze, 2011, с. 93—115.
  16. Rocket Software, Inc. (2012). «technology for extracting intelligence from text»
  17. Orchestr8 (2012): «AlchemyAPI Overview»
  18. The University of Sheffield (2011). «ANNIE: a Nearly-New Information Extraction System»
  19. Mendes, Jakob, Garcia-Sílva, Bizer, 2011, с. 1 – 8.
  20. Gangemi, Presutti, Recupero и др., 2016.
  21. Adrian, Maus, Dengel, 2009.
  22. SRA International, Inc. (2012). «NetOwl Extractor»
  23. Fortuna, Grobelnik, Mladenic, 2007, с. 309–318.
  24. Missikoff, Navigli, Velardi, 2002, с. 60 – 63.
  25. McDowell, Cafarella, 2006, с. 428 – 444.
  26. Yildiz, Miksch, 2007, с. 660 – 673.
  27. Dill, Eiron, Gibson и др., 2003, с. 178 – 186.
  28. Uren, Cimiano, Iria и др., 2006, с. 14 – 28.
  29. Cimiano, Völker, 2005.
  30. Maedche, Volz, 2001.
  31. Machine Linking. «We connect to the Linked Open Data cloud»
  32. Inxight ThingFinder and ThingFinder Professional (недоступная ссылка). Inxight Federal Systems (2008). Дата обращения: 18 июня 2012. Архивировано 29 июня 2012 года.
  33. Frawley, Piatetsky-Shapiro, Matheus, 1992, с. 57—70.
  34. Fayyad, Piatetsky-Shapiro, Smyth, 1996, с. 37—54.
  35. Cao, 2010, с. 755–769.

Литература

This article is issued from Wikipedia. The text is licensed under Creative Commons - Attribution - Sharealike. Additional terms may apply for the media files.