Поверхностно-синтаксический анализ
Поверхностно-синтаксический анализ (англ. shallow parsing, chunking, light parsing) — метод анализа предложений, в котором сначала идентифицируют составные части предложения (существительные, глаголы, прилагательные и т. п), а затем связывают их в элементы высшего порядка, которые имеют грамматическое значение (именные группы или фразы, глагольные группы и т. п.).
В то время как простые алгоритмы поверхностно-синтаксического анализа связывают составные части, используя элементарные шаблоны поиска (например, регулярные выражения), подходы на основе машинного обучения (классификаторы, тематическое моделирование и т. п.) могут учитывать контекстную информацию и формировать фрагменты, лучше отражая семантические связи между основными словами[1]. Таким образом, эти более совершенные методы решают проблему того, что сочетание элементарных составляющих может иметь разные значения на высшем уровне в зависимости от контекста предложения.
Схожий с лексическим анализом в компьютерных языках, этот метод широко применяется в обработке естественного языка.
Под названием «гипотеза поверхностной структуры» (англ. Shallow Structure Hypothesis), его используют, чтобы дать объяснение, почему люди, изучающие второй язык, часто не могут правильно разобрать сложные предложения[2].
См. также
- Синтаксический анализ
- Разметка семантических ролей
- Распознавание именованных сущностей
Примечания
- Jurafsky, Daniel. Speech and Language Processing / Daniel Jurafsky, James H. Martin. — Singapore : Pearson Education Inc., 2000. — P. 577—586.
- Clahsen, Felser, Harald, Claudia (2006). “Grammatical Processing in Language Learners”. Applied Psycholinguistics. 27: 3—42. DOI:10.1017/S0142716406060024.
Литература
- NP Chunking (State of the art) . Association for Computational Linguistics. Дата обращения: 30 января 2016. (англ.)
- Parsing By Chunks, Kluwer Academic Publishers, 1991, с. 257–278, <http://www.vinartus.net/spa/90e.pdf>. (англ.)
Ссылки
- Apache OpenNLP OpenNLP содержит реализацию поверхностного анализатора.
- GATE General Architecture for Text Engineering GATE содержит реализацию поверхностного анализатора.
- Поверхностный анализ NLTK
- Демонстрация поверхностного анализатора Illinois Shallow Parser