Вопросно-ответная система
Вопросно-ответная система (QA-система; от англ. QA — англ. Question-answering system) — информационная система, способная принимать вопросы и отвечать на них на естественном языке, другими словами, это система с естественно-языковым интерфейсом.
Классификация
Вопросно-ответные системы можно условно разделить на:
- Узкоспециализированные QA-системы работают в конкретных областях (например, медицина или обслуживание автомобилей).
- Общие QA-системы работают с информацией по всем областям знаний, таким образом появляется возможность вести поиск в смежных областях.
Архитектура
Первые QA-системы[1] были разработаны в 1960-х годах и являлись естественно-языковыми оболочками для экспертных систем, ориентированных на конкретные области. Современные системы предназначаются для поиска ответов на вопросы в предоставляемых документах с использованием технологий обработки естественных языков (NLP).
Современные QA-системы обычно включают особый модуль — классификатор вопросов, который определяет тип вопроса и, соответственно, ожидаемого ответа. После этого анализа система постепенно применяет к предоставленным документам все более сложные и тонкие методы NLP, отбрасывая ненужную информацию. Самый грубый метод — поиск в документах — предполагает использование системы поиска информации для отбора частей текста, потенциально содержащих ответ. Затем фильтр выделяет фразы, похожие на ожидаемый ответ (например, на вопрос «Кто …» фильтр вернет кусочки текста, содержащие имена людей). И, наконец, модуль выделения ответов найдет среди этих фраз правильный ответ.
Схема работы
Производительность вопросно-ответной системы зависит от эффективности используемых методов анализа текстов и от качества текстовой базы — если в ней нет ответов на вопросы, QA-система мало что сможет найти. Чем больше база — тем лучше, но только если она содержит нужную информацию. Большие хранилища (такие как Интернет) содержат много избыточной информации[2]. Это ведёт к следующим моментам:
- Так как информация представлена в разных формах, то выше полнота информации. QA-система с большей вероятностью найдет ответ.
- Правильная информация чаще повторяется, поэтому ошибки поиска ответов можно минимизировать.
- Точность поиска информации существенно зависит от достоверности информации в хранилищах, а также от эффективности методов анализа информации и формирования ответов.
Проблемы
В 2002 году группа исследователей написала план исследований в области вопросно-ответных систем[3]. Предлагалось рассмотреть следующие вопросы:
- Типы вопросов
- Разные вопросы требуют разных методов поиска ответов. Поэтому нужно составить или улучшить методические списки типов возможных вопросов.
- Обработка вопросов
- Одну и ту же информацию можно запросить разными способами. Требуется создать эффективные методы понимания и обработки семантики (смысла) предложения. Важно, чтобы программа распознавала эквивалентные по смыслу вопросы, независимо от используемых стиля, слов, синтаксических взаимосвязей и идиом. Хотелось бы, чтобы QA-система разделяла сложные вопросы на несколько простых, и правильно трактовала контекстно-зависимые фразы, возможно, уточняя их у пользователя в процессе диалога.
- Контекстные вопросы
- Вопросы задаются в определенном контексте. Контекст может уточнить запрос, устранить двусмысленность или следить за ходом мыслей пользователя по серии вопросов.
- Источники знаний для QA-системы
- Перед тем как отвечать на вопрос, неплохо было бы осведомиться о доступных базах текстов. Какие бы способы обработки текстов ни применялись, мы не найдем правильного ответа, если его нет в базах.
- Выделение ответов
- Правильное выполнение этой процедуры зависит от сложности вопроса, его типа, контекста, качества доступных текстов, метода поиска и др. — огромного числа факторов. Поэтому подходить к изучению методов обработки текста нужно со всей осторожностью, и эта проблема заслуживает особого внимания.
- Формулировка ответа
- Ответ должен быть как можно более естественным. В некоторых случаях достаточно и простого выделения его из текста. К примеру, если требуется наименование (имя человека, название прибора, болезни), величина (денежный курс, длина, размер) или дата («Когда родился Иван Грозный?») — прямого ответа достаточно. Но иногда приходится иметь дело со сложными запросами, и здесь нужны особые алгоритмы слияния ответов из разных документов.
- Ответы на вопросы в реальном времени
- Нужно сделать систему, которая бы находила ответы в хранилищах за несколько секунд, независимо от сложности и двусмысленности вопроса, размера и обширности документной базы.
- Многоязыковые запросы
- Разработка систем для работы и поиска на других языках (в том числе автоматический перевод).
- Интерактивность
- Зачастую информация, предлагаемая QA-системой в качестве ответа, неполна. Возможно, система неправильно определила тип вопроса или неправильно «поняла» его. В этом случае пользователь может захотеть не только переформулировать свой запрос, но и «объясниться» с программой с помощью диалога.
- Механизм рассуждений (вывода)
- Некоторые пользователи хотели бы получить ответ, выходящий за рамки доступных текстов. Для этого в QA-систему нужно добавить знания, общие для большинства областей (см. Общие онтологии в информатике), а также средства автоматического вывода новых знаний.
- Профили пользователей QA-систем
- Сведения о пользователе, такие как область интересов, манера его речи и рассуждения, подразумеваемые по умолчанию факты, могли бы существенно увеличить производительность системы.
Направления развития вопросно-ответных систем
С момента появления первых прототипов вопросно-ответных систем их область применения значительно расширилась[4]. Например, их используют в ответах на вопросы, связанные со временем, геолокационные вопросы, вопросы определения понятий, библиографические, многоязыковые вопросы, вопросы, связанные с мультимедиа (визуальной, аудио- и видео- информацией). Изучаются смежные области, такие как построение интерактивных QA-систем (уточняющие вопросы, требующиеся для разъяснения первоначального), повторное использование ответов и представление знаний, использование логического вывода из имеющейся информации для получения ответов на вопросы и т. п., прогнозирование, какие вопросы могут быть заданы, анализ настроения.
Оценка качества вопросно-ответных систем
Вопросно-ответные системы на постоянной основе обсуждаются в рамках проектов: TREC[5], CLEF[6], NTCIR[7], РОМИП[8].
Примечания
- Hirschman, L. & Gaizauskas, R. (2001) Natural Language Question Answering. The View from Here. Natural Language Engineering (2001), 7:4:275-300 Cambridge University Press.
- Lin, J. (2002). The Web as a Resource for Question Answering: Perspectives and Challenges. In Proceedings of the Third International Conference on Language Resources and Evaluation (LREC 2002).
- Burger, J., Cardie, C., Chaudhri, V., Gaizauskas, R., Harabagiu, S., Israel, D., Jacquemin, C., Lin, C-Y., Maiorano, S., Miller, G., Moldovan, D., Ogden, B., Prager, J., Riloff, E., Singhal, A., Shrihari, R., Strzalkowski, T., Voorhees, E., Weishedel, R. Issues, Tasks and Program Structures to Roadmap Research in Question Answering (QA).
- Maybury, M. T. editor. 2004. New Directions in Question Answering. AAAI/MIT Press.
- TREC competition (англ.)
- CLEF evaluation campaign (англ.)
- NTCIR project (англ.)
- РОМИП
Литература
- Dragomir R. Radev, John Prager, and Valerie Samn. Ranking suspected answers to natural language questions using predictive annotation. In Proceedings of the 6th Conference on Applied Natural Language Processing, Seattle, WA, May 2000.
- Hovy, E., Gerber, L., Hermjakob, U., Junk, M. & Lin, C. (2000) Question Answering in Webclopedia. In: 9th Text Retrieval Conference.
- Huettner, A. (2000) Question Answering. In: 5th Search Engine Meeting.
- John Prager, Eric Brown, Anni Coden, and Dragomir Radev. Question-answering by predictive annotation. In Proceedings, 23rd Annual International ACM SIGIR Conference on Research and Development in Information Retrieval, Athens, Greece, July 2000.
- Katz, B., Felshin, S. & Lin, J. (2002) The START Multimedia Information System: Current Technology and Future Directions. In: International Workshop on Multimedia Information Systems.
- Wong, W. (2005) Practical Approach to Knowledge-based Question Answering with Natural Language Understanding and Advanced Reasoning. In: Master; National Technical University College of Malaysia.
Ссылки
- QA-системы и демоверсии
- Одна из первых размещённых в интернет вопросно-ответная система START на сайте MIT.
- Вопросно-ответная система AskNet Search на сайте asknet.ru (первоначально Stocona Search).
- Вопросно-ответная система BrainBoost на сайте Answers.com (первоначально BrainBoost.com).
- QA-система, встроенная в поисковик Ask.com.
- Вопросно-ответная система OpenEphyra с открытым исходным кодом.
- Многоязыковая QA-система askEd!m (English, Japanese (недоступная ссылка с 13-05-2013 [3208 дней] — история), Chinese (недоступная ссылка с 13-05-2013 [3208 дней] — история), Русский (недоступная ссылка с 13-05-2013 [3208 дней] — история) and Swedish (недоступная ссылка с 13-05-2013 [3208 дней] — история)).
- Проект Evi от True Knowledge.
- Специализированные QA-системы