Содержание » Задание 3. Ответы на вопросы

Ответы на вопросы / Question Answering / QA

Ссылки на QA системы

Ссылки на системы диалога на естественном языке

WordNet

Различные ссылки

Задание №3.1

Построение таксономии типа ответа

Построить (с использованием WordNet) таксономию типов ответов для одного из нижеперечисленных классов вопросов о фактах, заданных на русском (или, по усмотрению студента, на украинском) языке:

Построение семантической формы вопроса

  1. Написать вопросительное предложение, соответствующее выбранному классу вопросов
    Например: сколько нужно оливкового масла для приготовления лазаньи?
  2. Построить модель зависимостей слов в предложении
  3. Показать как вопрос соответствует выбранной таксономии типа ответа
  4. Составить поисковый запрос, используя морфологические, лексические и семантические вариации

Задание №3.2

Поиск документов с ответом

Выполнить поиск документов с ответом на вопрос по полученным ключевым словам. Можно использовать Google либо расчитать TF-IDF вручную. Для дальнейшего анализа взять 2 наиболее релевантных документа.

Нахождение окна абзаца с ответом. Формулировка ответа на вопрос

  1. Выделить 3-4 окна абзаца в документах, содержащие ключевые слова
  2. Проранжировать выделенные окна абзацев с помощью перцептрона
  3. Записать первое по релевантности окно абзаца как ответ на вопрос. Сделать вывод о качестве ответа.

Уравнение перцептрона:

ord1,2=qSWSΔrelSWS + qDAWΔrelDAW + qNMWΔrelNMW + θ,

где ord1,2 - функция сравнения окон абзацев 1 и 2 - если значение функции больше нуля, то первое окно абзаца считается лучшим ответом на вопрос чем второе, если значение отрицательное - то второе окно лучше чем первое;
qSWS = 13.47, qDAW = -16.2, qNMW = -11.48 - веса входов перцептрона (коэффициенты пророрциональности);
θ = 72.88
ΔrelSWS = relSWS,1 - relSWS,2;
ΔrelDAW = relDAW,1 - relDAW,2;
ΔrelNMW = relNMW,1 - relNMW,2;
relSWS,i - количество слов вопроса, которые встречаются в той же последовательности в i-том окне абзаца;
relDAW,i - количество слов, которые разделяют наиболее удаленные ключевые слова в i-том окне абзаца;
relNMW,i - количество ключевых слов, которые не встречаются в i-том окне абзаца.