Igor Boguslavsky
bogus@cl.iitp.ru
Institute for Information Transmission Problems, RAS, Moscow
Leonid Iomdin
iomdin@cl.iitp.ru
Institute for Information Transmission Problems, RAS, Moscow
Victor Sizov
sizov@cl.iitp.ru
Institute for Information Transmission Problems, RAS, Moscow
Ivan Chardin
ic@cl.iitp.ru
Institute for Information Transmission Problems, RAS, Moscow
PARSING WITH A TREEBANK
ABSTRACT
A hybrid parsing algorithm has been developed and integrated into the ETAP-3 multifunctional NLP environment, to be used primarily in machine translation. When resolving language ambiguity, the heuristic rules that constitute the system's core dynamically interact with the customized statistical module. The latter assigns weights to dependency links that constitute hypothetical parse trees employing data derived from the syntactically tagged corpus. The statistical module was trained on approximately 104000 words in 6900 sentences of syntactically annotated Russian texts. The analysis of experiments in machine translation from Russian into English with the help of the hybrid statistical module has shown local improvements in the performance of the NLP environment, which stimulates qualitative development of the parser and opens new vistas for the developers. At the same time, a quantitative comparison between the hybrid parser and the rule-based one has revealed no significant difference in their performance.



Игорь Богуславский
bogus@cl.iitp.ru
Институт проблем передачи информации РАН
Леонид Иомдин
iomdin@cl.iitp.ru
Институт проблем передачи информации РАН
Виктор Сизов
sizov@cl.iitp.ru
Институт проблем передачи информации РАН
Иван Чардин
ic@cl.iitp.ru
Институт проблем передачи информации РАН
О ВЫЧИСЛЕНИИ СЛОВАМИ НА ОСНОВЕ ПЕРЦЕПТИВНЫХ ФУНКЦИЙ
АННОТАЦИЯ
Предлагается комбинированный алгоритм синтаксического анализа, используемый в лингвистическом процессоре ЭТАП-3 и, в первую очередь, в системе машинного перевода. При разрешении языковой неоднозначности составляющие ядро процессора эвристические правила динамически взаимодействуют со специально разработанным статистическим модулем, который на основе данных корпуса текстов с синтаксической разметкой приписывает веса гипотетическим синтаксическим связям. Для сбора корпусных данных были использованы русские тексты с синтаксической разметкой общим объемом в 6900 предложений (около 104000 слов). В ходе экспериментов по машинному переводу текстов с русского на английский язык с помощью данного комбинированного алгоритма выявлены локальные улучшения в работе лингвистического процессора, стимулирующие качественное развитие синтаксического анализатора и открывающие перед его разработчиками новые перспективы. В то же время количественное сравнение результатов работы комбинированного и эвристического алгоритмов синтаксического анализа не показало существенных различий в результатах их работы.