Международная конференция «Математические и информационные технологии, MIT-2016»

28 августа – 5 сентября 2016 г.

Врнячка Баня, Сербия - Будва, Черногория

Barakhnin V.B.   Kozhemyakina O.Y.   Zabaykin A.V.   Pastushkov I.S.  

Алгоритм автоматизированного определения жанрового типа и стилистической окраски текстов на русском языке

Докладчик: Barakhnin V.B.

В процессе автоматизированного анализа текстов на естественном языке возникает проблема определения их жанрового типа и стилистической окраски. Первым этапом решения этой проблемы является разработка соответствующих классификаторов. Для текстов на русском языке принято восходящее к трудам М.В.Ломоносова деление текстов (прежде всего, художественных) на относящиеся к высокому, нейтральному и низкому стилю. Исторически каждый из них характеризуется соотношением использования старославянских (церковнославянских) и собственно русских слов (при этом отдельно рассматривается группа слов, общих для старославянского и русского языков), долей архаизмов, а также употреблением определенных синтаксических конструкций. В свою очередь, в классической теории жанр произведения строго диктует выбор того или иного стиля. Классические жанры лирики (согласно наиболее полной классификации, данной в трудах Д.М. Магомедовой) включают  в себя систему  канонических жанров: ода, элегия, идиллия, эпистола (послание), баллада, дополненную неканоническими: фрагмент и рассказ в стихах.

Однако на практике нередки случаи, когда в произведении, жанр которого традиционно связан с определенным стилем, наблюдается использование широкого круга лексем иных стилей. Нами составлен оригинальный двумерный классификатор жанр/стиль, позволяющий повысить точность определения характеристик художественного текста (прежде всего, поэтического), используемых в дальнейшем процессе его автоматизированного анализа.

В свою очередь, процесс отнесения текста к тому или иному разделу построенного двумерного классификатора также может быть автоматизирован. С этой целью нами был разработан алгоритм описания семантических полей, соотносимых с различными жанровыми и стилистическими типами текстов.


К списку докладов

© 1996-2019, Институт вычислительных технологий СО РАН, Новосибирск