Ткачев Д.А.  

Сравнительный анализ результатов кластеризации на основе однословных и составных ключевых термов

Стандартная процедура координатного индексирования текстов с целью их последующей кластеризации использует средства анализа текста, опирающиеся на тезаурус предметной области. Но когда речь идет об обработке корпусов текстов заранее неизвестных тематик, то такой подход неприменим. Принцип, основанный на извлечении ключевых выражений без использования сведений о тематике, отражающей контекстное содержание, носит гораздо более универсальный характер. Однако при таком подходе возникает проблема выбора ключевых термов из текста документа.


Цель данной работы заключается в демонстрации реальных практических преимуществ кластеризации документов на основе составных ключевых словосочетаний по сравнению с весьма популярной кластеризацией на основе анализа только однословных ключевых слов.


В ходе работы были проведены две серии экспериментов: кластеризация множества документов правовой направленности (около 1300 документов) и набор научных документов математической направленности, содержащих классификационные признаки классификатора MSC2000 (около 300 документов). Целью первой серии экспериментов была проверка работы механизма кластеризации в целом: от этапа автоматического выделения ключевых термов, до итогового получения разбиения на кластеры множества документов. Во второй серии экспериментов априорное знание классификационных признаков позволило произвести вычисление мер качества разбиения документов на множества.


Сравнение результатов кластеризации документов, принадлежащих корпусам близких по тематике текстов, показало целесообразность применения общедоступных средств морфологического анализа текстов для извлечения составных ключевых термов, поскольку использование последних для подсчета меры сходства между документами дает заметно лучшие результаты по сравнению с получаемыми при использовании лишь одиночных ключевых слов. Рассматриваемый подход носит универсальный характер и может быть применен для обработки текстов произвольной тематики без дополнительной априорной информации.

 

Файл презентации: DICR_2010_Tkachev.pdf


К списку докладов