Студопедия

Главная страница Случайная страница

КАТЕГОРИИ:

АвтомобилиАстрономияБиологияГеографияДом и садДругие языкиДругоеИнформатикаИсторияКультураЛитератураЛогикаМатематикаМедицинаМеталлургияМеханикаОбразованиеОхрана трудаПедагогикаПолитикаПравоПсихологияРелигияРиторикаСоциологияСпортСтроительствоТехнологияТуризмФизикаФилософияФинансыХимияЧерчениеЭкологияЭкономикаЭлектроника






Результаты экспериментов




Данный алгоритм был опробован на абстрактах научных статей, опубликованных научным обществом SPIE (http://www.spie.org). В экспериментах было задействовано более 8000 абстрактов, содержащихся в 250 томах, которые, в свою очередь, принадлежали одному из 10 тематических разделов.

Категоризация текстов разделяет все множество документов по заданному числу категорий — в примере, приведенном ниже, использовалось 40 категорий. Кроме того, алгоритм позволяет определять какие слова являются наиболее значимыми для каждой из выделенных категории. В Табл.1 представлены главные слова из 3-х таких категорий. Легко убедиться, что по этим словам четко определяется «тема» категории. Так в первом случае категория объединяет абстракты по голографии, во втором — по вейвлетам и нейросетям, а в третьем — по медицине.



Табл. 1 Наиболее значимые слова в трех (из 40) категориях с указанием степени принадлежности к данной категории.

Сравнивать по степени близости друг к другу можно как и документы так и слова. Ниже приведены примеры близости в пространстве словоформ: выписаны слова, ближайшие к THE, NEURAL, CANCER.


THE: OF IN FROM THAT ARE ON TO WHICH FOR AND AS TWO IS BOTH A BY IT WITH BETWEEN ALSO AN RESULTS HAS WITHIN INTO BE TIME USED OR


NEURAL: LEARNING CLASSIFIERS UNSUPERVISED TRAINED BACK-PROPAGATION SUPERVISED NEURONS WEIGHTS TRAINING HIDDEN HOPFIELD BACKPROPAGATION NETWORK IMPULSIVE NETS FEEDFORWARD PREDICTOR NETWORKS TEXTURAL SPEAKER TELEPHONE PERCEPTRON LEARN AMBIGUITIES DIGITS MULTIDIMENSIONAL BP MLP CLASSIFIER


CANCER: ORGANS LESIONS THERAPY TUMOR VIVO CAM PHOTOSENSITIZERS TUMORS RAT MOUSE PATIENTS AUTOFLUORESCENCE ADMINISTRATION NECROSIS SENSITIZERS VASCULAR RESECTION ADMINISTERED VITRO CLEARANCE INCUBATION PP ACUTE DRUG BALLOON PROSTATE SKIN DISORDERS EPITHELIAL


Как видно из этих примеров, к артиклю THE ближайшими оказываются служебные слова: артикли, союзы и т.д. К словам же NEURAL и CANCER ближайшими являются слова из той же предметной области. Причем, как это видно из Рис. 1, незначимые слова равномерно распределены по категориям, тогда как семантически нагруженные имеют четко выраженные пики в категориях, где они являются ключевыми.



Рис. 1 Распределение некоторых слов по категориям

 


mylektsii.ru - Мои Лекции - 2015-2019 год. (0.006 сек.)Все материалы представленные на сайте исключительно с целью ознакомления читателями и не преследуют коммерческих целей или нарушение авторских прав Пожаловаться на материал