Студопедия

Главная страница Случайная страница

Разделы сайта

АвтомобилиАстрономияБиологияГеографияДом и садДругие языкиДругоеИнформатикаИсторияКультураЛитератураЛогикаМатематикаМедицинаМеталлургияМеханикаОбразованиеОхрана трудаПедагогикаПолитикаПравоПсихологияРелигияРиторикаСоциологияСпортСтроительствоТехнологияТуризмФизикаФилософияФинансыХимияЧерчениеЭкологияЭкономикаЭлектроника






Здесь дадим краткую характеристику основных модулей системы STATISTICA, их назначение, состав и т.д.






 

Модуль Основные статистики и таблицы

Если требуется провести предварительную обработку данных, разведочный анализ, определить зависимость между ними, разбить их различными способами на группы, просмотреть эти группы визуально и определит взаимосвязи между данными, нужно запустить модуль Basic Statistics / Tables – Основные статистики / Таблицы.

Обычно с этого модуля начинается работа в системе.

Этот модуль включает в себя следующие группы статистических процедур.

 

Описательные статистики, группировки, разведочный анализ

STATISTICA предлагает широкий набор методов разведочного статистического анализа. Система может вычислять практически все описательные статистики, включая медиану, моду, квартили, определенные пользователем процентили, средние и стандартные отклонения, доверительные интервалы для среднего, коэффициенты асимметрии, эксцесса (с их стандартными ошибками), гармоническое и геометрическое среднее, а также многие другие описательные статистики. Возможен выбор критериев для тестирования нормальности распределения (критерий Колмогорова-Смирнова, Лилиефорса, Шапиро-Уилкса).

Помогает проведению разведочного анализа широкий выбор графиков. Имеется возможность интерактивного удаления выбросов на трафике, выделения и маркировки необходимых подмножеств на графике, сглаживания данных, функциональные подгонки и другие возможности.

Практически все описательные статистики могут быть вычислены для данных, разделенных на группы с помощью одной или нескольких группирующих переменных.

 

Корреляции

Этот раздел включает большое количество средств, позволяющих исследовать зависимости между переменными. Возможно вычисление практически всех общих мер зависимости, включая коэффициент корреляции, коэффициент ранговой корреляции Спирмена, коэффициент ранговой корреляции Кендалла и многие другие.

Корреляционные матрицы могут быть вычислены и для данных с пропусками, используя специальные методы обработки пропущенных значений.

Специальные графические возможности позволяют выбрать отдельные точки на диаграмме рассеяния и оценить их вклад в регрессионную кривую или любую другую кривую, подогнанную к данным.

Возможно вычисление очень больших корреляционных матриц до 3005300 и их вывод в одном диалоговом окне. Если матрицы превышают эти размеры, нужно использовать Менеджер мегафайлов. При этом корреляционные матрицы практически неограниченных размеров до 32000532000 вычисляются с помощью специальных процедур.

Вычисленные корреляционные матрицы выводятся в виде электронных таблиц Scrollsheet. Они могут быть сохранены в формате файлов данных и использоваться затем в других модулях анализа.

Для визуализации корреляционных матриц можно использовать различные графические методы – контурные графики, графики поверхностей и др. Такие графики позволяют производить поиск глобальных структур.

t-критерий (и другие критерии для групповых различий

Позволяет вычислять оценки t- критерия, статистики Хоттелинга и др. для выявления зависимости или независимости выборок.

 

Таблицы частот и таблицы кросстабуляций

В этом модуле содержится обширный выбор процедур, обеспечивающих табулирование непрерывных, категориальных, дихотомических переменных. Вычисляются как кумулятивные, так и относительные частоты. Доступны тесты для кросстабуляции частот. Вычисляются статистики Пирсона, максимального правдоподобия, Хи-квадрат, Фишера и многие другие.

 

Модуль Множественная регрессия

Модулем Multiple Regression – Множественная регрессия пользуются в том случае, когда нужно построить зависимости между многомерными переменными, подобрать простую линейную модель и оценить ее адекватность.

Модуль Множественная регрессия включает полный набор средств множественной линейной и фиксированной нелинейной (в частности, полиномиальной, экспоненциальной, логарифмической и др.) регрессии, включая пошаговые, иерархические и другие методы.

Система STATISTICA позволяет вычислить все необходимые статистики для диагностики полученных моделей. Анализ остатков и выбросов (т.е. тех данных, которые не укладываются в доверительные интервалы полученной модели) можно провести с помощью широкого набора графиков, включая разнообразные точечные графики и многие другие.

Реализована система прогноза, позволяющая выполнить анализ «что-если».

STATISTICA также содержит Модуль нелинейного оценивания (рассмотрим дальше), с помощью которого можно оценить практически любые определенные пользователем нелинейные модели.

 

Модуль Дисперсионного анализа. Общий ANOVA / MANOVA модуль

Модуль ANOVA / MANOVA (ANOVA – analysis of variance) используется в том случае, если известны факторы, которые воздействуют на измеренные данные и нужно оценить степень этого воздействия.

ANOVA / MANOVA модуль представляет собой набор процедур одномерного и многомерного дисперсионного и ковариационного анализа.

В модуле доступно решение задач практически неограниченной сложности. Однако даже пользователи, имеющие малый опыт работы с ANOVA, могут анализировать очень сложные проекты.

В модуле представлен полный набор статистических процедур для проверки основных предположений дисперсионного анализа и всесторонняя графическая поддержка.

 

Модуль Дискриминантного анализа

Модуль Discriminant Analysis – Дискриминантный анализ используют в том случае, когда стоит следующая задача: как по результатам измерений отнести объект к одному из нескольких классов.

Методы дискриминантного анализа позволяют построить на основе ряда предположений классификационное правило отнесения объекта к одному из нескольких классов, минимизируя некоторый разумный критерий, например, вероятность ложной классификации или заданную пользователем функцию потерь.

 

Пример.

По результатам радиолокационных наблюдений НИЛ РТ были определены орбиты нескольких сотен тысяч метеороидов. Методами кластерного анализа (соответствующий модуль рассмотрим позднее) было выявлено более 5000 метеорных потоков. Возникла задача: что является их родительскими телами – кометы, астероиды пояса или астероиды, орбиты которых пересекаются с орбитой Земли? Эта задача – разбить всю выборку орбит потоков на 3 класса и оценить вклад каждого источника в комплекс метеороидов ‑ и была решена методом дискриминантного анализа.

 

Модуль Непараметрической статистики и подгонки распределений

Модуль Nonparametrics / Distributions – Непараметрические статистики / Распределения применяют в том случае, если нужно проверить различные гипотезы о характере распределения данных в выборке.

Модуль содержит обширный набор непараметрических (т.е. не основанных на предположении о нормальности) критериев согласия, в частности, критерий Колмогорова-Смирнова, ранговые критерии Манна-Уитни, Вальда-Вольфовица, Вилкоксона и многие другие.

Статистические процедуры модуля позволяют легко сравнивать распределения наблюдаемых величин с большим количеством разных теоретических распределений, К данным можно подогнать нормальное, равномерное, линейное, экспоненциальное, Гамма, логнормальное, Хи-квадрат, Вейбулла, биномиальное, пуассоновское, геометрическое распределения, распределение Бернулли. Точность подгонки оценивается с помощью соответствующих критериев.

 

Модуль Факторный анализ

Модуль Factor Analysis – Факторный анализ используют в том случае, когда необходимо сжать данные или выделить основные общие факторы, влияющие на наблюдаемые характеристики сложного объекта и объясняющие связи между ними.

Модуль, в частности, включает метод главных компонент, метод минимальных остатков, метод максимального правдоподобия и др. с расширенной диагностикой и очень широким набором аналитических и разведочных графиков.

 

Модуль Многомерное шкалирование

Модуль Multidimensional Scaling – Многомерное шкалирование используют в том случае, если необходимо представить данные о близости объектов какой-либо пространственной моделью, в которой объекты интерпретируются, например, как города на карте, а различие между ними есть просто расстояния, и всесторонне диагностировать модель.

На подробностях останавливаться не будем, поскольку Вы не знакомы с этим методом. Однако инструментарий модуля позволяет и в этом случае проводить сложный статистический анализ ситуаций.

 

Модуль Анализ надежности

Как следует из названия, модуль позволяет получить оценки надежности сложных систем на основе результатов исследований и диагностики отдельных подсистем, устройств, узлов.

Как и во всех других модулях, STATISTICA позволяет проанализировать очень большие объемы данных, например, таблицы, содержащие до 300 наименований.

Интеллектуальную поддержку процессу анализа обеспечивает большое число специализированных графиков и широкий выбор процедур типа «что-если». Например, как изменятся оценки надежности системы, если какой-либо из узлов убрать, заменить, переставить в другое место и т. д. При этом новая надежность вычисляется немедленно.

 

Модуль Кластерный анализ

К модулю Cluster Analysis – Кластерный анализ нужно обращаться, если необходимо провести сложную иерархическую классификацию данных или выделить в них кластеры (сгущения, группировки и т. п. данных).

Модуль содержит полный инструментарий для кластеризации (метод k- средних, иерархическая классификация и др.). Можно использовать различные метрики ‑ евклидова, чебышевская и др. Можно обрабатывать огромные выборки (до 90000 расстояний – иерархическая классификация и до 2100 объектов размерностью 600 ‑ метод k- средних).

 

Модуль Лог-линейный анализ

Модуль Log-Linear Analysis – Лог-линейный анализ применяется при анализе сложных многоуровневых таблиц (социология, массовые опросы и т. п.).

 

Модуль Нелинейное оценивание

Модуль Nonlinear Estimation применяется в случае, когда нужно определить нелинейные зависимости в данных, подогнать к ним функциональные кривые.

Модуль позволяет осуществить подгонку к наблюдаемым данным кривой практически любого типа, причем никакие ограничения на размеры файла обрабатываемых данных не накладываются.

Оценки могут быть получены с помощью методов наименьших квадратов, максимального правдоподобия или заданной пользователем функции потерь.

Пользователь может выбирать одну из четырех вычислительных процедур: квазиньютоновский метод, симплекс метод, метод Хука-Дживса, метод Розенброка.

 

Модуль Каноническая корреляция

Модуль включает широкий набор процедур для выполнения канонического корреляционного анализа; исследования связи между двумя множествами переменных.

Модуль может обрабатывать векторные данные или корреляционные матрицы, рассчитанные, например, в модуле Basic Statistics, вычислять все стандартные канонические корреляционные статистики

 

Модуль Анализ длительностей жизни

Модуль Survival Analysis – Анализ длительностей жизни используют, когда необходимо проанализировать данные таблицы продолжительности жизней – в медицине, страховании – или продолжительности функционирования объекта – в технике.

 

Модуль Анализ временных рядов и прогнозирование

Предположим, что часто встречается в научных исследованиях, необходимо оценить, например спектр мощности некоторого процесса или спрогнозировать развитие процесса на некоторый интервал времени вперед. В этом и других подобных случаях необходимо воспользоваться модулем Time Series / Forecasting – Анализ временных рядов и прогнозирование.

Модуль предлагает широкий набор методов анализа. Имеются возможности преобразования исходного временного ряда, большой набор графиков. Для восстановления пропущенных наблюдений могут быть использованы интерполяционные методы.

Модуль состоит из нескольких общих процедур, предназначенных для динамического представления временных рядов и их сглаживающих / моделирующих преобразований. Пользователь может одновременно смоделировать несколько рядов и выполнить интерактивный «что-если» анализ, наблюдая ряд на графике.

Методы преобразования рядов включают: исключение среднего, тренда, взвешенное скользящее среднее, медианное сглаживание, фильтрацию, взятие разностей с любым сдвигом и многое другое.

STATISTICA предлагает много методов построения моделей и прогнозирования, включая различные методы экспоненциального сглаживания, сезонной декомпозиции (свертывания эпох) и т.д.

ВАЖНО:

Модуль включает процедуры построения моделей ARIMA – авторегрессии и проинтегрированного скользящего среднего. Эти модели в последние годы нашли широкое применение в анализе сигналов, случайных процессов, спектральном анализе с высоким разрешением по методу Берга и др.

В модуле имеется набор процедур спектрального анализа Фурье с визуализацией результатов, расчета спектральной плотности, амплитудных и фазовых спектров и т.д. При построении оценок спектральной плотности предлагается широкий выбор оконных функций.

Диалог Анализ распределенных лагов позволяет построить регрессию одного ряда на другой.

 

Модуль Моделирование структурными уравнениями (SEPATH)

Модулем SEPATH можно воспользоваться для построения и тестирования различных моделей, объясняющих структурные связи между наблюдаемыми переменными.

Моделирование структурными уравнениями – мощная техника многомерного статистического анализа, развитая в последние годы и имеющая целью объединить статистические методы с методами теории систем.

Модуль SEPATH является, пожалуй, самым сложным модулем системы и требует больших затрат времени для освоения.

 






© 2023 :: MyLektsii.ru :: Мои Лекции
Все материалы представленные на сайте исключительно с целью ознакомления читателями и не преследуют коммерческих целей или нарушение авторских прав.
Копирование текстов разрешено только с указанием индексируемой ссылки на источник.