Методы модуля STATISTICA Обобщенные аддитивные модели, реализованы на основе методик, разработанных и ставших известными благодаря книге Hastie and Tibshirani (1990). Более подробное описание этих и других родственных методик, алгоритмов подгонки этих моделей и обсуждения последних исследований в этой области статистического моделирования вы также можете найти в книге Schimek (2000).
Аддитивные модели. Методы, описанные в этом разделе и доступные в модуле STATISTICA Обобщенные аддитивные модели, представляют собой обобщение методов множественной регрессии (которая сама является частным случаем общих линейных моделей, см. также книгу Кэнделл и Стьюарт, т.3). А именно, в линейной регрессии, чтобы предсказать значения зависимой переменной Y, для множества предикторов или независимых переменных X рассчитывается подгонка наименьшими квадратами. Хорошо известное уравнение линейной регрессии с m предикторами для прогнозирования значения зависимой переменной Y выглядит следующим образом:
Y = b0 + b1*X1 + ... + bm*Xm
где за Y обозначено предсказанное значение зависимой переменной, переменные X1,..., Xm представляют m значений предикторов, а числа b0,..., bm называются коэффициентами регрессии и оцениваются с помощью методов множественной регрессии. Обобщение множественной регрессии предполагает аддитивную природу модели, но заменяет простые слагаемые линейного уравнения bi*Xi на fi(Xi), где fi - непараметрическая функция предиктора Xi. Другими словами, вместо обычных коэффициентов для каждой переменной, в аддитивных моделях для каждого предиктора оценивается функция неопределенного вида, что позволяет лучше предсказать значения зависимых переменных.
Обобщенные линейные модели. Обобщенная линейная модель отличается от общей линейной модели(частным случаем которой является множественная регрессия) в двух основных моментах: Во-первых, распределение зависимой переменной или переменной отклика может быть (в принципе) негауссовским и не обязательно непрерывным, например биномиальным; Во-вторых, предсказанные значения зависимой переменной получаются как линейная комбинация предикторов, которые "связаны" с зависимой переменной через функцию связи. Общая линейная модель для единственной зависимой переменой представляет собой частный случай обобщенной линейной модели: В общей линейной модели значения зависимой переменой предполагаются нормально распределенными, а функция связи тождественной функцией (т.е. линейная комбинация значений предикторов не преобразуется).
В общей линейной модели переменная отклика Y линейно связана со значениями переменных X, в то время как связь в обобщенной линейной модели предполагает вид
Y = g(b0 + b1*X1 + ... + bm*Xm)
где g(…) - функция. Функция обратная к g(…), назовем ее gi(…), называется функцией связи; так что:
gi(muY) = b0 + b1*X1 + ... + bm*Xm
где mu-Y обозначает ожидаемое значение Y.
Заметим, что STATISTICA содержит модуль расчета параметров обобщенных линейных моделей для множества различных распределений и функций связи.
Распределения и функции связи. Модуль Обобщенные аддитивные модели предлагает широкий выбор распределений зависимой переменной и функций связи для определения влияния предикторов на зависимую переменную (см. McCullagh and Nelder, 1989; Hastie and Tibshirani, 1990; см также GLZ Вводный обзор - Методы вычислений, где обсуждаются функции связи и распределения):
Нормальное, Гамма и Пуассоновское распределения:
Логарифмическая связь: f(z) = log(z)
Обратная связь: f(z) = 1/z
Тождественная связь: f(z) = z
Биномиальное распределение:
Логит связь: f(z)=log(z/(1-z))
Обобщенные аддитивные модели. Совместив основные принципы аддитивных моделей и обобщенных линейных моделей, мы получим базовую идею обобщенных аддитивных моделей:
gi(muY) = Si(fi(Xi))
Другими словами, целью обобщенных аддитивных моделей является максимизация качества предсказания по различным распределениям зависимой переменной Y, путем вычисления непараметрических функций неопределенного вида, зависящих от предикторов, которые "связаны" с зависимой переменной Y через функцию связи.
Оценка непараметрической функции предикторов с помощью сглаживания диаграммы рассеивания. Уникальным аспектом обобщенных аддитивных моделей являются непараметрические функции fi, зависящие от предикторов Xi. А именно, вместо различного рода простых или комплексных параметрических функций, Hastie и Tibshirani (1990) обсуждают различные общие методы сглаживания диаграммы рассеивания, которые могут быть применимы к значениям переменной X, с целью максимизировать качество предсказания (преобразованных) значений переменной Y. Одним из таких методов является метод сглаживания кубическими сплайнами, который генерирует гладкую связь между двумя переменными на диаграмме рассеяния. Подробности касающиеся вычислительной части этого метода сглаживания вы можете найти в книге Hastie and Tibshirani (1990; see also Schimek, 2000).
Подведем итог, вместо вычисления отдельных параметров (таких как регрессионные веса в множественной регрессии), в обобщенных аддитивных моделях мы ищем (непараметрическую) функцию неопределенного вида, которая связывает предсказанные (преобразованные) значения переменной Y со значениями предиктора.
Характерный пример: Обобщенная аддитивная логистическая модель. Обсудим характерный пример обобщенных аддитивных моделей: обобщение логистической (логит) модели для двоичных зависимых значений переменных. Как уже было детально описано в контексте модулей STATISTICA Нелинейное оценивание и Обобщенные линейные и нелинейные модели, логистическая регрессионная модель для двоичных откликов может быть записана следующим образом:
y=exp(b0+b1*x1+...+bm*xm)/{1+exp(b0+b1*x1+...+bm*xm)}
Важно отметить, что распределение зависимой переменной предполагается биномиальным, т.е. переменная отклика может принимать только значения 0 и 1 (такие модели типичны например в маркетинге, при анализе анкет, где 1 отвечает ответу Да, а 0 ответу Нет). Мы можем применить логистическую функцию связи к вероятности p (принимающей значения между 0 и 1) Так что:
p' = log {p/(1-p)}
Применяя логистическую функцию связи, мы можем переписать модель следующим образом:
p' = b0 + b1*X1 + ... + bm*Xm
Наконец, мы заменяем простые однопараметрические слагаемые и получаем обобщенную аддитивную модель:
p' = b0 + f1(X1) + ... + fm(Xm)
Пример использования этой модели вы можете найти в книге Hastie and Tibshirani (1990).
Подгонка обобщенных аддитивных моделей. Подробное описание того, как подгоняются к данным обобщенные аддитивные модели вы можете найти в Hastie and Tibshirani (1990), а так же в Schimek (2000, p. 300). Как правило, алгоритм состоит из двух отдельных итерационных процессов, которые обычно называются внешним и внутренним циклами. Назначение внешнего цикла состоит в максимизации общего согласия модели, путем минимизации общего правдоподобия данных модели (сходный с процедурами оценивания максимального правдоподобия, которые описаны, например, в контексте Нелинейного оценивания). Внутренний цикл предназначен для улучшения метода сглаживания диаграммы рассеяния, в частности в модуле обобщенных аддитивных моделей STATISTICA используется метод сглаживания кубическими сплайнами. Сглаживание производится в соответствии с частными остатками, т.е. для каждого предиктора k STATISTICA ищет подгонку взвешенными кубическими сплайнами, которая наилучшим образом представляет связь между переменной k и (частными) остатками вычисленными с помощью удаления влияния всех других j предикторов (j ≠ k). Итерационный процесс оценивания продолжается до тех пор, пока правдоподобие данных модели не сможет быть улучшено.
Интерпретация результатов. Многие из стандартных результатов статистик, вычисленных в модуле Обобщенные аддитивные модели схожи с теми, что выдаются процедурами подгонки линейных и нелинейных моделей. Например, STATISTICA, вычислит предсказанные значения и остатки для окончательной модели и выведет на экран разнообразные графики остатков, чтобы помочь пользователю определить возможные выбросы, и т.д. За подробностями обращайтесь к описанию статистик остатков вычисляемых в модуле Обобщенные линейные и нелинейные модели.
Наибольший интерес представляет, разумеется, вид зависимости между предикторами и зависимой переменной. С помощью STATISTICA вы можете построить Диаграммы рассеяния, на которых изображены значения сглаженные значения предикторной переменной в зависимости от частных остатков, т.е. остатков, после удаления влияния всех остальных предикторов.
Этот график позволяет получить представление о природе связи между предиктором и остаточными (подходящими) значениями зависимой переменной(см. Hastie & Tibshirani, 1990; в частности формулу 6.3), и, следовательно, природу воздействия предиктора на модель в целом.
Степени свободы. Отметим еще раз, что в подходе обобщенных аддитивных моделей обычные произведения значений (оцененного) параметра на значения предиктора заменяются, для каждого предиктора, сглаживанием кубическими сплайнами. При оценке значения одиночного параметра мы теряем одну степень свободы, т.е. мы добавляем одну степень свободы модели в целом. Не совсем ясно, сколько степеней свободы теряется вследствие построения сглаживания кубическими сплайнами для каждой переменной. Интуитивно, сглаживание может быть как очень гладким, не очень хорошо моделируя исходную структуру данных, так и обладать большей кривизной, при этом лучше моделируя структуру данных. Рассмотрим исключительный случай, обычная прямая является очень гладким отображением, и для ее задания достаточно вычислить всего один угловой коэффициент, таким образом, мы используем всего одну степень свободы, чтобы подобрать сглаживание; С другой стороны, мы могли подобрать очень негладкую кривую, которая проходила бы через каждую точку, при этом мы использовали бы столько степеней свободы, сколько точек имелось на графике. Пользовательский интерфейс модуля Обобщенные аддитивные модели дает вам возможность задать количество степеней свободы для сглаживания кубическими сплайнами; Чем меньше степеней свободы вы зададите, тем более гладко кубический сплайн будет подогнан к частным остаткам, и, как правило, тем хуже будет подгонка всей модели в целом. Вопрос о выборе количества степеней свободы в сглаживании более подробно обсуждается в книге Hastie and Tibshirani (1990).
Предупреждение. Обобщенные аддитивные модели являются очень гибким инструментом и могут обеспечить идеальную подгонку даже при наличии нелинейных связей и значительных шумов в предикторных переменных. Однако, заметьте, что из-за этой гибкости, пользователь должен быть очень осторожен, чтобы избежать чрезмерно близкой подгонки, т.е. применения излишне сложной модели (с большим количеством степеней свободы), которая очень хорошо подогнана к исходным данным, но при этом дает плохой результат на последующих проверочных иcпытаниях. Также, следует сравнивать качество подгонки, полученной в модуле STATISTICA Обобщенные аддитивные модели с подгонкой, полученной в модуле STATISTICA Обобщенные линейные и нелинейные модели. Другими словами, необходимо выяснить, является ли усложнение вносимое обобщенными аддитивными моделями, необходимым для получения удовлетворительной подгонки. В случае, если получены подгонки, сравнимые по качеству, то подгонка более простыми обобщенными линейными моделями предпочтительнее, чем обобщенными аддитивными моделями. Более подробно, эти вопросы обсуждаются в книге Hastie and Tibshirani (1990).
Другая проблема, о которой нельзя забывать, относится к интерпретируемости результатов, полученных в (обобщенных) линейных моделях по сравнению с обобщенными аддитивными моделями. Линейные модели более понятны, удобны в подведении итогов анализа и лучше интерпретируемы (например, с помощью технических отчетов). Более того, оценки параметров можно без проблем использовать для предсказания или классификации новых наблюдений. Обобщенные аддитивные модели не так просто интерпретировать, в частности, когда они содержат сложные нелинейные зависимости некоторых или всех предикторных переменных (и это, разумеется, только в тех случаях, когда обобщенные аддитивные модели дают лучший результат, чем обобщенные линейные модели). Еще раз отметим, что для предсказания наблюдений обычно предпочтительнее опираться на простые и хорошо понятные, чем на сложные и трудные в интерпретации модели.
Реализация методов в STATISTICA. Методы, которые предоставляет модуль STATISTICA Обобщенные аддитивные модели, реализованы на основе методик, разработанных и ставших известными благодаря книге Hastie and Tibshirani (1990). STATISTICA предоставляет удобный пользовательский интерфейс к популярной программе GAMFIT, которую вы можете найти в библиотеке StatLibКафедры статистики в Carnegie Mellon University.
Методы. Методы, которые предоставляет модуль STATISTICA Обобщенные аддитивные модели , реализованные на основе методик, разработанных и ставших известными благодаря книге Hastie and Tibshirani (1990). Более подробное описание этих и других родственных методик, алгоритмов подгонки этих моделей и обсуждения последних исследований в этой области статистического моделирования вы также можете найти в книге Schimek (2000). STATISTICA может работать как с непрерывными, так и с категориальными предикторами.
Распределения и функции связи. STATISTICA предлагает вам широкий выбор распределений зависимой переменной и функций связи для определения влияния предикторов на зависимую переменную (см. McCullagh and Nelder, 1989; Hastie and Tibshirani, 1990; см также GLZ Вводный обзор - Методы вычислений, где обсуждаются функции связи и распределения):
Нормальное, Гамма и Пуассоновское распределения:
Логарифмическая связь: f(z) = log(z)
Обратная связь: f(z) = 1/z
Тождественная связь: f(z) = z
Биномиальное распределение:
Логит связь: f(z)=log(z/(1-z))
Сглаживание диаграммы рассеивания. Для поиска оптимального преобразования (функции) предиктора в STATISTICA используется сглаживание кубическими сплайнами с количеством степеней свободы, заданным пользователем. Подробности, касающиеся этого метода сглаживания, см. в книге Hastie and Tibshirani (1990; см. также Schimek, 2000, где подробно обсуждаются сглаживания диаграммы рассеяния)
Вывод. STATISTICA предоставляет всеобъемлющий набор статистик результатов, чтобы помочь в определении адекватности модели, подгонки модели и интерпретации результатов. Особенно отметим следующие результаты: отчет об итерациях подгонки модели, итоговые статистики, включающие общий R-квадрат степеней свободы модели (вычисленный как сумма квадратов отклонений выборочных значений от их среднего), и подробные описательные статистики относящиеся к предсказанному отклику, остаткам (см. Hastie & Tibshirani, 1990; в частности формула 6.3) и сглаживанию предикторов. Итоговые графики состоят из диаграмм зависимости наблюдаемых откликов от остаточных откликов, предсказанных значений от остатков, гистограмм наблюдаемых и остаточных значений, 2М нормальных вероятностных графиков остаточных значений, и диаграмм частных остатков для каждого предиктора, показывающих подгонку сглаживания кубическими сплайнами конечного решения.
Альтернативные процедуры. Обобщенные аддитивные модели представляют собой обобщение обобщенных линейных моделей, которые в свою очередь являются расширением общих линейных моделей. Как было отмечено в Вводном обзоре, необходимо тщательно проверять модель на проблему чрезмерно близкой подгонки, а так же важно проверять простые модели перед тем, как принимать в качестве финальной интерпретации более сложные обобщенные аддитивные модели. STATISTICA включает полную реализацию общих линейных моделей (GLM), обобщенных линейных моделей (GLZ) и других схожих процедур (таких как GRM, GDA для работы с классифицирующими и категориальными откликами). Также можно воспользоваться регрессионными деревьями, как альтернативой обобщенным аддитивным моделям (см. Hastie and Tibshirani, 1990, Глава 4, где обсуждаются регрессионные деревья в контексте обобщений линейных моделей)
Реализация метода в STATISTICA. Методы, которые предоставляет модуль STATISTICA Generalized Additive Models, реализованы на основе методик, разработанных и ставших известными благодаря книге Hastie and Tibshirani (1990). А так же,STATISTICA предоставляет удобный пользовательский интерфейс к популярной программе GAMFIT, которую вы можете найти в библиотеке StatLib кафедры статистики в Carnegie Mellon University.
В этом примере используются данные, описанные в книге Neter, Wasserman, and Kutner (1985, стр. 357; однако, авторы рассматривают подгонку линейной регрессионной модели к этим данным). В этом примере мы попытаемся подогнать обобщенную аддитивную модель к этим данным, и вы сможете сравнить с результатами использования "простой" логит регрессионной модели. Более подробные примеры применения обобщенных аддитивных моделей, а также других распределений и функций связи вы можете найти в книге Hastie and Tibshirani (1990).
Предположим, что вы хотите проверить, правда ли, что стаж работы помогает программистам в написании сложных программ, если на написание отпущен ограниченный промежуток времени. Для исследования были выбраны двадцать пять программистов с различным стажем работы (выраженным в месяцах). Их попросили написать сложную компьютерную программу за определенный промежуток времени. Бинарная переменная отклика принимала значение 1, если программист справился с поставленной задачей и 0, если нет. Эти данные были сохранены в файле Program.sta; внизу показана часть распечатки этого файла.

Задание анализа. Откройте файл Program.sta. Выберите команду Обобщенные аддитивные модели в меню Анализ - Добыча данных. В списке Распределение выберите Биномиальное распределение; Логит функция связи будет выбрана автоматически.

Нажмите кнопку OK, чтобы перейти к окну GAM - диалог Параметры. Далее нажмите кнопку Переменные для отображения на экране стандартного диалога выбора переменных. Выберите переменную Success как зависимую, а Expernce в качестве непрерывного предиктора (в третьем списке). Нажмите кнопку OK.

STATISTICA автоматически заполнит коды биномиальной зависимой переменной. В вычислениях значение Failure зависимой переменной будет интерпретировано как 0, а значение Success как 1. Следовательно, чем больше в результатах анализа предсказанное значение, тем больше вероятность успешного выполнения задания программистом.
Просмотр результатов. Чтобы начать выполнение анализа, нажмите кнопку OK в окне GAM - диалог Параметры. Результатом анализа будет набор таблиц и графиков.

Как вы видите, для оценки качества подгонки модели и помощи в интерпретации результатов, был представлен ряд таблиц и графиков. Интерпретация результатов подгонки обобщенной аддитивной модели - сложный и требующий немалого опыта процесс (отметим, что эти методики были разработаны сравнительно недавно, и литературы, посвященной этим методикам совсем немного). В книге Hastie and Tibshirani вы найдете подробное обсуждение того, как интерпретировать результаты такого типа анализа, и что более важно, как использовать эту информацию при определении пригодности полученных решений. Самые последние разработки в этой области и их применение вы также можете найти в книге Schimek (2000).
Рассмотрим только самый характерный результат, который дает этот метод: График наблюдаемых значений предиктора и частных остатков; На этом графике также показана подгонка кубического сплайна в окончательной модели.

Повторим, что на этом графике изображена итоговая подгонка кубическим сплайном и зависимость наблюдаемых значения предикторов от частных остатков, т.е. остатков предсказанной (преобразованной) зависимой переменной, после удаления воздействия остальных ковариат модели (см. Hastie & Tibshirani, 1990; в частности формулу 6.3 расчета значений преобразованной зависимой переменной). Как видно из монотонного возрастания линии кубического сплайна, у программиста с большим опытом больше шансов закончить работу вовремя.
Также, можно рассмотреть различные результаты анализа остатков и наблюдаемых значений, чтобы определить выбросы, неадекватности модели, или группы наблюдений, плохо объяснимых моделью.
Итоги подгонки. Теперь рассмотрим таблицу Итоги подгонки. Как упоминалось во Вводном обзоре, один из наиболее важных вопросов, касающихся применения обобщенных аддитивных моделей, - это понять, стоит ли дополнительное сглаживание и параметр, который требуется оценить, чтобы найти наилучшую подгонку кубическими сплайнами, затраченных усилий, т.е. позволяет ли это значимо улучшить подгонку модели. В данном случае, исходя из графика частных остатков, можно сказать, что связь между предикторами и частными остатками почти линейна.

Нелинейное p-значение в таблице Итоги подгонки близко к 1; следовательно, в данном случае не совсем ясно имеет ли смысл увеличение сложности аддитивной логит модели.