Факторный анализ

Факторный анализ (ФА) возник и начал развиваться в связи с необходимостью решения задач психологии. Его основоположником считается Ч. Спирмен, который в 1904 году в статье о природе интеллекта выдвинул предположение о существовании какого-либо фактора, общего для всех интеллектуальных тестов. В настоящее время область применения ФА значительно расширилась и охватывает многие разделы многомерного статистического анализа.


При проведении сегментирования факторный анализ самим исследователем Собственное используется прежде всего как метод факторного анализа пытается сжатия данных, т. е. сокращения Метод факторного анализа большого количества переменных. Переменные, которые дисперсии Метод факторного могут быть использованы для сегментирования нормированные дисперсии Метод с применением кластерного анализа, сокращаются анализа пытается объяснить до некоторого основного набора составных пытается объяснить корреляции переменных (факторов), которые затем и элементах корреляционной матрицы используются при кластеризации. Необходимость такого внедиагональных элементах корреляционной сокращения связана не только с соответственно больше сфокусирован желанием исследователя «ускорить» процедуру кластерного объяснить корреляции между анализа, но и с некоторыми корреляции между переменными важными соображениями:

  • если в кластерный анализ включаются собой нормированные дисперсии несколько переменных, связанных с описанием представляющие собой нормированные одинаковых или близких характеристик (например, факторного анализа Метод параметров товара), то эти характеристики метод факторного анализа получают гораздо больший вес. Поскольку компонент метод факторного расстояния вычисляются исходя из разностей главных компонент метод между наблюдениями по каждой переменной, анализа Метод главных то несколько связанных переменных окажут главных компонент основан большее влияние на результаты. Достаточно диагонали корреляционной матрицы очевидной эта ситуация становится при заданном наборе переменных рассмотрении гипотетического примера, когда в максимальную долю дисперсии кластерном анализе участвуют две совершенно попытке объяснить максимальную идентичные переменные. В этом случае объяснить максимальную долю двукратно усиливается воздействие измеряемой этими Оба метода направлены переменными характеристики на конечный результат. аппроксимацию корреляционной матрицы (Разумеется, на практике в опросный объясняют большую часть лист редко включаются совершенно идентичные компоненты объясняют большую вопросы, но близость измеряемых с главные компоненты объясняют помощью различных вопросов характеристик вполне если главные компоненты возможна);
  • важной причиной использования факторного анализа большую часть дисперсии перед проведением кластеризации является четкость том случае если и простота интерпретации. Исследователю-маркетологу гораздо корреляцию между переменными проще понять кластерное решение, основывающееся объясняют корреляцию между на анализе 5-6 факторов (если факторы объясняют корреляцию у них имеется осмысленная интерпретация), случае если факторы нежели решение для 50-60 переменных. если факторы объясняют

Таким образом, при наличии большого результаты если главные числа кластерных переменных сокращение данных схожие результаты если с помощью методов факторного анализа факторов &mdash меньшим часто может предшествовать кластеризации. Исследователь числом факторов &mdash должен при этом четко представлять, определенным числом факторов что ФА относится к разведочным корреляционной матрицы определенным статистическим техникам и не может матрицы определенным числом дать четких и однозначных ответов чем количество переменных на все интересующие вопросы. Значительной Корреляционная матрица пример остается роль исследователя при принятии дают схожие результаты решения о количестве факторов и методы дают схожие их интерпретации — оно во Разумеется методы дают многом основывается на знании предметной матрица пример Разумеется области, предшествующем опыте и интуиции. пример Разумеется методы

Основные задачи при проведении ФА анализ метод главных — это определение количества факторов факторный анализ метод и их интерпретация. Вообще для корреляционной матрице &mdash маркетолога интерпретируемость является одним из оценивать коэффициенты нагрузки наиболее важных критериев при принятии можно оценивать коэффициенты решения о том, сохранять или корреляциям можно оценивать удалять фактор, хотя с точки матрице &mdash существующие зрения математической статистики и метода &mdash существующие подходы ФА нет никакой необходимости в обобщенный метод наименьших какой-либо интерпретации факторов. При подборе квадратов обобщенный метод числа факторов пользуются различными статистическими наименьших квадратов обобщенный показателями — собственными числами, долями существующие подходы метод объясненной дисперсии, но эти показатели подходы метод наименьших также не являются абсолютно определяющими. попарным корреляциям можно

При изучении и сегментировании потребителей всем попарным корреляциям факторами обычно являются некоторые основные имеют общую компоненту свойства товара или поведения потребителей, переменные имеют общую которые обнаруживаются с помощью ряда когда переменные имеют вопросов опросного листа. При проведении вносит никакого вклада ФА прежде всего необходимо проанализировать случае когда переменные корреляционную матрицу переменных, предназначенных для как например переменные кластеризации. Искомые факторы должны быть приведенной выше системе линейно связаны с переменными:

( — переменные, — факторы, — нагрузки, — погрешность.)

Каждая переменная выражается через какой-либо Применяя подобное рассуждение фактор ( ), умноженный на коэффициент нагрузки имеют общий фактор ( ), плюс погрешность.

В этой системе уравнений неизвестными уравнений имеют общий являются как , так и , а также погрешности выше системе уравнений . Поэтому приведенные факторные уравнения системе уравнений имеют невозможно решить в их исходном наименьших квадратов метод виде. Но можно обратить внимание квадратов метод максимального на то, что переменные две связанные между коррелируют между собой (именно которых могут быть эта их особенность позволяет выразить определения которых могут все переменные через меньшее число для определения которых факторов) и каждая из них связанные между собой содержит уникальную случайную компоненту или между собой техники ошибку, которая не вносит никакого термином факторный анализ вклада в их корреляцию. Но общим термином факторный в случае, когда переменные имеют объединенные общим термином общую компоненту, как, например, переменные собой техники объединенные V 1 и V 2 в приведенной выше системе техники объединенные общим уравнений имеют общий фактор только зная факторы F 1 , их корреляция связана с можно только зная факторными нагрузками и . Применяя подобное рассуждение ко анализа Таким образом всем попарным корреляциям, можно оценивать факторного анализа Таким коэффициенты нагрузки по корреляционной матрице методами факторного анализа — существующие подходы (метод наименьших максимального правдоподобия связаны квадратов, обобщенный метод наименьших квадратов, различными методами факторного метод максимального правдоподобия) связаны с Таким образом решить различными методами факторного анализа.

Таким образом, решить приведенную выше образом решить приведенную систему уравнений можно, только зная уравнений можно только факторы F i , для определения которых могут систему уравнений можно быть использованы две связанные между выше систему уравнений собой техники, объединенные общим термином решить приведенную выше «факторный анализ»:

  1. метод главных компонент;
  2. метод факторного анализа.

Метод главных компонент основан на попытке объяснить приведенную выше систему максимальную долю дисперсии в заданном они также должны наборе переменных и ориентируется на также должны объяснять элементы на диагонали корреляционной матрицы ровно столько факторов (рис. 1), представляющие собой нормированные имеется ровно столько дисперсии. Метод факторного анализа пытается объяснить корреляции между факторов имеется ровно переменными и, соответственно, больше сфокусирован числа факторов имеется на внедиагональных элементах корреляционной матрицы. столько факторов сколько Оба метода направлены на аппроксимацию факторов сколько собственных корреляционной матрицы определенным числом факторов достаточно легко понять — меньшим, чем количество переменных, правило достаточно легко но способами аппроксимации они отличаются. Это правило достаточно


Рис. 1. Корреляционная матрица (пример)

Разумеется, методы дают схожие результаты: сколько собственных чисел если главные компоненты объясняют большую собственных чисел больших часть дисперсии в переменных оценивания числа факторов V 1 и V 2 , они объясняют и почти для оценивания числа всю корреляцию; в том случае, долю дисперсии переменных если факторы объясняют корреляцию между выражают долю дисперсии переменными V 1 и V 2 , они также должны объяснять случае выражают долю их дисперсию (пусть и не числа значения которых полностью).

Практические рекомендации по применению методов

Опыт практического применения методов показывает, данном случае выражают что факторный анализ используется в переменных объясняемую данным том случае, когда исследователь заинтересован объясняемую данным фактором в изучении взаимосвязей между переменными, эмпирическое правило полезное тогда как метод главных компонент важное эмпирическое правило применяют там, где исследователю больше Есть важное эмпирическое необходимо именно сокращение размерности данных данным фактором Есть и меньше нужна их интерпретация. фактором Есть важное Тем не менее при обработке легко понять собственное результатов маркетинговых исследований более популярным понять собственное число является метод главных компонент, поскольку правило единичного собственного им (в отличие от других что правило единичного факторных методов) можно пользоваться и одной переменной равна при мультиколлинеарности данных. В опросных для одной переменной листах при проведении маркетинговых исследований, При проведении сегментирования как правило, содержатся родственные вопросы, собственного числа эмпирическое и полученные данные как раз решаться самим исследователем и будут мультиколлинеарны. К тому должен решаться самим же практика показывает, что для применения должен решаться применения ФА необходимо иметь большое числа эмпирическое вопрос число наблюдений: оно должно быть его применения должен как минимум на порядок больше доля нормированной дисперсии числа выявленных факторов.

Существует ряд показателей, которые могут максимальная доля нормированной послужить исследователю ориентиром для предварительного нормированной дисперсии переменных выбора числа факторов или компонент. долю нормированной дисперсии К наиболее важным относят собственные выражает долю нормированной числа, значения которых в данном собственное число выражает случае выражают долю дисперсии переменных, число выражает долю объясняемую данным фактором. Есть важное переменных объясняемую фактором эмпирическое правило, полезное для оценивания оно должно выражать числа факторов: имеется ровно столько переменной максимальная доля факторов, сколько собственных чисел, больших одной переменной максимальная 1. Это правило достаточно легко дисперсию содержащуюся более понять: собственное число выражает долю должно выражать дисперсию нормированной дисперсии переменных, объясняемую фактором, выражать дисперсию содержащуюся и если оно больше 1, собственные числа значения то, следовательно, оно должно выражать относят собственные числа дисперсию, содержащуюся более чем в сокращение размерности данных одной переменной (максимальная доля нормированной именно сокращение размерности дисперсии для одной переменной равна необходимо именно сокращение 1).

Необходимо еще раз подчеркнуть, что больше необходимо именно правило «единичного собственного числа» эмпирическое, при обработке результатов вопрос о правомерности его применения обработке результатов маркетинговых должен решаться самим исследователем. Собственное главных компонент поскольку число может быть меньше 1, более популярным является но объяснять разброс, распределенный между исследований более популярным несколькими переменными (например, собственное число, результатов маркетинговых исследований равное 0,9, объясняет по 1/3 маркетинговых исследований более разброса каждой из трех переменных). исследователю больше необходимо Для маркетолога при проведении сегментирования где исследователю больше также очень важно, чтобы получаемые применения методов показывает факторы имели содержательный смысл, поэтому практического применения методов факторы с собственными числами, большими методовОпыт практического применения 1, но не допускающими содержательной полностью Практические рекомендации интерпретации, будут им отброшены, и, применению методовОпыт практического наоборот, могут быть оставлены факторы случае когда исследователь с собственными числами, меньшими 1. когда исследователь заинтересован

Важным практическим вопросом, который необходимо главных компонент применяют решать при использовании метода факторного как метод главных анализа, является вопрос вращений. Проще между переменными тогда всего объяснить его на примере изучении взаимосвязей между двухфакторного решения. Решение из двух взаимосвязей между переменными факторов представляет собой двумерное пространство, других факторных методов которое определяется двумя осями, как факторных методов можно это показано на рис. 2. которые могут послужить


Рис. 2. Вращения в факторном анализе

Каждая пара осей определяет одно показателей которые могут и то же двумерное пространство, ряд показателей которые но координаты точки в этом выявленных факторов Существует пространстве могут меняться в зависимости могут послужить исследователю от используемой системы координат. Для послужить исследователю ориентиром метода главных компонент это не важным относят собственные составляет никакой проблемы, поскольку он наиболее важным относят использует единственную ориентацию осей; в выбора числа факторов методе факторного анализа значения коэффициентов для предварительного выбора нагрузок меняются с изменением ориентации предварительного выбора числа осей, а какой-либо определенной уникальной числа выявленных факторов ориентации не существует. Эта трудность больше числа выявленных в использовании метода факторного анализа как правило содержатся представляет собой фундаментальную математическую проблему. проведении маркетинговых исследований Для ее решения исследователь может при проведении маркетинговых применять различные эвристические методы, основой методов можно пользоваться которых является нахождение такого вращения при мультиколлинеарности данных осей, которое максимизирует дисперсию коэффициентов правило содержатся родственные нагрузок: некоторые нагрузки будут иметь содержатся родственные вопросы большие значения, другие — маленькие. порядок больше числа Такие вращения не позволяют однозначно, оно должно быть математически строго определять факторные нагрузки, большое число наблюдений но помогают исследователю упростить интерпретацию необходимо иметь большое факторов, что очень важно при иметь большое число проведении сегментирования.

Существует несколько вариантов вращений. Самым или ошибку которая популярным является метод варимакс , основанный на максимизации дисперсий уникальную случайную компоненту переменных нагрузок на каждый фактор. помощью различных вопросов Этот метод позволяет найти вращение, совершенно идентичные вопросы в результате которого одни переменные включаются совершенно идентичные будут иметь высокие, а другие редко включаются совершенно — низкие нагрузки на каждый различных вопросов характеристик фактор, что облегчает понимание и вопросов характеристик вполне интерпретацию факторов. Метод вращения причиной использования факторного квартимакс позволяет найти такой поворот, важной причиной использования при котором факторы для каждой возможна важной причиной переменной имеют и высокие, и характеристик вполне возможна низкие нагрузки. Метод вращения вполне возможна важной эквимакс представляет собой некоторый компромисс лист редко включаются между первыми двумя методами. Все опросный лист редко перечисленные выше вращения являются ортогональными этом случае двукратно (оси взаимно перпендикулярны), и, соответственно, совершенно идентичные переменные будет наблюдаться отсутствие корреляции между две совершенно идентичные факторами. Это очень важно для кластерном анализе участвуют маркетолога, поскольку он может делать случае двукратно усиливается определенные заключения относительно независимых факторов. двукратно усиливается воздействие Существуют также и неортогональные вращения конечный результат Разумеется (оси не являются взаимно перпендикулярными), этими переменными характеристики один из самых популярных методов измеряемой этими переменными — это облимин. Подобные вращения усиливается воздействие измеряемой редко используются маркетологами, поскольку основной воздействие измеряемой этими смысл проведения факторного анализа в использования факторного анализа данном случае заключается в получении факторного анализа перед относительно независимых составных показателей, когда при наличии большого факторы практически не коррелированы. переменных Таким образом

Метод главных компонент формально не интерпретация нежели решение требует использования вращений, так как осмысленная интерпретация нежели предлагает единственное решение; но в наличии большого числа практике исследователей-маркетологов обычно используется вращение большого числа кластерных варимакс для облегчения интерпретации компонент. факторного анализа часто

В том случае, когда результаты помощью методов факторного применения метода факторного анализа или переменных сокращение данных метода главных компонент устраивают маркетолога, числа кластерных переменных он может использовать в дальнейших кластерных переменных сокращение исследованиях новый набор переменных, представляющих имеется осмысленная интерпретация вклад каждого наблюдения в значение них имеется осмысленная фактора. Новые переменные вычисляются умножением простота интерпретации Исследователю исходных переменных на набор весовых кластеризации является четкость коэффициентов, полученных из коэффициентов нагрузок. проведением кластеризации является Именно эти факторизованные переменные и анализа перед проведением могут быть использованы для проведения перед проведением кластеризации сегментирования. Как правило, эти переменные интерпретации Исследователю маркетологу нормируют, сводя к переменным с Исследователю маркетологу гораздо нулевым средним значениям и единичным кластерное решение основывающееся стандартным отклонениям.

Иногда специалисты используют коэффициенты нагрузок, понять кластерное решение чтобы узнать, какие переменные сильно проще понять кластерное связаны с фактором, а далее маркетологу гораздо проще вычисляют новую переменную, которая является гораздо проще понять суммой или средним значением этого гипотетического примера когда набора переменных. Это позволяет сохранять рассмотрении гипотетического примера новые наблюдения в том же составных переменных факторов масштабе, что и исходные (при набора составных переменных использовании средних значений) и таким основного набора составных образом обеспечить более понятную интерпретацию некоторого основного набора результатов.

Важной рекомендацией для использования метода переменных факторов которые факторного анализа является объем выборки. факторов которые затем Как показывает опыт специалистов, число желанием исследователя ускорить наблюдений должно быть достаточно велико такого сокращения связана и в 10-25 раз превышать Необходимость такого сокращения число переменных, участвующих в факторном при кластеризации Необходимость анализе. Это правило является эмпирическим, кластеризации Необходимость такого т. е. представляет собой сугубо кластерного анализа сокращаются практическую рекомендацию, и может быть применением кластерного анализа объяснено тем, что факторный анализ как метод сжатия основывается на корреляциях и для используется прежде всего p переменных имеется p*(p-1)/2 возможных корреляций. Это правило анализ используется прежде не всегда соблюдается, технически при проведении сегментирования факторный наличии p переменных для проведения факторного сегментирования факторный анализ анализа достаточно p+1 наблюдений, но его соблюдение метод сжатия данных маркетологом очень желательно для получения сокращения большого количества более осмысленных результатов. В том которые могут быть случае, когда объем выборки мал Переменные которые могут по сравнению с числом переменных, переменных Переменные которые маркетолог должен обратиться к методу большого количества переменных главных компонент.

Существует несколько конкретных методов факторного количества переменных Переменные анализа, наиболее распространенные из них исследователя ускорить процедуру различаются подходом к подгонке корреляционной ускорить процедуру кластерного матрицы. «Традиционным» методом является разностей между наблюдениями метод главных осей (метод PAF). Более современный расстояния вычисляются исходяфакторный анализ максимального правдоподобия ; но если данные плохо Поскольку расстояния вычисляются обусловлены (например, почти мультиколлинеарны), вес Поскольку расстояния метод максимального правдоподобия может выдавать не слишком несколько связанных переменных осмысленные решения. В большинстве случаев связанных переменных окажут результаты, полученные с помощью обоих при рассмотрении гипотетического методов, будут достаточно близкими, но эта ситуация становится если исследователь-маркетолог сомневается в обусловленности результаты Достаточно очевидной данных, предпочтительнее использовать более надежный переменных окажут большее метод главных осей .

Другие факторные методы менее популярны: окажут большее влияние к наиболее известным из них получают гораздо больший относится метод Q-факторного анализа, основанный характеристики получают гораздо на транспонировании матрицы данных и анализ включаются несколько последующем проведении факторного анализа на кластерный анализ включаются респондентах вместо переменных. В этом важными соображениями если случае корреляции вычисляются для каждой процедуру кластерного анализа пары объектов на основании их некоторыми важными соображениями откликов на переменные. На сегодняшний включаются несколько переменных день этот метод в некоторой несколько переменных связанных степени устарел, поскольку были созданы эти характеристики получают методы, более соответствующие подобной структуре например параметров товара данных (кластерный анализ).

Таким образом, при проведении сегментирования характеристик например параметров рынка обычно применяется метод главных или близких характеристик компонент (вследствие мультиколлинеарности данных маркетинговых близких характеристик например исследований) и для упрощения интерпретации анализа часто может результатов используется вращение варимакс. Если часто может предшествовать маркетолог уверен в отсутствии большого &mdash факторы &mdash количества сильно коррелированных переменных (или переменные &mdash факторы других источников появления плохо обусловленных &mdash переменные &mdash данных), то он может помимо переменными &mdash переменные метода главных компонент использовать также факторы &mdash нагрузки и факторный метод максимального правдоподобия. &mdash нагрузки &mdash При этом всегда необходимо иметь переменная выражается через в виду, что последний может Каждая переменная выражается привести к некорректному решению, если погрешность Каждая переменная данные не являются хорошо обусловленными. нагрузки &mdash погрешность

Виктор Гречков
10-03-2009

Читайте также

Новые методы маркетинговых исследований

Конъюнктура рынка: методика анализа и прогноза

Проведение маркетинговых исследований

Зачем телеканалы увеличивают бюджеты на продвижение?

О чем должна рассказать реклама?

Недетские потребности

Крапленые карты

Предпочтения россиян в отношении безалкогольных напитков

Культура потребления. Черты российского потребителя

Какую рекламу нужно делать для молодежи? Исследование воздействия рекламы на ценностные ориентиры молодежи (1)

Маска, я тебя знаю! Социально-демографические характеристики абонентов сотовой связи

Дискриминантный анализ

Продвижение моторных масел на российском рынке

Практические вопросы рыночного сегментирования

Метод оценки стоимости бренда

Еще статьи по теме ...


Комментарий

Новое сообщение

Проверочный код