Logo GenDocs.ru


Поиск по сайту:  


Курсовая работа - Многомерный регрессионный анализ - файл 1.doc


Курсовая работа - Многомерный регрессионный анализ
скачать (270.5 kb.)

Доступные файлы (1):

1.doc271kb.21.11.2011 08:35скачать

содержание

1.doc

Реклама MarketGid:
МОСКОВСКИЙ ГОСУДАРСТВЕННЫЙ УНИВЕРСИТЕТ ЭКОНОМИКИ СТАТИСТИКИ И ИНФОРМАТИКИ

Курсовая работа

по математической статистике
Многомерный регрессионный анализ.

Выполнила: студентка группы ЗСС-202

Попова М.А.

Проверила: Адамова Е.В.

Москва, 2004

Содержание

Раздел 1.Теоретическая часть 3

Введение 3

Часть 1. Корреляционный анализ 5

Корреляция 5

Линейный коэффициент корреляции 6

Множественный коэффициент корреляции 8

Частные коэффициенты корреляции 9

^ Часть 2. Регрессионный анализ 11

Регрессионный анализ 11

Регрессионная модель 12

Задачи регрессионного анализа 14

Интерпретация 18

^ Раздел 2. Практическая часть 20

Анализируемые данные 20

Постановка задачи 21

Корреляционная матрица 22

Алгоритм пошагового регрессионного анализа с исключением переменных. 24

Список литературы 27
^

Раздел 1.Теоретическая часть




Введение



Социально-экономические явления представляют собой результат одновременного воздействия большого числа причин. Следовательно, при изучении этих явлений необходимо выявлять главные, основные причины, абстрагируясь от второстепенных.

В основе первого этапа статистического изучения связи лежит качественный анализ изучаемого явления, связанный с анализом природы социального или экономического явления методами экономической теории, социологии, конкретной экономики. Второй этап – построении модели связи. Он базируется на методах статистики: группировках, средних величин, таблицах и т.д. Третий, последний этап – интерпретация результатов, вновь связан с качественными особенностями изучаемого явления.

Статистика разработала множество методов изучения связей, выбор которых зависит от целей исследования и от поставленных задач. Связи между признаками и явлениями ввиду их большого разнообразия классифицируют по ряду оснований. Признаки по их значению для изучения взаимосвязи делятся на два класса. Признаки, обуславливающие изменения других, связанных с ними признаков, называются факторными или просто факторами. Признаки, изменяющиеся под действием факторных признаков, являются результативными. Связи между явлениями и их признаками классифицируются по степени тесноты связи, направлению и аналитическому выражению.

В статистике различат функциональную связь и стохастическую зависимость. Функциональной называют такую связь, при которой определенному значению факторного признака соответствует одно и только одно значение результативного признака. Функциональная связь проявляется во всех случаях наблюдения и для каждой конкретной единицы исследуемой совокупности.

Если причинная зависимость проявляется не в каждом отдельном случае, а в общем, среднем при большем количестве наблюдений, то такая зависимость называется стохастической. Частным случаем стохастической связи является корреляционная связь, при которой изменение среднего значения результативного признака обусловлен изменением факторных признаков. Корреляционная зависимость исследуется с помощью методов корреляционного и регрессионного анализов.
^

Часть 1. Корреляционный анализ

Корреляция


Корреляция – это статистическая зависимость между случайными величинами, не имеющими строго функционального характера, при которой изменение одной из случайных величин приводит к изменению математического ожидания другой.

В статистике принято различать следующие варианты зависимостей.

  1. Парная корреляция – связь между двумя признаками (результативным и факторным или двумя факторными).

  2. Частная корреляция – зависимость между результативным и одним факторным признаками при фиксированном значении других факторных признаков.

  3. Множественная корреляция - зависимость результативного и двух или более факторных признаков, включенных в исследование.

^ Корреляционный анализ имеет своей задачей количественное определение тесноты связи между двумя признаками (при парной связи) и между результативным и множеством факторных признаков (при многофакторной связи).

Основной предпосылкой применения корреляционного анализа является необходимость подчинения совокупности значений всех факторных (х1,х2,…, хn) и результативного (Y) признаков r-мерному нормальному закону распределения или близость к нему. Если объем исследуемой совокупности достаточно большой (n > 50), то нормальность распределения может быть подтверждена на основе расчета и анализа критериев Пирсона, Ястремского, Боярского, Колмогорова, чисел Вастергарда и т.д. Если n < 50, то закон распределения исходных данных определяется на базе построения и визуального анализа поля корреляции. При этом если в расположении точек имеет место линейная тенденция, то можно предположить, что совокупность исходных данных (Y, х1, х2,…,хk) подчиняется нормальному распределению.

Теснота связи количественно выражается величиной коэффициентов корреляции. Коэффициенты корреляции, представляя количественную характеристику тесноты связи между признаками, дают возможность определять «полезность» факторных признаков при построении уравнений множественной регрессии. Величина коэффициента корреляции служит также оценкой соответствия уравнения регрессии выявленным причинно-следственным связям.
^

Линейный коэффициент корреляции


Линейный коэффициент корреляции был впервые введен в начале 90-х годов Пирсоном, Эджвортом и Велдоном и характеризует тесноту и направление связи между двумя коррелируемыми признаками в случае наличия между ними линейной зависимости.

В теории разработаны и на практике применяются различные модификации формул расчета данного коэффициента:



Используя математические свойства средней, получаем:
=

Линейный коэффициент корреляции имеет большое значение при исследовании социально-экономических явлений и процессов, распределение которых близко к нормальному. Легко доказывается, что условие r = 0 является необходимым и достаточным для того, чтобы величины X и Y были независимыми. При этом условии и коэффициенты регрессии ayx, axy также обращаются в нуль, а прямые регрессии Y по X и Х по Y оказываются взаимно перпендикулярными (параллельными: одна оси абсцисс, а вторая оси ординат).

Если же r = 1, то это означает, что все точки (Х,Y) находятся на прямой и зависимость между X и Y является функциональной.

Линейный коэффициент корреляции изменяется в пределах от -1 до 1. Интерпретацию выходных значений коэффициента корреляции можно представить в Таблице №1.
Таблица №1.

Значение линейного

коэффициента корреляции

Характер связи

Интерпретация связи

r = 0

отсутствует

-

0 < r < 1

прямая

с увеличением X увеличивается Y

-1 < r < 0

обратная

С увеличением Х уменьшается Y и наоборот

r = 1

функциональная

Каждому значению факторного признака строго соответствует одно значение результативного признака


Значимость линейного коэффициента корреляции проверяется на основе t – критерия Стьюдента. При этом выдвигается и проверяется гипотеза (Н0) о равенстве коэффициента корреляции нулю [H0: r = 0]. При проверке этой гипотезы используется t-статистика:



При выполнении Н0 t-статистика имеет распределение Стьюдента с входными параметрами: {ά, k = n – 2}.

Если расчетное значение tp > tkp (табличное), то гипотеза Н0 отвергается, что свидетельствует о значимости линейного коэффициента корреляции, а, следовательно, и о статистической существенности зависимости между X и Y.

Данный критерий оценки значимости применяется для совокупностей n < 50.

При большом числе наблюдений (n > 100) используется следующая формула t-статистики:



Для статистически значимого линейного коэффициента корреляции можно построить интервальные оценки с помощь z-распределения Фишера:



Первоначально определяется интервальная оценка для z по выражению:



где tγ – табулированные значения для нормального распределения, зависимые от

γ = 1 – ά (ά – уровень вероятности);

Z΄ - табличные значения, Z = ƒ(r) – распределения. Функция z΄ - нечетная.
Для измерения тесноты связи при множественной корреляционной зависимости, т.е. при исследовании трех и более признаков одновременно, вычисляются множественный или совокупный и частные коэффициенты корреляции.

^

Множественный коэффициент корреляции


Множественный коэффициент корреляции рассчитывается между результативным и несколькими факторными признаками, а также между каждой парой факторных признаков.

Множественный коэффициент корреляции вычисляется по формуле:



где δ² - дисперсия теоретических значений результативного признака, рассчитанная по уравнению множественной регрессии;

σ²ост – остаточная дисперсия;

σ² - общая дисперсия результативного признака.

В случае оценки связи между результативными (Y) и двумя факторными признаками (Х1) и (Х2) множественный коэффициент корреляции можно определить по формуле:


где r – парные коэффициенты корреляции между признаками.
Множественный коэффициент корреляции изменяется в пределах от 0 до 1 и по определению положителен.

Приближение R к единице свидетельствует о сильной зависимости между признаками.

При небольшом числе наблюдений величина коэффициента множественной корреляции, как правило, завышается.

Проверка значимости коэффициента множественной корреляции осуществляется на основе
R
F
1 + R
-критерия Фишера:



Гипотеза Н0 о незначимости коэффициента множественной корреляции (Н0: R = 0) отвергается, если Fp > Fkp (ά; ν1 = 2; ν2 = n - 3).

Оценка доверительных границ R производится следующим образом: величина R приравнивается к гиперболическому тангенсу величины Z, т.е. R = thr, где



Плотность распределения Z является почти нормальной величиной со средним значением



и дисперсией



Следовательно,



отсюда:


^

Частные коэффициенты корреляции


Частные коэффициенты корреляции характеризуют степень тесноты связи между двумя признаками Х1 и Х2 при фиксированном значении других (к-2) факторных признаков, т.е. когда влияние Х3 исключается, и оценивается связь между Х1 и Х2 в «чистом виде».

В случае зависимости Y от двух факторных признаков Х1 и Х2 коэффициент частной корреляции следующий:




где r - парные коэффициенты корреляции между указанными в индексе переменными.

Проверка значимости и расчет доверительных интервалов для частных коэффициентов корреляции аналогичны, как и для парных коэффициентов, с тем лишь отличием, что число степеней свободы ν определяется так:

ν = n – k,

где kпорядок коэффициента частной корреляции.
Первоначально исследования корреляции проводились в биологии, а позднее распространились и на другие области, в том числе на социально-экономическую. Одновременно с корреляцией начала использоваться и регрессия. Корреляция и регрессия тесно связаны между собой: первая оценивает силу (тесноту) статистической связи, вторая исследует ее форму. Та и другая служат для установления соотношения между явлениями, для определения наличия или отсутствия связи.

^ Корреляционно-регрессионный анализ как общее понятие включает в себя измерение тесноты и направления связи и установление аналитического выражения (формы) связи (регрессионный анализ).

^

Часть 2. Регрессионный анализ

Регрессионный анализ



Понятия регрессии и корреляции непосредственно связаны между собой, но при этом существует четкое различие между ними. В корреляционном анализе оценивается сила стохастической связи, в регрессионном анализе ее формы.
^ Регрессионным анализом называется метод статистического анализа зависимости случайной величины Y от переменных Хj (j= 1,2,…k), рассматриваемых в регрессионном анализе как неслучайные величины, независимо от истинного закона распределения Хj.

Обычно предполагается, что случайная величина Y имеет нормальный закон распределения с условным математическим ожиданием Y, являющимся функцией от аргументов Хj (j= 1,2,…k),и постоянной, не зависящей от аргументов дисперсией .

Требование нормального закона распределения Y необходимо лишь для проверки значимости уравнения регрессии и его параметров , а также для интервального оценивания .

Регрессионный анализ заключается в определении аналитического выражения связи, в котором изменение одной величины (называемой зависимой или результативным признаком) обусловлено влиянием одной или нескольких независимых величин (факторов), а множество всех прочих факторов, также оказывающих влияние на зависимую величину, принимается за постоянные и средние значения. Регрессия может быть однофакторной (парной) и многофакторной (множественной). Основной предпосылкой регрессионного анализа является то, что только результативный признак (Y) подчиняется нормальному закону распределения, а факторные признаки х1, х2,…, хk могут иметь произвольный закон распределения. В анализе динамических рядов в качестве факторного признака выступает t. При этом в регрессионном анализе заранее подразумевается наличие причинно-следственных связей между результативным (Y) и факторными (х1, х2,…, хk) признаками.
^

Регрессионная модель



Уравнение регрессии, или статистическая модель связи социально-экономических явлений, выражаемая функцией

Yх = f(х1, х2,…, хk),

является достаточно адекватным реальному моделируемому явлению или процессу в случае соблюдения следующих требований их построения.

  1. Совокупность исследуемых исходных данных должна быть однородной и математически описываться непрерывными функциями.

  2. Возможность описания моделируемого явления одним или несколькими уравнениями причинно-следственных связей.

  3. Все факторные признаки должны иметь количественное (цифровое) выражение.

  4. наличие достаточно большого объема исследуемой выборочной совокупности.

  5. Причинно-следственные связи между явлениями и процессами следует линейной или приводимой к линейной формой зависимости.

  6. Отсутствие количественных ограничений на параметры модели связи.

  7. Постоянно территориальной и временной структуру изучаемой совокупности.

Соблюдение данных требований позволяет исследователю построить статистическую модель связи, наилучшим образом аппроксимирующую моделируемые социально-экономические явления и процессы.

Теоретическая обоснованность моделей взаимосвязи, построенных на основе корреляционно-регрессионного анализа, обеспечивается соблюдением следующих основных условий:

  1. Все признаки и их совместные распределения должны подчиняться нормальному закону распределения.

  2. Дисперсия моделируемого признака (Y) должна все время оставаться постоянной при изменении величины (Y) и значений факторных признаков.

  3. Отдельные наблюдения должны быть независимы, т.е. результаты, полученные в i-ом наблюдении, не должны быть связаны с предыдущими и содержать информацию о последующих наблюдениях, а также влиять на них.

Отступление от выполнения этих условий и предпосылок приводит к тому, что параметры регрессии не будут отражать реальное воздействие на моделируемый показатель.

Одной из проблем построения уравнения регрессии является их размерность, т.е. определение чисел факторных признаков, включаемых в модель. Их число должно быть оптимальным.

Сокращение размерности за счет исключения второстепенных, несущественных факторов позволяет получить модель, быстрее и качественнее реализуемую. В то же время построение модели малой размерности может привести к тому, что она будет недостаточно полно описывать исследуемое явление или процесс в единой системе национального счетоводства.

Практика выработала определенный критерий, позволяющий установить оптимальное соотношение между числом факторных признаков, включаемых в модель, и объемом исследуемой совокупности. Согласно данному критерию число факторных (к) должно быть в 5-6 раз меньше объема изучаемой совокупности.

Построение корреляционно-регрессионных моделей, каким бы сложными они не были, само по себе не вскрывает полностью всех причинно-следственных связей. Основой их адекватности является предварительный качественный анализ, основанный на учете специфики и особенностей сущности исследуемых социально-экономических явлений и процессов.

В практических условиях используются линейные модели, даже если число регрессоров увеличивается.

По числу объясненных признаков регрессионный модели подразделяются на:

  • простые (с одним регрессом)

  • сложные (модели множественной регрессии)

По направлению связи различают:

  • прямую регрессию (положительную), возникающую при условии, если с увеличением или уменьшением независимой величины значения зависимой также соответственно увеличиваются или уменьшаются;

  • обратную (отрицательную) регрессию, появляющуюся при условии, что с увеличением или уменьшением независимой величины зависимая соответственно уменьшается или увеличивается.

По направлению связи различают:

  • прямую регрессию (положительную), возникающую при условии, если с увеличением или уменьшением независимой величины значения зависимой также соответственно увеличиваются или уменьшаются;

  • обратную (отрицательную) регрессию, появляющуюся при условии, что с увеличением или уменьшением независимой величины зависимая соответственно уменьшается или увеличивается.

^ В матричной форме регрессионная модель имеет вид

Где – случайный вектор – столбец размерности (n×1) наблюдаемых значений результативного признака;

Х – матрица размерности [n×(k+1)] наблюдаемых значений аргументов;

– вектор-столбец размерности [(k+1) ×1] неизвестных, подлежащих оценке параметров (коэффициентов регрессии) модели;

– случайный вектор-столбец размерности (n×1) ошибок наблюдений (остатков).

Компоненты вектора независимы между собой, имеют нормальный закон распределения с нулевым математическим ожиданием () и неизвестной дисперсией ().
Так как в регрессионном анализе xij рассматривают как неслучайные величины, а , то уравнение регрессии имеет вид:


^

Задачи регрессионного анализа



С помощью уравнения регрессии y=ƒ(x1,x2,…xħ), применяемого для экономического анализа, можно измерить влияние отдельных факторов на зависимую переменную, что делает анализ конкретным, существенно повышает его познавательную ценность, уравнения регрессии также применяются в прогнозных работах.

Построение уравнения регрессии предполагает решение двух основных задач.

Первая задача заключается в выборе независимых переменных, оказывающих существенное влияние на зависимую величину, атакже в определении вида уравнения регрессии.

Вторая задача построения уравнения регрессии – оценивание параметров (коэффициентов) уравнения. Она решается с помощью того или иного математического метода обработки данных. В связи с тем, что оценки параметров уравнения являются выборочными характеристиками, в процессе оценивания необходимо проводить статистическую проверку существенности полученных параметров.

Выбор уравнения регрессии осуществляется в соответствии с экономической сущностью изучаемого явления. Процессы, где влияние факторов – аргументов происходит с постоянным ускорением или замедлением, описываются параболическими кривыми. Иногда в экономике для описания зависимостей используются и более сложные виды функций, например, логистические, если процесс сначала ускоренно развивается, а затем после достижения некоторого уровня затухает и приближается к некоторому пределу.

Наиболее простыми видами зависимости являются линейные, или приводимые к ним.

На практике чаще встречаются следующие виды уравнений регрессии:

двумерное линейное,

полиноминальное,

гиперболическое

линейное многомерное

степенное

Линейной с точки зрения регрессионного анализа называется - модель, линейная относительно неизвестных параметров βj.

Определить тип уравнения можно, исследуя зависимость графически. Однако существуют более общие указания, позволяющие выявить уравнение связи, не прибегая к графическому изображению. Если результативный и факторный признаки возрастают одинаково, примерно в арифметической прогрессии, то это свидетельствует о том, что связь между ними линейная, а при обратной связи – гиперболическая. Если результативный признак увеличивается в арифметической прогрессии, а факторный – значительно быстрее, то используется параболическая или степенная регрессии.

Оценка параметров уравнений регрессии (b0, b1 и b2 - в уравнении параболы второго порядка) осуществляется методом наименьших квадратов, в основе которого лежит предположение о независимости наблюдений исследуемой совокупности.

Основной принцип метода наименьших квадратов можно рассмотреть на следующем примере: считаем, что две величины (два показателя) X и Y взаимосвязаны между собой, причем Y находится в некоторой зависимости от Х. Следовательно, Y будет зависимой, а Х – независимой величинами.

Сущность метода наименьших квадратов заключается в нахождении параметров модели (b0, b1), при которых минимизируется сумма квадратов отклонений эмпирических (фактических) значений результативного признака от теоретических, полученных по выбранному уравнению регрессии:

S = Σ (Yi – Yx)² → min

Для прямой зависимости:

S = Σ (y – b0 – b1x)² → min
Откуда система нормальных уравнений для нахождения параметров линейной парной регрессии методом наименьших квадратов имеет следующий вид:



nb0 + b1Σx = Σy;

b0Σ + b1Σx² = Σxy,

где n – объем исследуемой совокупности (число единиц наблюдений).

В уравнениях регрессии параметр b0 показывает усредненное влияние на результативный признак неучтенных (не выделенных для исследования) факторов; параметр b1 (а в уравнении параболы и b2) – коэффициент регрессии показывает, насколько изменяется в среднем значение результативного признака при увеличении факторного на единицу собственного измерения.

Метод наименьших квадратов обладает тем замечательным свойством, что делает число нормальных уравнений равным числу неизвестных коэффициентов.

Применение метода наименьших квадратов объясняется неизбежным наличием случайных ошибок в результатах опыта.

Статистические данные обладают ошибками упрощения, которые возникают как следствие:

  • неполноты охвата, потому что часть единиц совокупности, полученных в результате наблюдения, не может быть использована в исследовании;

  • неполноты факторов, определяющих то или иное социально-экономическое явление, в силу того, что ни в одно уравнение, ил модель, нельзя включить бесконечное число аргументов (во всех случаях отбирается только часть воздействующих факторов, причем отбор носит чисто субъективный характер);

  • Характера выбранного уравнения связи. Как бы хорошо оно ни было обосновано, как бы теоретически адекватно ни описывало исследуемое явление, оно не может быть его точным аналогом.

Решение вопроса о возможности использования метода наименьших квадратов для изучения связей между социально-экономическими явлениями зависит от свойства оценок, получаемых с помощью этого метода.

Даже при сравнительно небольшом числе наблюдений применение метода наименьших квадратов позволяет получить достаточные оценки.

Метод наименьших квадратов также может быть использован в случаях проведения анализа косвенных наблюдений, являющихся функциями многих неизвестных.

Проверка адекватности моделей, построенных на основе уравнений регрессии, начинается с проверки значимости каждого коэффициента регрессии.

Значимость коэффициентов регрессии осуществляется с помощью t-критерия Стьюдента:



где σ²bi – дисперсия коэффициента регрессии.

Пример модели признан статистически значимым, если

tp > tkp (ά; ν = n – k – 1)

Проверка адекватности всей модели осуществляется с помощью расчета F-критерия и величины средней ошибки аппроксимации ε.

Значение F-критерия Фишера определяется по следующей формуле:


где yi – теоретические значения результативного признака, полученные по уравнению регрессии;

n – объем исследуемой совокупности;

к – число факторных признаков в модели.

Если Fp > Fά при ά = 0,05, то Н0 – гипотеза о несоответствии заложенных в уравнении регрессии связей реально существующим – отвергается.

Интерпретация



Наиболее сложным этапом, завершающим регрессионный анализ, является интерпретация уравнения, т.е. перевод его с языка статистики и математики на язык экономиста.

Интерпретация моделей регрессии осуществляется методами той отрасли знаний, к которой относятся исследуемые явления. Но всякая интерпретация начинается со статистической оценки уравнения регрессии в целом и оценки значимости входящих в модель факторных признаков, т.е. с выяснения, как они влияют на величину результативного признака. Чем больше величина коэффициента регрессии, тем значительнее влияние данного признака на моделируемый. Особое значение при этом имеет знак перед коэффициентом регрессии. Знаки коэффициентов регрессии говорят о характере влияния на результативный признак. Если факторный признак имеет плюс, то с увеличением данного фактора результативный признак возрастает; если факторный признак со знаком минус, то с его увеличением результативный признак уменьшается. Интерпретация этих знаков полностью определяется социально-экономическим содержанием моделируемого (результативного) признака. Если его величина изменяется в сторону увеличения, то плюсовые знаки факторных признаков имеют положительное влияние. При изменении результативного признака в сторону снижения положительное значение имеют минусовые знаки факторных признаков. Если экономическая теория подсказывает, что факторный признак должен иметь положительное значение, а он со знаком минус, то необходимо проверить расчеты параметров уравнения регрессии. Такое явление чаще всего бывает в силу допущенных ошибок при решении. Однако следует иметь в виду. Что при анализе совокупного влияния факторов, при наличии взаимосвязей между ними характер их влияния может меняться. Для того чтобы быть уверенным, что факторный признак изменил знак влияния, необходима тщательная проверка решения данной модели, так как часто знаки могут меняться в силу допустимых ошибок при сборе и обработке информации.
^

Раздел 2. Практическая часть

Анализируемые данные


N

Y

X4

X6

X8

X11

X12

1

9.26

0.23

0.40

1.23

26006.00

167.70

2

9.38

0.24

0.26

0.04

23935.00

186.10

3

12.11

0.19

0.40

1.80

22589.00

220.50

4

10.81

0.17

0.50

0.43

21220.00

169.30

5

9.35

0.23

0.40

0.88

7394.00

39.53

6

9.87

0.43

0.19

0.57

11586.00

40.41

7

8.17

0.31

0.25

1.72

26609.00

102.90

8

9.12

0.26

0.44

1.70

7801.00

37.02

9

5.88

0.49

0.17

0.84

11587.00

45.74

10

6.30

0.36

0.39

0.60

9475.00

40.07

11

6.22

0.37

0.33

0.82

10811.00

45.44

12

5.49

0.43

0.25

0.84

6371.00

41.08

13

6.50

0.35

0.32

0.67

26761.00

136.10

14

6.61

0.38

0.02

1.04

4210.00

42.39

15

4.32

0.42

0.06

0.66

3557.00

37.39

16

7.37

0.30

0.15

0.86

14148.00

101.80

17

7.02

0.32

0.08

0.79

9872.00

47.55

18

8.25

0.25

0.20

0.34

5975.00

32.61

19

8.15

0.31

0.20

1.60

16662.00

103.30

20

8.72

0.26

0.30

1.46

9166.00

38.95

21

6.64

0.37

0.24

1.27

15118.00

81.32

22

8.10

0.29

0.10

1.58

11429.00

67.26

23

5.52

0.34

0.11

0.68

6462.00

59.92

24

9.37

0.23

0.47

0.86

24628.00

107.30

25

13.17

0.17

0.53

1.98

49727.00

512.60

^

Постановка задачи



В данном варианте курсовой работы необходимо исследовать на основе корреляционного и регрессионного анализов зависимость одного результативного – производительности труда (Y1) от пяти факторных признаков:

X4 – трудоемкость единицы продукции. чел./час;

X6 – удельный вес покупных изделий;

X8 – премии и вознаграждения на одного работника в % к зарплате %;

X11 – средне годовая численность промышленно производственного персонала. чел;

X12 – средне годовая стоимость основных производственных фондов. млн. руб.

Проведём регрессионный анализ данных, задача которого состоит в оценке зависимости результативного признака от факторных, в системе OLIMP.

Из нашего условия следует, что зависимой переменной является Y1 (производительности труда), соответственно X4 (трудоемкость единицы продукции), X6 (удельный вес покупных изделий), X8 (премии и вознаграждения на одного работника), X11 (средне годовая численность промышленно производственного персонала), X12 (средне годовая стоимость основных производственных фондов).
^

Корреляционная матрица


Предварительно, с целью анализа взаимосвязи показателей построим таблицу парных коэффициентов корреляции R.

Матрица коэффициентов парной корреляции (табл.2) отражает тесноту связи между показателями, которая измеряется коэффициентом корреляции.
1. Корреляционная матрица имеет следующий вид:

Таблица 2

N

1

2

3

4

5

6

Y1

1.00

-0.80

0.66

0.47

0.66

0.70

X4

-0.80

1.00

-0.63

-0.37

-0.53

-0.58

X6

0.66

-0.63

1.00

0.23

0.59

0.52

X8

0.47

-0.37

0.23

1.00

0.46

0.48

X11

0.66

-0.53

0.59

0.46

1.00

0.91

X12

0.70

-0.58

0.52

0.18

0.91

1.00


Y1 – производительность труда. тыс.руб./чел.;

X4 – трудоемкость единицы продукции. чел./час;

X6 – удельный вес покупных изделий;

X8 – премии и вознаграждения на одного работника в % к зарплате %;

X11 – средне годовая численность промышленно производственного персонала. чел;

X12 – средне годовая стоимость основных производственных фондов. млн. руб.
^ Анализ матрицы коэффициентов парной корреляции показывает:


  • Что из всех факторных признаков на результативный признак, т.е. на производительность труда, имеет сильную связь с трудоемкостью единицы продукции (Х4 = - 0,80), что свидетельствует о наличии мультиколлинеарности1.




  • Отрицательный знак коэффициента корреляции свидетельствует об отрицательной корреляции. То есть с увеличением трудоемкость единицы продукции уменьшается производительность труда.




  • Связь с средне годовой стоимостью основных производственных фондов (Х12= 0,70) менее тесная. Величины удельного веса покупных изделий (Х6=0,66) и средне годовой численности промышленно производственного персонала (Х11=0,66) имеют умеренную связь с переменным критерием (см. таблицу 3).




  • Связь премии и вознаграждения на одного работника в % к зарплате % (Х8=0,47) с производительностью труда достаточно слабая, так как коэффициент корреляции по модулю меньше 0,41.


^ Таблица 3.

Сила связи в зависимости от коэффициента корреляции2



Коэффициент корреляции

Сила связи

От ±0,81  до ±1,00

Сильная

От ±0,61  до ±0,80

Умеренная

От ±0,41  до ±0,60

Слабая

От ±0,21  до ±0,40

Очень слабая

От ±0,00  до ±0,19

Отсутствует




  • Матрица расчетных значений t –критерия

Таблица 4

N

1

2

3

4

5

6

Y1

1.00

6.42

4.18

2.58

4.21

4.65

X4

6.42

1.00

3.93

1.90

3.03

3.38

X6

4.18

3.93

1.00

0.23

3.48

2.95

X8

2.58

1.90

1.15

1.00

2.52

2.63

X11

4.21

3.03

3.48

2.52

1.00

10.501

X12

4.65

3.38

2.95

2.63

10.50

1.00


Критические значения t-pаспpеделения пpи 23 степенях свободы

веpоятность

t-значение

0.950

1.719


Все расчетные значения t- критерия больше tкр = 1,719 (α = 0,05; V= n-2=25-2=23), что свидетельствует о значимости коэффициентов корреляции.

^

Алгоритм пошагового регрессионного анализа с исключением переменных.



Шаг 1.

Оценки коэффициентов линейной регрессии

Таблица 4



Значения

Дисперсия

Среднее квадратическое отклонение

t– значение

Нижняя оценка

Верхняя оценка

1

9.93

3.45

1.86

5.34

6.71

13.15

2

-12.09

16.24

4.03

-3.00

-19.08

-5.11

3

2.70

5.79

2.41

1.12

-1.47

6.87

4

0.58

0.37

0.61

0.96

-0.47

1.63

5

0.01

0.00

0.01

0.92

-0.00

0.02

6

-0.00

0.00

0.00

-0.04

-0.00

0.00

Протокол множественной регрессии
По полученным результатам выборочное уравнение регрессии будет следующим:
y = 9.931-12.093 * x4 + 2.697 * x 6 + 0.582 * x8 – 0.000 * x11+ 0.006 * x12
На первом шаге множественный выборочный коэффициент детерминации

R2 = 0.752, что говорит о том, что 75,2% вариации у1 объясняется влиянием факторов х4, х6, х8, х11, и х12.

Теперь необходимо исключить из дальнейшего рассмотрения те факторные признаки, которые окажутся в нашей модели незначимыми. Для этого вначале нужно определить критическое значение t-статистики по таблице Стьюдента. В данном случае число испытаний есть число предприятий машиностроения (n=25) и соответственно число степеней свободы v=24. Так как при регрессионном анализе в уровень надежности y=0.95, следовательно, ά= 0,05. На основе этих данных по таблице ищем критическое значение t-статистики, равное 2,064. Поэтому будем последовательно исключать из рассмотрения те признаки, t-статистика которых является минимальной по модулю из приведенных, до тех пор, пока все признаки не будут значимыми, то есть их t-статистики не станут по модулю больше критического значения 2,064.

Итак, при первой регрессии минимальным по модулю является значение признака Х11=-0,04. Исключив этот признак из анализа, проведем новый регрессионный анализ и получим во следующей таблице в следующие данные:
Шаг 2.

Оценки коэффициентов линейной регрессии

Таблица 5



Значения

Дисперсия

Среднее квадратическое отклонение

t– значение

Нижняя оценка

Верхняя оценка

1

10.39

3.49

1.87

5.56

7.16

13.61

2

-13.97

15.08

3.88

-3.60

-20.67

-7.27

3

3.67

4.87

2.21

1.66

-0.14

7.48

4

0.94

0.33

0.57

1.66

-0.4

1.93

Протокол множественной регрессии
y = +10.388-13.973 * x4 + 3.667 * x6 + 0.944 *x8
На втором шаге множественный выборочный коэффициент детерминации

R2 = 0.716, что говорит о том, что 71,6% вариации у1 объясняется влиянием факторов х4, х6, х8, и х12.

Исключаем из рассмотрения те признаки, t-статистика которых является минимальной по модулю из приведенных, т.к их t-статистики по модулю меньше критического значения 2,064.

Исключаем признаки Х6 и Х8.

Шаг 3.

Оценки коэффициентов линейной регрессии

Таблица 6



Значения

Дисперсия

Среднее квадратическое отклонение

t– значение

Нижняя оценка

Верхняя оценка

1

14.16

0.97

0.98

14.39

12.47

15.85

2

-19.77

9.49

3.08

-6.42

-25.06

-14.47

Протокол множественной регрессии
y = + 14.156 – 19.767 * x4
На третьем шаге множественный выборочный коэффициент детерминации

R2 = 0.642, что говорит о том, что 64,2% вариации у1 объясняется влиянием факторов х4, х6, х8, и х12.

В результате этого этапа регрессионного анализа получаем два признака, которые оказались по модулю больше критического значения t-значения, т.е. являются значимыми.

Теперь надо рассмотреть четвертую таблицу второго круга регрессии и проанализировать некоторые данные из нее. При данной модели множественный R равняется 0,801 – именно такая доля дисперсии результативного признака обусловлена влиянием четырех факторных признаков. Стандартная ошибка равняется 5,011531406, что существенно меньше 10, и значит, полученная модель хорошо аппроксимирует исходные данные.

Наблюдаемое значение F-статистики, равно 202. Для проверки значимости уравнения регрессии, которое следует построить, необходимо найти критическое значение F-статистики. В этом случае ά= 0,05, а число степеней свободы : v= 5, v2=19. Fтабл(ά; v; v2) дает критическое значение 2,74. Таким образом, |Fнабл | > Fкр, следовательно, уравнение регрессии значимо.

В ходе проведенного исследования было, построено значимое уравнение регрессии со значимыми коэффициентами, которые хорошо аппроксимируют исходные данные.

Таким образом, мы получили что уравнение регрессии и коэффициенты регрессии значимы. Алгоритм пошагового регрессионного анализа с исключением переменных завершён.

Таким образом, окончательное выборочное уравнение регрессии:
y = + 14.156 – 19.767 * x4
Из уравнения регрессии следует, что увеличение на 1 долю трудоемкости единицы продукции на человека в час приводит к уменьшению производительности труда в среднем 19,767тыс. рублей с человека.
^

Список литературы





  1. Теория статистики : Учебник/ Под ред. проф. Р.А.Шмойловой. – М.: Финансы и статистика, 1996.

  2. Теория и метод статистики: Учебник/ А.А. Кауфман - 5-е изд., перераб. и дополн. - М.: Государственное издательство, 1928.

  3. Общая теория статистики: Учебник/Т.В.Рябушкин, М.Р.Ефимова, Ипатова, Н.И.Яковлева. - М.: Финансы и статистика, 1981.

  4. Корреляционный и регрессионный анализ Учебное пособие / Л.И. Трошин, В.С. Мхитарян, Москва 1981.

  5. Математическая статистика. Учебник./Под ред. А.М. Длина, М., «Высшая школа», 1975.



1 Мультиколлинеарность – это состояние, которое может иметь место при выполнении множественного регрессионного анализа, когда переменные-предикторы не являются независимыми, как это требуется, а коррелируют одна с другой. (Черчилль Г.А. Маркетинговые исследования. – СПб: Питер, 2001. – стр. 644).


2 Источник: Голубков Е.П. Маркетинговые исследования. – М.: «Финпресс»,2000 г, стр.245

Реклама:





Скачать файл (270.5 kb.)

Поиск по сайту:  

© gendocs.ru
При копировании укажите ссылку.
обратиться к администрации
Рейтинг@Mail.ru