Logo GenDocs.ru

Поиск по сайту:  


Загрузка...

Лекции - Эконометрика - файл 1.doc


Лекции - Эконометрика
скачать (275 kb.)

Доступные файлы (1):

1.doc275kb.03.12.2011 09:21скачать

содержание
Загрузка...

1.doc

  1   2
Реклама MarketGid:
Загрузка...
1. Этапы построения эконометрических моделей.

Эконометрика – наука, занимающаяся измерениями в экономике и построением моделей.

Э – раздел экономики, занимающийся разработкой и применением статистических методов для измерения взаимосвязи между экономическими переменными.

Объединяет совокупность методов и моделей, позволяющих на базе статистических методов и ЭММ-вания придавать количественное выражение качественным зависимостям.

Этапы:

*постановочный (формулируется цель исследования, отбор переменных, входящих в будущую модель. Цель – анализ исследуемого экономического явления, прогноз поведения экономических переменных, имитация развития объекта при различных значениях экзогенных переменных, выработка управленческих решений. Экзогенные переменные – задаются извне (Х), эндогенные переменные – задаются внутри (У). Н-р: Yi=a0+a1xi+ui, где ui – вектор отклонений, а0 и а1 – коэф-ты модели.),

*априорный (анализ информации известной до начала моделирования),

*параметризация (выбор вида функции: линейная, степенная, логарифмическая…),

*информационный (сбор статистических данных, выбор программного средства: MS EXCEL, STATISTIKA, GPSS, EVIEWS),

*идентификация модели (находятся значения коэффициентов, входящих в модель: а0, а1…),

*верификация модели (сопоставления реальных и модельных данных, проверка истинности и адекватности модели).
^ 2. Построение парной линейной регрессии методом наименьших квадратов.

Регрессионный анализ - установление форм корреляционных связей (вида функции регрессии). Наиболее часто функции регрессии оказываются линейными.

Для имеющейся зависимости Y от x построение линейной регрессии сводится к нахождению уравнения вида Y теор (Xi) = A+ + B+*Xi + епсилон i, где A+ - это а со звездочкой.

Это уравнение позволяет по заданным значениям фактора x получить теоретическое значение результативного признака (у). На графике линию регрессии представляют теоретические значения.

Согласно методу наименьших квадратов (МНК) неизвестные параметры А* и В* выбираются (соответственно, и линия проводится) таким образом, чтобы отклонение теоретических значений от реальных было минимальным. Выразим из уравнения регрессии ошибки (эпсилон) и возведем обе стороны в квадрат. Получим…



Суть метода наименьших квадратов заключается в поиске таких значений параметров (,) , которые минимизируют сумму квадратов регрессионных ошибок:

Эта функция является гладкой, выпуклой, значит производная любого порядка у нее существует и непрерывна. Неизвестными являются а и b. Найдем их. Согласно необходимому условию минимума функции приравняем ее частные производные к нулю, получим систему из двух уравнений:



Отсюда после преобразований получим систему нормальных уравнений для определения параметров регрессии:

a*n + b*Сум(xi)=cум(yi)

a*Сум(xi) + b*Сум(xi) в квадрате = cум(xi*yi),

Теперь, разделив обе части уравнений на n, получим систему нормальных уравнений в виде:

а + b*x средн = y средн

а*x средн + b* x cредн в квадрате = x*y средн,

где соответствующие средние определяются по формулам x ср = [Сум от i до n (xi)]/n , аналогично для каждого.

Из последнего уравнения выразим b: b= (x*y средн – y ср* x ср)/ (x в квадрате ср – x ср в квадрате).

Коэффициент b называется выборочным коэффициентом регрессии (или просто коэффициентом регрессии) Y по Х, он показывает, на сколько единиц в среднем изменяется переменная Y при увеличении переменная Х на одну единицу.

а= y ср – b* x средн

Параметр а может не иметь экономического содержания. Интерпретировать можно знак при параметре а. Если а > 0, то относит измен-е рез-та происходит медленнее, чем измен-е фактора.
^ 3. Построение линейной регрессии в MS Exсel. Входные и выходные параметры функции ЛИНЕЙН.

1. с помощью функции ЛИНЕЙН: рассчитывает статистику для ряда с применением метода наименьших квадратов, чтобы вычислить прямую линию, которая наилучшим образом аппроксимирует имеющиеся данные. Функция возвращает массив, который описывает полученную прямую. Поскольку возвращается массив значений, функция должна задаваться в виде формулы массива.

ЛИНЕЙН(известные_значения_y;известные_значения_x;конст;статистика)

Входные данные:

-Известные_значения_y — множество значений y, которые уже известны для соотношения y = mx + b.

-Известные_значения_x — необязательное множество значений x, которые уже известны для соотношения y = mx + b.

-Конст — логическое значение, которое указывает, требуется ли, чтобы константа b была равна 0.

-Статистика — логическое значение, которое указывает, требуется ли вернуть дополнительную статистику по регрессии.

Выходные данные (в виде таблицы):

(значение b)

(значение а)

SEn (Стандартные значения ошибок для коэффициентов m1,m2,...,mn.)

SEn-1

R2 (Коэффициент детерминации.)

SEу (Стандартная ошибка для оценки y.)

F (критерий Фишера)

Df (Степени свободы.)

SSper (Регрессионная сумма квадратов.)

SSост (Остаточная сумма квадратов.)

-выделяем 5 строк и 2 столбца

-Fx – мастер функций, статистич., ЛИНЕЙН.

известные знач-я Y – (#С2:С8).

Известные знач-я Х – (#В2:В8).

Const – (1-истина/0-ложь)

Статистика (1/0)

Ок…

^ -F2 CTRL+SHIFT+ENTER

2. сервис, анализ данных, регрессия.

а) активизируем пакет стат анализа: сервис, надстройки, пакет анализа, Ок…

б) сервис, анализ данных, регрессия:

Вх интервал Y

Вх интервал Х

Ок…
^ 4. Оценка существенности параметров уравнения регрессии.

Когда найдено уравнение линейное регрессии, то проводится оценка значимости уравнения в целом и отдельных его параметров. Оценка значимости уравнения в целом дается с помощью F-критерия Фишера: выдвигается гипотеза, что коэф-нт регрессии =0 (b=0) след-но X не оказывает влияние на Y. Расчету F-критерия предшествует анализ дисперсии. Делается разделение общей ∑ квадратов отклонений переменной Y от среднего значения Y на 2 части – «объясненную и необъясненную»: ∑(Yi-Yср)2= ∑(Yтеор(X1)-Yср)2+∑(Yтеор(Xi)-Yi)2, те общей ∑ квадратов отклонений =∑ квадратов отклонений(объясненная регрессия)+остаточная ∑квадратов отклонений. Общая ∑ квадратов отклонений индивидуальных значений от среднего значения вызвана влиянием множества причин. Если нет влияния рассматриваемого фактора, то линия регрессии параллельна оси OX, остаточная ∑квадратов отклонений означает прочие и неучтенные факторы. ∑ квадратов отклонений связана с числом степеней свободы(Degrees of freedom) – это число независимо варьирующих признаков, влияющих на соответствующую ∑ квадратов отклонений. Общая ∑ квадратов отклонений имеет число степеней свободы (n-1). Yср=(Y1+Yn)/n. Для остаточной ∑квадратов отклонений число степеней свободы = (n-2). Если соответствующая ∑квадратов отклонений разделить на соответствующую ∑ степеней свободы, то получится дисперсия(D) на 1 степень свободы. ∑квадратов отклонений объясн регрессии - число степеней свободы=1. Dобщ=∑(Y-Yср)2/( n-1), Dфакт=∑(Yтеор(X1)-Yср)2/1, Dостат=∑(Yтеор(Xi)-Yi)2/(n-2). Fкритерий Фишера F=Dфакт/Dост. Если гипотеза справедлива, то Dфакторн=Dост, но для гипотезы необходимо опровержение этого, те Dфакт>Dост. Есть таблицы критических значений Fкритерий-это макс величина отношения дисперсии для данного уровня вероятности. Если Fфакт> Fтабл, то Ур-е регрессии является значимым (гипотеза отклоняется) и наоборот(гипотеза не может отклониться без существенного риска). Можно говорить о значимости не только уравнения в целом, но и его параметров. Для этого определяется их стандартная ошибка. Yтеор=a(альфа)+b(бетта)*xi. Ma- среднее квадратическое отклонение а от альфы и Mb-соотв. Tфактор=a/Mа>табл, то является значимым. Ma=корень квадратный из ∑(Yтеор(Xi)-Yi)2/(n-2)* ∑x2/[n*∑(x-xср)2]; Mb=корень квадратный из ∑(Yтеор(Xi)-Yi)2/(n-2)*1/ ∑(x-xср)2

∑(Yтеор(Xi)-Yi)2=Sост в квадрате

Коэффициент Мb* определяет наклон прямой регрессии.
5. Интервалы прогноза по линейному уравнению регрессии. Построение доверительных интервалов.

yтеор (хр)=a*+(b*)*хр (1)

Для каждой точки на линии регрессии можно построить доверительные интервалы с вероятностью р=1-=0,95, так, что они будут лежать в этих интервалах.

yтеор (хср)=a*+(b*)*хср (2)

Линия регрессии проходит точно через т. (хср;yср).

a*= yср - (b*)*xср (3)

Подставляем в (1): yтеор (хр)= yср + (b*)* (хр- xср).

Цель: выяснить дисперсию этого значения

m2 yтеор (хр)=D yтеор (хр)= D yср + D((b*)*(хр- xср)) - cov(yср + (b*)* (хр- xср)), где m – среднеквадратич отклонение. Если переменные неизменны, cov=0.

cov (x;y)=(i от 1 до n (xi-xср)*(yi-yср))/n.

m2 yтеор (хр)= D yср+(xр-xср)2*Db*= m2 ycр+ (m2 b*)*((xр-xср)2

m2 ycр  2yср/n  S2ост/((n-2)*n) ------- оценка

m2 b*2yср*1/(i от 1 до n (xi-xср)2) S2ост/((n-2)*(i от 1 до n (xi-xср)2)

myтеор (хср)=Корень квадр из (S2ост/(n-2))*корень квадр из (1/n+(xр-xср)2/(i от 1 до n (xi-xср)2)).

Для среднеквадратич отклонения точки, лежащей на линии регрессии на оси абсцисс т.х прогнозное.

txp = (yтеор (хр)--*xp)/ myтеор (хр) – распределена по закону Стьюдента

(число степеней свободы для парной линейной регрессии)=n-2.

=0,05, 1-=0,95

Р((yтеор (хр)--*xp)/ myтеор (хр) < t/2,n-2)=1- 

Р(yтеор (хр)--*xp t/2,n-2* myтеор (хр))=1- , где t/2,n-2* myтеор (хр) – радиус интервала.

y - центр<радиуса

y(центр –R, центр +R)

yтеор (хр) - t/2,n-2* myтеор (хр) < +*xp < yтеор (хр) + t/2,n-2* myтеор (хр)

a*+(b*)*хр - t/2,n-2* Корень квадр из (S2ост/(n-2)*корень квадр из (1/n+(xр-xср)2/(i от 1 до n (xi-xср)2)) < +*xp < a*+(b*)*хр + t/2,n-2* Корень квадр из (S2ост/(n-2)*корень квадр из (1/n+(xр-xср)2/(i от 1 до n (xi-xср)2)), где самая левая часть нижняя доверит граница, а самая правая – верхняя доверит граница.

Замечание 1: хр=хср – самый узкий коридор, чем дальше хр удаляется от хср, тем интервал будет шире (это плохо).

Замечание 2: это неравенство записано для точек, лежащих на линии регрессии, такое же неравенство можно записать для фактических точек, расположенных от линии регрессии на 2y=S2ост/(n-2).

То же самое неравенство только в середине yиндив(хр) и под вторым корнем будет 1+1/n…
^ 6. Парная нелинейная регрессия. Оценка параметров.

Для оценки параметров нелинейных моделей используются два подхода. Первый подход основан на линеаризации модели и заключается в том, что с помощью подходящих преобразований исходных переменных исследуемую зависимость представляют в виде линейного соотношения между преобразованными переменными.

Для линеаризации модели в рамках первого подхода могут использоваться как модели, нелинейные по переменным, так и нелинейные по параметрам.

Если модель нелинейна по переменным (по объясняющим переменным х), то введением новых переменных ее можно свести к линейной модели, для оценки параметров которой можно использовать обычный метод наименьших квадратов. Н-р: полиномиальная, обратная.

Более сложной проблемой является нелинейность модели по параметрам (по оцениваемым коэф-там), т.к. непосредственное применение метода наименьших квадратов для их оценивания невозможно. К числу таких моделей можно отнести, н-р, мультипликативную модель, экспоненциальную модель. В ряде случаев путем подходящих преобразований эти модели удается привести к линейной форме, н-р логарифмированием.

Второй подход обычно применяется в случае, когда подобрать соответствующее линеаризующее преобразование не удается. В этом случае применяются методы нелинейной оптимизации на основе исходных переменных.
^ 7. Множественная регрессия. Отбор факторов при построении множественной регрессии.

Множественная регрессия(МР) широко используется в решении проблем спроса, доходности акций, издержек пр-ва и других вопросах. Основная цель МР- построить модель с большим числом факторов, определив при этом влияние каждого из них в отдельности, а также их совокупное воздействие на моделируемый показатель.

Yi=Yteor(x1i;x2i )+ei Yteor(x1i;x2i )=a* +b1x1*+b2*x2i (+...bp*xpi)

S(a* b1* b2*)=n i=1∑( yi-a- b1x1- b2x2i)2→min a, b1,b2. a a*,b1*,b2*-решение задачи.

Решение задачи следует из условия минимума функций многих переменных. Производная в точке минимума д.б. равна 0.

(1)∂s/∂a(a*;b1*;b2*)=2∑(ayi-a*-b1*x1i- b2*x2i)(-1)=0; (x2)=2x; (-x)1=-1; (c)1=0

(2)∂s/∂b1(a*;b1*;b2*)=2∑(yi-a*-b1*x1i-b2*x2i)(-x1i)=0; (cx)1=c

(3)∂s/∂b2(a*;b1*;b2*)=2∑(yi-a*-b1*x1i-b2*x2i)(-x2i)=0; *(-1)

(1);(2);(3)-система нормальных уравнений.

∑Yi= a*(∑1)+ b1*(∑x1i)+ b2*(∑x2 i); (∑1)=n

∑(Yix1i)= a*∑x1i+ b1*∑x1i2+ b2*∑(x2ix1i)

∑(Yix2i)= a*∑x2i+ b1*∑(x1i x2 i)+ b2*∑x2 i2

∑Yi

d=∑(Yix1i)

∑(Yix2i)

n; ∑x1i; ∑x2 i;

A=∑x1i; ∑x1i2; ∑x2ix1i;

∑x2i; ∑x1i x2 i; ∑x2 i2;

a*

x=b1*

b2*

d=A*x; A-1; A-1d=x

х и d – векторы, причем х- вектор неизвестных коэф-тов

1 шаг: сформировать матрицу А, сформировать столбец d,

2 шаг: сделать обратную матрицу,

3 шаг: полученную матр умножаем на матр умножаем на d, получаем х.

4 шаг: проверяем с помощью сервиса ан-з данных регрессия.

Замечание: также как в парной регрессии коэффициент ур-ия множественной регрессии м. вычислять 2-мя способами: 1.ч/з линейную ф-ю. 2.Сервис→ан данных→регрессия(более предпочтительный способ) коэффициенты вычисл-ся и располагаются более естественно.

Правило получения хорошей модели: 1) Fфакт> Fтабл. 2) вероятность или значение д.б.<0,05. Yтеор(Xi;X2i)=a*+b*Xi+b2*X2i+b3*X3i – наиболее точная.

Факторы, включенные во МР, должны отвечать следующим требованиям:

1 д.б. количественно измеримы. Если необходимо включить в модель качественный фактор, не имеющий кол-го измерения, то ему нужно придать количественную определенность(в модели стоимости объектов недвижимости учитывается место нахождения недвижимости, и районы м.б. проранжированы)

2. Факторы не д.б. интеркоррелированы и находиться в точной функциональной связи. Система нормальных уравнений м. оказаться плохо обусловленной и повлечет неустойчивость и ненадежность оценок коэффициентов регрессии если включаются в модель факторы с высокой интеркорреляцией , когда Ryx1<Rx1x2 для зависимости y=a+b1x1+b2x2+e. Если м/у факторами существует высокая корреляция, то нельзя определить их изолированное влияние на результативный показатель и параметры уравнения регрессии оказываются неинтерпретируемыми. Так в уравнении y=a+b1x1+b2x2+e. предполагается , что факторы x1, x2 независимы друг от друга, т.е. rx1x2=0. Тогда м. говорить, что параметр b1 измеряет силу влияния фактора x1 на результат у при неизменном значении фактора x2. Если же rx1x2=1, то с изменением фактора x1 фактор x2 не может оставаться неизменным. Отсюда b1 и b2 нельзя интерпретировать как показатели раздельного влияния x1 и x2 и на y.
^ 8. Матрица парных корреляций. Мультиколлинеарность.

По величине парных коэфф-тов корреляции обнаружи­вается явная коллинеарность факторов. Наибольшие труд­ности в использовании множественной регрессии - при наличии мультиколлинеарности факторов, когда бо­лее чем 2 фактора связаны между собой линейной зависимос­тью, т. е. имеет место совокупное воздействие факторов друг на друга. В результате вариация в исходных данных перестает быть полно­стью независимой, и нельзя оценить воздействие каждого факто­ра в отдельности. Включение в модель мультиколлинеарных факторов нежелательно в силу последствий:

• затрудняется интерпретация параметров множественной регрессии как характеристик действия факторов в «чистом» виде, ибо факторы коррелированы; параметры линейной регрессии теряют экономический смысл;

• оценки параметров ненадежны, обнаруживают большие стан­дартные ошибки и меняются с изменением объема наблюде­ний (не только по величине, но и по знаку), что делает модель непригодной для анализа и прогнозирования.

Для оценки мультиколлинеарности факторов может исполь­зоваться определитель матрицы парных коэффициентов корреля­ции между факторами.

Если бы факторы не коррелировали между собой, то матрица парных коэффициентов корреляции между факторами была бы единичной матрицей, поскольку все недиагональные элементы были бы равны нулю.

Если же, наоборот, между факторами существует полная ли­нейная зависимость и все коэффициенты корреляции равны еди­нице, то определитель такой матрицы равен нулю.

Чем ближе к нулю определитель матрицы межфакторной корреляции, тем сильнее мультиколлинеарность факторов и ненадежнее результаты множественной регрессии, и наоборот.

Через коэффициенты множественной детерминации можно найти переменные, ответственные за мультиколлинеарность факторов. Для этого в качестве зависимой переменной рассмат­ривается каждый из факторов. Чем ближе значение коэффициен­та множественной детерминации к единице, тем сильнее прояв­ляется мультиколлинеарность факторов. Сравнивая между собой коэффициенты множественной детерминации факторов можно выделить переменные, ответственные за мультиколлине­арность, следовательно, можно решать проблему отбора факто­ров, оставляя в уравнении факторы с минимальной величиной коэффициента множественной детерминации.

Существует ряд подходов преодоления сильной межфакторной корреляции. Самый простой путь устранения мультиколли­неарности состоит в исключении из модели одного или несколь­ких факторов. Другой подход связан с преобразованием факто­ров, при котором уменьшается корреляция между ними.

Одним из путей учета внутренней корреляции факторов является переход к совмещенным уравнениям регрессии, т. е. к уравнениям, которые отражают не только влияние факторов, но и их взаимодействие. Так, если у =f(x1, х2, х3), то возможно пост­роение следующего совмещенного уравнения: у = а+b1*x1+b2*x2+b3*x3+b12*x1*x2+b13*x1*x3+b23*x2*x3+e

Решению проблемы устранения мультиколлинеарности факторов может помочь и переход к уравнениям приведенной фор­мы.

Отбор факторов, включаемых в регрессию, является одним из важнейших этапов практического использования методов рег­рессии. Подходы к отбору факторов на основе показателей корреляции могут быть разные. Каждый из этих методов по-своему решает проблему отбора факторов, давая в целом близкие результаты — отсев факторов из полного его набора (метод исключения), дополнительное введе­ние фактора (метод включения), исключение ранее введенного фактора (шаговый регрессионный анализ)'.

На первый взгляд может показаться, что матрица парных ко­эффициентов корреляции играет главную роль в отборе факто­ров. Вместе с тем вследствие взаимодействия факторов парные коэффициенты корреляции не могут в полной мере решать во­прос о целесообразности включения в модель того или иного фактора. Эту роль выполняют показатели частной корреляции, оценивающие в чистом виде тесноту связи фактора с результа­том. Матрица частных коэффициентов корреляции наиболее широко используется в процедуре отсева факторов.
^ 9. Построение производственной функции Кобба-Дугласа в MS EXCEL.

- у нас имеются исходные данные: годы (или что-либо другое), У, К, L

- строим еще столбцы: lnYi, ln Ki, ln Li, Утеор

- Yтеор(Ki,Li)=A*Ki в степени альфа 1*Li в степени альфа 2

у теор(х1i,x2i)=а со звезд + b1 со звезд*х1i+b2 со звезд*х2i(1)

ln Yi=lnA+lnKi в степени альфа1+lnLi в степени альфа2

ln Yi=lnA+альфа1*lnKi+альфа2*lnLi(2)

Сравним (1) и (2): обозначим через а и b и получим уравнение множественной регрессии.

-сервис-анализ данных-регрессия: находим а со звезд =lnA, b1 со звезд=альфа1, b2 со звезд=альфа2

-подставляем и находим Утеор

Чтобы построить диаграмму нужно построить таблицу вида…

Ki /Li

5

25

45

10

5,25184766

19,25641

30,94933

40

7,254780778

26,60036

42,75269

70

8,265424355

30,30599

48,70845

100

8,981845819

32,93282

52,93035

130

9,548177635

35,00933

56,26777

-затем мастер диаграмм-поверхность-1
^ 10. Оценка параметров уравнения множественной регрессии (МР).

Оцениваются, как и в парной регрессии, методом наименьших квадратов (МНК). При его применении строится система нормальных уравнений, решение которой и позволяет получить оценки параметров регрессии.

Так, для уравнения y=a+b1*x1+b2*x2+…+bp*xp+E система нормальных уравнений составит:

∑y=n*a+b1*∑x1+b2*∑x2+…+bp*∑xp,

∑y*x1=a*∑x1+b1*∑x1^2+b2*∑x1*x2+…+bp*∑xp*x1,

………………………………………………

∑y*xp=a*∑xp+b1*∑x1*xp+b2*∑x2*xp+…+bp*∑xp^2.

Ее решение может быть осуществлено методом определителей:

a=∆a/∆, b1=∆b1/∆, …bp=∆bp/∆.

Где ∆ - определитель системы; ∆a, ∆b1,… ∆bp - частные определители

При этом:

n ∑x1 ∑x2 …. ∑xp

∑x1 ∑x1^2 ∑x2*x1… ∑xp*x1

∆= ∑x2 ∑x1*x2 ∑x2^2 … ∑xp*x2

…………………………….

∑xp ∑x1*xp ∑x2*xp ….∑xp^2
a ∆a, ∆b1…∆bp получаются путем замены соответствующего столбца матрицы определителя системы данными левой части системы.

Возможен иной подход к определению параметров, когда на основе матрицы парных коэффициентов корреляции строится уравнение регрессии в стандартизованном масштабе:

ty=B1*tx1+B2*tx2+…+bp*txp+E

Где ty, tx1…txp -стандартизованные переменные: ty=(y-y cp)/σy, tx1=(xi-xi cp)/σx1,

для которых среднее значение равно нулю: ty cp = txi =0,

a ср. квадратическое отклонение равно единице: σty= σtx =1;

β - стандартизованные коэффициенты регрессии.

Применяя МНК к уравнению МР в стандартизованном масштабе, после соответствующих преобразований получим систему нормальных уравнений вида

Ryx1=B1+B2*Rx2x1+B3*Rx3x1+…+Bp*Rxpx1,

Ryx2=B1*Rx2x1+B2+B3*Rx3x2+…+Bp*Rxpx2,

…………………………………………………………..

Ryxp=B1*Rxpx1+B2*Rxpx2+B3*Rx3xp+…+Bp.

Решая ее методом определителей, найдем параметры – стандартизованные коэффициенты регрессии (В-коэффициенты). Они показывают, на сколько сигм изменится в среднем результат, если соответствующий фактор хi изменится на одну сигму при неизменном среднем уровне других факторов. В силу того, что все переменные заданы как центрированные и нормированные, стандартизованные коэффициенты регрессии Вi сравнимы между собой. Сравнивая их друг с другом, можно ранжировать факторы по силе их воздействия на результат. В этом основное достоинство стандартизованных коэффициентов регрессии в отличие от коэффициентов «чистой» регрессии, которые несравнимы между собой.

Рассмотренный смысл стандартизованных коэффициентов регрессии позволяет их использовать при отсеве факторов - из модели исключаются факторы с наименьшим значением Вj
^ 11. Уравнение множественной регрессии в стандартизованном масштабе. Оценка коэффициентов вi (бэтта).

№ Х1i X2i X3i Yi tx1i =(X1i-X1cp)/σx1 tx2i tyi tyteor

….

Среднее =0

Ср кв отклонение (сигма)=1

Сигма i =Корень из (Сумм(X1i – X1 cp)^2) / (n-1)

C помощью преобразований tx1i среднее перешло в 0.

По правилу 3х сигм почти вся выборка находится в интервале (a-3σ; a+3σ)

Случайная величина, у которой a =0, σ =1, называется стандартизованной. Переменные отличаются формой графика. Т.е. для каждой стандартной переменной существует график, но они отличаются формой. Можно построить МР: в качестве У берем tу. Столбцы: tx1i, tx2i, tx3i

Параметры уравнения множественной регрессии оцениваются с помощью МНК. При его применении строится система нормальных уравнений, решение которого позволяет получить оценки параметров регрессии.

Иной подход к определению параметров множеств регрессии – на основе матрицы парных коэф-тов корреляции строится уравнение регрессии в стандартизованном масштабе: ty = B1*tx1 + B2*tx2 + B3*tx3 + 0,

Где t – стандартизованные переменные, например tx =( xi – xi ср)/ сигма хi, для которых среднее значение (tx средн) равно нулю (поэтому свободный член = 0), а среднее квадратическое отклонение (сигма) =1; B – стандартизованные коэф-ты регрессии.

Применяя МНК к уравнению множеств регрессии в стандартизованном масштабе, после преобразований получим систему вида

ry,x1 = B1 + B2*rx1,x2 + B3*rx1,x3

ry,x2 = B1*rx2,x1 + B2 + B3*rx2,x3

ry,x3 = B1*rx3,x1 + B2*rx3,x2 + B3

Из этой системы можно найти коэф-ты B . Они показ-ют на сколько сигм изменится в среднем рез-тат, если соответствующий фактор xi изменится на одну сигму при неизменном среднем уровне др факторов. В силу того, что все переменные B сравнимы между собой (в отличие от коэф-тов «чистой» регрессии), после этого сравнения можно ранжировать факторы по силе их воздействия на результат.
^ 12. Переход от уравнения множественной регрессии в натуральном масштабе к уравнению в стандартизованном масштабе и обратно.

На основе матрицы парных коэффициентов корреляции строится уравнение регрессии в стандартизованном масштабе:

ty=B1*tx1+B2*tx2+…+bp*txp+E

Где ty, tx1…txp -стандартизованные переменные: ty=(y-y cp)/σy, tx1=(xi-xi cp)/σx1,

для которых среднее значение равно нулю: ty cp = txi =0,

a ср. квадратическое отклонение равно единице: σty= σtx =1;

β - стандартизованные коэффициенты регрессии.

Применяя МНК к уравнению МР в стандартизованном масштабе, после соответствующих преобразований получим систему нормальных уравнений вида

Ryx1=B1+B2*Rx2x1+B3*Rx3x1+…+Bp*Rxpx1,

Ryx2=B1*Rx2x1+B2+B3*Rx3x2+…+Bp*Rxpx2,

…………………………………………………………..

Ryxp=B1*Rxpx1+B2*Rxpx2+B3*Rx3xp+…+Bp.

Решая ее методом определителей, найдем параметры – стандартизованные коэффициенты регрессии (В-коэффициенты). Для этого: сервис-анализ данных - корреляция, получаем матрицу парных корреляций А. Для трех уравнений с тремя неизвестными получается матрица 4*4. Последний столбец – d-столбец свободных членов. Для нахождения коэф-тов бета умножаем d-столбец на подматрицу А (3*3) с помощью функциии МУМНОЖ. Выделяем ячейки для получения вектора коэф-тов и заполняем их с помощью F2+CTRL+SHIFT+ENTER. Полученные коэф-ты вставляем в модель и получаем уравнение регрессии в стандартизованном масштабе.

В парной зависимости стандартизованный коэффициент регрессии есть ни что иное, как линейный коэффициент корреляции ryx. Подобно тому, как в парной зависимости коэффициенты регрессии и корреляции связаны между собой, так и во множественной регрессии коэффициенты «чистой» регрессии bi связаны со стандартизованными коэффициентами регрессии Bi , а именно:

bi=Bi*(σyxi)

Это позволяет от уравнения регрессии в стандартизованном масштабе

ty=B1*tx1+B2*tx2+…+Bp*txp

Переходить к уравнению регрессии в натуральном масштабе переменных:

y=a+b1*x1+b2*x2+…+bp*xp

Параметр а определяется как а=у-b1*x1-b2*x2-…-bp*xp
^ 13. Частные уравнения регрессии

На основе линейного уравнения множественной регрессии:

y = a + b1*x1 + b2*x2+…+bp*xp+, могут быть найдены частные уравнения регрессии:

yx1.x2,x3,…,xp = f(x1),

yx2.x1,x3,…,xp = f(x2),

………………………

yxp.x1,x2,…,xp-1 = f(xp),

т.е. уравнения регрессии, которые связывают результативный признак с соответствующими факторами х при закреплении других учитываемых во множественной регрессии факторов на среднем уровне. Частные уравнения регрессии имеют следующий вид:

yx1.x2,x3,…,xp = a + b1*x1 + b2*x2 с чертой наверху + b3*x3 с чертой …+bp*xp с чертой+,

yx2.x1,x3,…,xp = a + b1*x1 с чертой + b2*x2 + b3*x3 с чертой …+bp*xp с чертой+,

………………………………………………………………………………

yxp.x1,x2,…,xp-1 = a + b1*x1 с чертой + b2*x2с чертой +…+bp-1*xp-1 с чертой + bp*xp +,

При подстановке в эти уравнения средних значений соответствующих факторов они принимают вид парных уравнений линейной регрессии, т.е. имеем:

y с домиком (^) наверху x1..x2x3..xp = A1+b1*x1;

y с домиком (^) наверху x2..x1x3..xp = A2+b2*21;

………………………………………………….

y с домиком (^) наверху xp..x1x2..xp-1 = Ap+bp*xp;

где

A1= a + b2*x2 с чертой наверху + b3*x3 с чертой …+bp*xp с чертой,

A2= a + b1*x1 с чертой наверху + b3*x3 с чертой …+bp*xp с чертой,

……………………………………………………………………………..

Ap= a + b1*x1 с чертой наверху + b2*x2 с чертой …+bp-1*xp-1 с чертой.

В отличие от парной регрессии частные уравнения регрессии характеризуют изолированное влияние фактора на результат, ибо другие факторы закреплены на неизменном уровне. Эффект влияния других факторов присоединены в них к свободному члену уравнения множественной регрессии. Это позволяет на основе частных уравнений регрессии определять частные коэффициенты эластичности:

Эyxi=bi*(xi/y c^ наверху xi.x1x2…xi-1xi+1…xp), где

bi – коэффициент регрессии для фактора xi в уравнении множественной регрессии;

y c^ наверху xi.x1x2…xi-1xi+1…xp – частное уравнение регрессии.
^ 14. Частные коэффициенты корреляции.

Ранжирование факторов линейной МР м.б. – через стандартизованные коэффициенты регрессии (В-к-ты); для линейных связей – частные коэф-ты корреляции. При нелинейной вз/св - частные индексы детерминации.

Частные показатели корреляции широко используются при решении проблемы отбора факторов: целесообразность включения того или иного фактора в модель доказывается величиной показателя частной корреляции. Частные коэффициенты (индексы) корреляции характеризуют тесноту связи между результатом и соответствующим фактором при устранении влияния других факторов, включенных в уравнение регрессии, в основном их используют на стадии формирования модели. Показатели частной корреляции представляют собой отношение сокращения остаточной дисперсии за счет дополнительного включения в анализ нового фактора к остаточной дисперсии, имевшей место до введения его в модель. Пример: предположим. Что зависимость объема продукции от затрат труда х1 характеризуется уравнением:

Yx1= 27,5 + 3,5*х1, парный коэф-т корреляции ryx1 =0,58,

Подставив в это уравнение факт значение х1, найдем теоретические величины объема продукции Yx1 и величину остаточной дисперсии S2:

S2yx1=(yi-yxi)2/n,

Включив в уравнение регрессии дополнительный фактор х2 – техническую оснащенность производства, получим ур-ие регрессии вида:

Yx1x2=20,2 + 2,8*х1+ 0,2*х2.

Предположим, что S2yx1х2 = 3,7, а S2yx1=6. чем большее число факторов включено в модель, тем меньше величина остаточной дисперсии. Сокращение остаточной дисперсии за счет дополнительного включения фактора х2 составит 6-3,7=2,3. Чем больше доля этого сокращения в остаточной вариации до введения дополнительного фактора, т.е. в S2yx1, тем теснее связь между y и х2 при постоянном действии фактора х1. Корень квадратный из этой величины и есть индекс частной корреляции, показывающий в чистом виде тесноту связи y и х2. Следовательно влияние фактора х2 на рез-т y определяется по формуле:

ryx2.x1=корень квадр из (( S2yx1 - S2yx1х2)/S2yx1),

а чистое влияние х1:

ryx1.x2=корень квадр из (( S2yx2 - S2yx1х2)/S2yx2),

Если выразить остаточную дисперсию через показатель детерминации S2остат=2y*(1-r2). Соответственно формула примет вид:

ryx1.x2=корень квадр из (( S2yx2 - S2yx1х2)/S2yx2)= корень квадр из (1 - S2yx1х2/S2yx2)= корень квадр из(1-(1-R2yx1x2)/(1-r2yx2),

для х1: ryx2.x1= корень квадр из(1-(1-R2yx1x2)/(1-r2yx1),

Рассмотренные показатели частной корреляции принято называть коэффициентами (индексами) частной корреляции 1-го порядка, ибо они фиксируют тесноту связи двух переменных при закреплении одного фактора. Если рассматривается регрессия с числом факторов р, то возможно частные коэффициенты корреляции не только 1-го, но и 2-го, 3-го и .. (р-1) порядка, т.е. влияние фактора х1 можно оценить при разных условиях независимости действия других факторов:

ryx1.x2 - при постоянном действии фактора х2;

ryx1.x2х3 - … факторов х2,х3;

ryx1.x2…хр - … всех факторов.

В практических исследованиях предпочтение отдают показателям частной корреляции самого высокого порядка, т.к. они являются дополнением к уравнению множественной регрессии.
^ 15. Оценка надежности результатов множественной регрессии и корреляции. Частный Fxi.

С помощью F-критерия Фишера опред значимость уравнения множеств регрессии в целом, как и в парной регрессии.

(1) Fфакт=Dфакт/Dостат=(R2/1-R2 )*((n-m-1)/m); D-дисперсия факторная и остаточная. Dфакт-факторная сумма квадратов на одну степень свободы, Dостат-остаточная сумма квадратов на одну степень свободы. R2-коэф-т множественной детермин-ии. m-число параметров при переменных х (в линейной регрессии совпадает с числом включенных в модель факторов). n-число наблюдений.

С помощью F-критерия Фишера определяется значимость уравнения множеств регрессии в целом. Формула частного критерия Фишера: Fxi=(R2yx1...xm-R2yx1...xi-1; xi+1...xm)/(1- R2yx1...xm)*((n-m-1)/1); R2yx1...xm-коэффициент множественной детерминации для регрессии с полным набором факторов. R2yx1...xi-1; xi+1...xm-для уравнения множественной регрессии без включения в модель фактора xi. Частный F критерий построен на сравнении прироста факторной дисперсии, обусловленного влиянием дополнительно включенного фактора, с остаточной дисперсией на одну степень свободы по регрессионной модели в целом.

Если Fxi>Fтабл при α=0,05 (заданном) ν1=n-m-1; ν2=1, то включение i-го фактора статистически оправдано. Если Fxi<Fтабл –то не оправдано.

С помощью частного Fкритерия м. проверить значимость всех коэф-ов регрессии предлагая, что каждый соответствующий фактор xi вводился в ур-ие множественной регрессии последним.
^ 16. Множественная корреляция

Множественная корреляция оценивает уравнение множественной регрессии. Характеризует тесноту связи рассматриваемого набора факторов с исследуемым признаком (влияние факторов на результат).

Показатель множественной корреляции Мб найден как индекс множественной корреляции: Ryx1..xp=корень из (1- σ2ост/ σ2у), σ2y- общ дисперсия результативного признака, σ2ост- остаточная дисперсия для Ур-я y=f(x1…xp). Ryx1..xp Мб от 0 до 1, чем ближе к 1 тем теснее связь. Можно пользоваться следующей формулой индекса множественной корреляции при линейной зависимости: Ryx1..xp=корень из(∑βxi*ryxi). βxi-стандатизированные коэф-ты регрессии, ryxi- парные к-ты корреляции результата с каждым фактором.

Формула индекса множественной корреляции для линейной регрессии получило название линейного коэффициента множественной корреляции (совокупного коэф-та корреляции), который можно определить ч/з матрицу парных к-тов корреляции. Ryx1..xp=корень из (1- ∆К/ ∆К11). ∆К-опр-ль матрицы парных к-тов корреляции, ∆К11- опред-ль матрицы межфакт-й корреляции. Для Ур-я y=a+b1*x1+b2*x2

∆К= 1 rx1х2 rх1x3 rx1у ∆К11= 1 rx1х2 rх1x3
rх2x1 1 rx2х3 rx2у rх2x1 1 rx2х3

rх3x1 rx3x2 1 rx3у rх3x1 rx3x2 1

ryx1 rуx2 rуx3 1

Множественный коэф-т корреляции(rx1,x2=[∑(х1i-х1ср)*(х2i-х2ср)]/[корень из ∑(х1i-х1ср)^2*корень из ∑(х2i-х2ср)^2]
^ 17. Сравнение 2-х регрессий. Тест Чоу.

Пусть момент (период) времени t* сопровождается значительными изменениями ряда факторов, оказывающих сильное воздействие на изучаемый показатель уt. Чаще всего эти изменения вызваны изменениями в общеэкономической ситуации. Если исследуемый временной ряд вклю­чает в себя соответствующий момент (период) времени, то одной из задач его изучения становится выяснение вопроса о том, зна­чимо ли повлияли общие структурные изменения на характер этой тенденции.

Если это влияние значимо; то для моделирования тенденции данного временного ряда следует использовать кусочно-линейные модели регрессий, т. е. разделить исходную совокупность на две подсовокупности (до момента времени t* и после) и построить отдельно по каждой подсовокупности уравнения линейной регрессии (на рис. этим уравнениям соответствуют прямые (1) и (2)).

Если структурные изменения незначительно повлияли на характер тенденции ряда yt, то ее можно описать с помощью единого для всей совокупности данных уравнения тренда (прямая (3)).


Каждый из описанных выше подходов имеет свои положи­тельные и отрицательные стороны. При построении кусочно-ли­нейной модели происходит снижение остаточной суммы квадра­тов по сравнению с единым для всей совокупности уравнением тренда. Однако разделение исходной совокупности на две части ведет к потере числа наблюдений и, следовательно, к снижению числа степеней свободы в каждом уравнении кусочно-линейной модели.

Очевидно, что выбор одной из двух моделей (кусочно-линейной или единого уравнения тренда) будет зависеть от соот­ношения между снижением остаточной дисперсии и потерей числа степеней свободы при переходе от единого уравнения рег­рессии к кусочно-линейной модели.

^ Условные обозначения для алгоритма теста Чоу


№ уравне­ния


Вид урав­нения


Число наблюдений в совокуп­ности

Остаточная сумма квадратов


Число пара­метров в уравнении


Число степе­ней свободы остаточной дисперсии


Кусочно-линейная модель


(1)


Y=a1+b1*t


n1


C1ост


k1


n1 – k1


(2)


Y=a2+b2*t



n2

С2ост

k2


n2-k2


Уравнение тренда по всей совокупности


(3)


Y=a3+b3*t



n


С3ост


k3

nk3=(n1+n2)-k3

Тест ЧОУ предполагает расчет параметров уравнений трендов, графики ко­торых изображены на рис. прямыми (1), (2) и (3).

Выдвинем гипотезу о структурной стабильности тенден­ции изучаемого временного ряда.

Остаточную сумму квадратов по кусочно-линейной модели (Cкл ост) можно найти как сумму С1ост и С2ост:

Соответствующее ей число степеней свободы составит:

(n1-k1)+(n2-k2)=(n-k1-k2)

Тогда сокращение остаточной дисперсии при переходе от единого уравнения тренда к кусочно-линейной модели можно определить следующим образом: изм Сост=С3ост-Скл ост

Число степеней свободы, соответствующее изм Сост, будет равно:

n-k3-(n-k1-k2)=k1+k2-k3

Далее опре­деляется фактическое значение F-критерия по следующим дисперсиям на одну степень свободы вариации:

F факт=ДизмС/Дкл=(измСост:(k1+k2-k3))/(Скл ост:(n-k1-k2)

Если Fфакт>Fтабл, то гипотеза о структурной стабильности тенденции отклоняется, а влияние структурных изменений на динамику изучаемого показателя признают значимым. Выбираем кусочно-линейную модель.

Если Fфакт<Fтабл, то нет оснований отклонять гипотезу о струк­турной стабильности тенденции. Ее моделирование следует осу­ществлять с помощью единого для всей совокупности уравнения тренда.

Особенности применения теста Чоу:

1. Если число параметров во всех уравнениях (1), (2), (3) (см. рис. и табл. 5) одинаково и равно, то формула упро­щается: Fфакт=(измСост:k)/(Cкл ост:(n-2k))

2. Тест Чоу позволяет сделать вывод о наличии или отсутст­вии структурной стабильности в изучаемом временном ряде. Если Fфакт<Fтабл это означает, что уравнения (1) и (2) описыва­ют одну и ту же тенденцию, а различия численных оценок их па­раметров а1 и а2, а также b1 и b2 соответственно статистически не­значимы. Если Fфакт>Fтабл гипотеза о структурной ста­бильности отклоняется, что означает статистическую значимость различий оценок параметров уравнений (1) и (2).

3. Применение теста Чоу предполагает соблюдение предпо­сылок о нормальном распределении остатков в уравнениях (1) и (2) и независимость их распределений.
^ 18. Фиктивные переменные (ФП) в уравнении множественной регрессии (МР).

Иногда необходимо включить в модель фактор, имеющий качественную характеристику (пол, профессия). Т.к. эти переменные не поддаются количественной оценке им нужно присвоить им цифровые метки, т.е. преобразовать качественные переменные в количественные = «Фиктивные переменные», или «структурные переменные».





A

B

C

D

E

1

i

X1i возраст машины

X2i марка

Y к-во дней работы без ремонта

Yteor

2

1

1

Москвич

10




3

2

2

Жигули

150




..

..













21

20

10

Тойота

1000




Если (С2= «Москвич»;1; если (С2= «Жигули»;2;…()))). В новом столбце названия заменяются цифрами.

Сервис/анализ данных/регрессия – Находим У теор.

У теор (x1i,x2i) = a*+b1**x1i+b2**x2i…

Можно улучшить качество уравнения за счет введения дополнительных фиктивных переменных. Количество переменных = число градаций -1. Т.е. пусть марок машин 4. Тогда вводим 4-1 = 3 фиктивные переменные.

Х22i = 1,если марка=2

= 0, в противном случае;

Х23i=1,если марка = 3,

=0, в противном случае

Х24i = 1, если марка =4,

= 0, в противном случае.

Т.е. вместо столбца «С» вводим три новых столбца Х22i Х23i Х24i. Т.е. вместо второй переменной вводим три фиктивные переменные.

Y teor = a*+b1**x1i+b22**x22i+b23**x23i+b24**x24i.

Чтобы модель была хорошая, нужно, чтобы Fфакт был больше Fтабл, при £=0,05 и 1-£=0,95 при v1=m, v2=n-m-1

Если в регрессии получаются такие данные:

Р значения

У пересечение a* 0,02

Переменная 1 b1* 0,54

Переменная 2 b2* 0,06

Переменная 3 b3* 0,08

Переменная 4 b4*

То 1му коэффициенту можно верить с вероятностью 1-0,02= 0,98, 2й коэффициент незначим, т.к. вероятность очень низкая 1-0,54 = 0,46. Если все коэффициенты меньше 0,05, то модель хорошая.

Также для улучшения модели включаем логарифмы: вместо У теор находим ln У теор по той же формуле. Еще более точное значение можно получить:

ln У теор = a*+b1**x1i+b2**x2i+b3**x3+b4*x2i^2

Модель улучшается, когда значение Rквадрат (из таблицы регрессии) улучшается (приближается к 1), При этом значения У теор при фиктивных переменных приближены к реальным значениям.

Среди моделей с ФП наибольшими прогностическими возможностями обладают модели, в которых зависимая переменная у рассматривается как функция ряда экономических факторов xi и фиктивных переменных zi (отражают различия в формировании результативного признака по отдельным группам единиц совокупности, т.е. в результате неоднородной структуры пространственного или временного характера.)
^ 19. Системы одновременных (взаимозависимых, совместных) уравнений. Структурная и приведенная форма модели.

Структурная форма модели = система одновременных уравнений: одни и те же зависимые переменные в одних уравнениях входят в левую часть, а в др – в правую часть системы, т.е. одни и те же пременные (у) одновременно рассматриваются как зависимые в одних уравнениях, и как независимые в др.

СФМ содержит эндогенные (у-зависимые переменные, их число = числу ур-й в системе) и экзогенные переменные (х- предопределенные пер-е, влияющие на эндогенные, но независящие от них).

^ Простейшая СФМ имеет вид: система ур-й: у1=b12y2+a11x1+эпсилон1 и y2=b21y1+a22x2+эпсилон2.

СФМ позволяет увидеть влияние изменений любой экзогенной переменной на значения эндогенной. СФМ в правой части содержит коэф-ты: при у – bi, при х – aj, которые называются структурными коэф-ми модели. Все переменные выражены в отклонениях от среднего уровня, т.е. под х и у подразумевается, соответственно, х=х-хср, у=у-уср. Следовательно, нет свободных членов.

Т.к. использование МНК для оценивания стр-х коэф-тов невозможно (смещенные и несостоятельные оценки), СФМ преобразуется в ПФМ.

ПФМ представляет собой систему линейных функций эндогенных пер-х от экзогенных. Коэф-ты ПФМ представляют собой нелинейные функции коэф-тов СФМ. Для СФМ вида: система Ур-й: у1=b12y2+a11x1 и y2=b21y1+a22x2; ПФМ имеет вид: система Ур-й: у1=сигма11*х1+сигма12*x2 и y2=сигма21*х1+сигма22x2, где сигмаij выражена из aj и bi. Для примера найдем первое Ур-е из ПФМ. Выразим из первого Ур-я СФМ у2. у2=(у1-а11х1)/b12. Подставим значение у2 во второе Ур-е СФМ и получим: (у1-а11х1)/b12=b21у1+а22х2. Из данного равенства выражаем у1=[а11/(1-b12*b21)]*х1+[а22*b12/(1-b12*b21)]*х2. Пусть [а11/(1-b12*b21)]=сигма1, а [а22*b12/(1-b12*b21)]=сигма2, тогда получим Ур-е ПФМ вида у1=сигма11*х1+сигма12*x2 (первое Ур-е системы ПФМ). Аналогично находится второе Ур-е системы ПФМ.

ПФМ хотя и позволяет получить значения эндогенных переменных через значения экзогенных, аналитически уступает СФМ, т.к. в ней отсутствуют оценки взаимосвязей между эндогенными переменными.
  1   2



Скачать файл (275 kb.)

Поиск по сайту:  

© gendocs.ru
При копировании укажите ссылку.
обратиться к администрации
Рейтинг@Mail.ru