Logo GenDocs.ru

Поиск по сайту:  

Загрузка...

Изучение характера связи между признаками двух случайных величин - файл 1.docx


Изучение характера связи между признаками двух случайных величин
скачать (67.4 kb.)

Доступные файлы (1):

1.docx68kb.17.11.2011 09:01скачать

содержание

1.docx

Международный университет природы, общества и человека «Дубна»

Кафедра высшей и прикладной математики


Курсовая работа по теории вероятностей на тему:

Изучение характера зависимости между признаками двух случайных величин.


Выполнила: студентка 2 курса группы 2132

Кафедры социологии и гуманитарных наук

Калинина Ирина Викторовна.

Проверила: доцент кафедры В и ПМ

Титкова Ирина Викторовна.



Постановка задачи

Даны 100 пар чисел: Xi ,Yi, i=1…N, N=100.

Значения Xi показывают, насколько экологическая обстановка в некоторых регионах благоприятна для постоянного проживания там людей. (Предполагается, что каждое значение — некоторый коэффициент, полученный при анализе данных экологической обстановки).

Величина Yi отражает интенсивность миграции населения некоторых регионов: объём оттока населения из них.

Задачей данной курсовой работы является изучение характера зависимости Yi от Xi. Для этого необходимо:

  1. В виде точечной диаграммы (в программе Excel) изобразить на плоскости точки (Xi; Yi).

  2. С помощью метода наименьших квадратов определить числа a, b такие, что прямая Y=aX+b наименее отклоняется от точек (Xi; Yi) в среднем квадратичном.

  3. Методом наименьших квадратов определить значения p, q, r такие, что парабола Y=pX² + qX + r наименее отклоняется от точек (Xi; Yi) в среднем квадратичном.

  4. Сравнить результаты, полученные в пунктах 2 и 3.

  5. При помощи сравнения статистик E1, E2, E3


E1=i=1N(Yi-Y)², E2= i=1N(Yi- AXi- B)² , E3= i=1N(Yi- PXi2- QXi- R)²,

где Y= 1Ni=1NYi, N — объём выборки,

Ответить на следующие вопросы:

  1. Подтвердилась ли гипотеза о том, что зависимость между Xi и Yi близка к линейной?

  2. Подтвердилась ли гипотеза о том, что зависимость между Xi и Yi близка к квадратичной?

  3. Какая из двух кривых — прямая или парабола — меньше отклоняется от точек выборки (Xi; Yi)?




Построение диаграммы рассеивания

Диаграмма рассеивания — это точки на плоскости, координаты которых соответствуют значениям случайных величин X и Y. Дана выборка (Xi; Yi), i=1…100.

X

Y

X

Y

X

Y

X

Y

87,308

214,714

93,664

219,296

66,085

245,922

71,267

238,541

55,861

249,938

50,755

250,667

72,935

226,812

54,46

239,428

79,724

235,462

69,653

240,745

52,28

230,868

60,271

251,586

65,084

268,649

70,174

247,605

71,364

239,148

80,536

221,786

66,354

244,699

82,958

236,012

86,156

198,226

52,285

265,597

78,156

235,029

84,218

219,783

59,303

250,319

83,583

231,816

68,521

219,405

64,936

256,197

61,438

258,219

99,62

204,694

86,856

220,46

68,881

253,868

62,737

220,327

83,541

221,682

78,778

244,139

74,841

239,003

79,079

249,419

75,672

244,184

65,656

239,856

61,796

240,113

57,464

244,057

75,866

244,728

57,046

239,339

85,365

226,336

87,739

232,597

75,324

231,957

74,529

228,691

80,538

229,377

56,03

253,703

81,578

238,906

87,452

222,019

53,787

238,315

73,897

257,941

99,948

214,454

98,764

201,342

63,673

256,137

86,835

216,257

57,721

255,17

99,022

192,852

73,369

234,791

79,34

222,482

98,89

191,078

93,88

202,638

56,711

247,006

95,336

195,444

73,809

250,012

92,188

223,564

82,378

238,909

75,849

235,017

60,436

229,246

61,017

233,448

59,134

242,45

86,343

230,156

84,78

231,591

55,648

250,085

86,193

219,392

97,716

208,284

90,164

208,865

85,429

214,42

88,102

214,766

51,609

242,306

76,519

226,327

52,177

262,115

63,116

244,499

51,657

254,059

77,641

231,861

84,003

252,601

96,407

206,273

69,235

236,439

89,475

228,704

81,373

228,098

76,614

241,409

50,317

247,928

82,73

216,52

53,469

254,71

91,662

211,786

73,496

235,474

99,642

212,535

97,208

212,94

96,449

214,481

82,442

229,419

81,985

237,391



Чтобы построить диаграмму рассеивания нужно отформатировать шкалу делений по оси абсцисс и ординат. Для нахождения соответствующего масштаба найдём

Xmin=50,317, Xmax=99,948

Ymin=191,078, Ymax=268,649

Размах выборки по X и Y определяется

|max X – min X | = 49,631

|max Y – min Y| = 77,412

Построим диаграмму рассеивания X и Y.




Диаграмма рассеивания наглядно демонстрирует, что (по большей части) чем лучше состояние окружающей среды того или иного региона, тем меньше отток населения из него.

Теперь вычислим выборочные параметры: выборочные средние , выборочные дисперсии Sx2, Sy2, средние квадратические отклонения Sx, Sy и найдём выборочный коэффициент корреляции по формуле

r=xy-x∙ySxSy.

Выборочные средние значения:


x=i=1100Xi100, y=i=1100Yi100

Выборочные дисперсии:

Sx2=100i=1100xi2-(i=1100xi)²

Sy2=100i=1100yi2-(i=1100yi)²

Средние квадратические отклонения:

Sx=Sx2

Sy=Sy2

Рассчитываем коэффициент корреляции:

r=xy-x∙ySxSy=-0,7832

Так как r ближе к 1, чем к 0, можно сделать вывод о том, что зависимость между X и Y достаточно тесная.




Нахождение коэффициентов и построение графика линейного приближения

Величины X и Y могут быть функционально зависимы, но по результатам измерений значений этих величин сложно установить вид фактической зависимости. Метод наименьших квадратов — один из важнейших способов оценки неизвестных величин по результатам измерений, содержащим случайные ошибки и нахождения зависимости между X и Y. Суть метода в том, что условием оценки является минимизация суммы квадратов отклонений выборочных данных от определяемой оценки.

Вычислим сумму квадратов отклонений точек прямой Y=aX+b от выборочных значений Y:

^ FA,B= i=1N(Yi-AXi-B)²

Необходимо взять такие A и B, чтобы F(A,B) достигала своего минимума как функция переменных А и В.

Минимум функции двух переменных должен удовлетворять необходимому и достаточному условию существования минимума. Необходимое условие экстремума функции нескольких переменных — равенство нулю частных производных первого порядка. Получаем систему уравнений:

^ FA'= -2i-1NYi-AXi-BXi=0,FB'= -2i-1NYi-AXi-B=0,

Раскроем скобки и получим следующее:

Ai=1100Xi+ NB= i=1100Yi Ai-1100Xi2+ Bi=1100Xi= i=1100XiYi

Введём замену:

i-1100Xi2=a, i=1100XiYi =c, i=1100Xi=b , i=1100Yi = d, N=100. Получим:

a∙A+b∙B=cA∙b+B∙N=d

Из этой линейной системы уравнений найдём А и В методом Гаусса, выполнив некоторые преобразования: А = -0,9337; В = 303,2533. Получим стационарную точку

(-0,9337;303,2533) для F(A;B).



Следующий шаг — проверка того, что в найденной точке выполняется достаточное условие минимума: второй дифференциал функции F(A;B) в точке (-0,9337;303,2533) должен представлять собой строго положительную квадратичную форму.

Для этого достаточно, чтобы существовали вторые частные производные функции F(A;B) по всем переменным, и величины ∆ = FAA''FBB''-FAB''2>0, FAA''>0 в точке

(-0,9337;303,2533).

Найдём вторые частные производные функции F(A;B) и ∆.

^ FAA''=2∙a>0, FAB''=2∙b>0, FBB''=2N=200, ∆=FAA''FBB''-FAB''2>0.

Так как ∆>0 то в точке (-0,9337;303,2533) минимум функции F(A;B). Поэтому уравнение прямой принимает вид: Y=-0,9337X+303,2533.

Построим график линейной регрессии.


Теперь определим коэффициент линейной регрессии ρyx. ρyx=А=-0,9337.

Можно применить это для вычисления коэффициента корреляции r:

r= ρyx∙SxSy=-0,7831

Как видно, это значение практически совпадает с тем, что мы вычислили ранее.



Нахождение коэффициентов и построение графика квадратичного приближения

Для нахождения формулы y = px² + qx + r построим функцию среднеквадратичного

отклонения F(p, q, r) = i=1N(Yi- pXi2- qXi- r)².

Найдём точку минимума функции трёх переменных F(p, q, r), которая находится среди стационарных точек этой функции (по необходимому условию минимума). Система для нахождения стационарных точек:

Fp'=-2i=1NXi2Yi- pXi2- qXi- r=0,Fq'=-2i=1NXiYi- pXi2- qXi- r=0Fq'=-2i=1NYi- pXi2- qXi- r=0.,

После преобразования уравнения примут вид:

ri=1100Xi+qi=1100Xi2+pi=1100Xi3=i=1100XiYi,rN+qi=1100Xi+pi=1100Xi2=i=1100Yi,ri=1100Xi2+qi=1100Xi3+pi=1100Xi4=i=1100YiXi2.

Произведём замену:

F=i=1100Xi4, E=i=1100Xi3, H=i=1100Xi2, J=i=1100XiYi, G=i=1100YiXi2, I=i=1100Xi, K=i=1100Yi

Перейдём к системе вида:

Ir+Hq+Ep=JNr+Iq+Hp=KHr+Eq+Fp=G

Эта система линейна относительно неизвестных p, q, r. Решив её методом Гаусса, найдём стационарную точку функции (p0, q0, r0).

p0=-0,0201q0=2,0717r0=194,9514

Теперь, используя достаточное условие, покажем, что функция F(p, q, r) имеет в этой точке минимум. Для этого выписываем второй дифференциал функции F(p, q, r).

d2Fp, q, r=Fpp''(dp)2+Fqq''(dq)²+Frr''dr²+2Fpq''dpdq+2Fpr''dpdr+2Fqr''dqdr

Найдём значения вторых частных производных в точке (p0, q0, r0):

Fpp''=2i=1Nxi4, Fqq''=2i=1Nxi2, Frr''=2N=200,Fpq''=2i=1Nxi3, Fpr''=2i=1Nxi2,Fqr''=2 i=1NXi.

Теперь необходимо доказать, что полученная квадратичная форма положительно определена:

d2Fp, q, r=Fpp''(dp)2+Fqq''(dq)²+Frr''dr²+2Fpq''dpdq+2Fpr''dpdr+2Fqr''dqdr

Воспользуемся для этого критерием Сильвестра. Его суть заключается в том, что для того, чтобы квадратичная форма была положительно определённой, необходимо и достаточно, чтобы все главные миноры матрицы этой формы были положительны.

∆=Fpp''Fpq''Fpr''Fpq''Fqq''Fqr''Fpr''Fqr''Frr'',

Так как

∆1=Fpp''>0 и ∆2=Fpp''Fpq''Fpq''Fqq''>0, то

d2Fp, q, r=Fpp''(dp)2+Fqq''(dq)²+Frr''dr²+2Fpq''dpdq+2Fpr''dpdr+2Fqr''dqdr>0.

Следовательно, уравнение квадратичной регрессии имеет вид

Y= -0,0201X²+2,0717X+194,9514

Построим график квадратичной регрессии




Графическое сопоставление линейной и квадратичной зависимостей


Построим на одном графике заданные точки, графики линейного и квадратичного приближений.




Нахождение статистик и их анализ. Вывод.

Используя следующие формулы, вычисляем статистики E1, E2, E3:

E1=i=1N(Yi-Y)², E2= i=1N(Yi- AXi- B)² , E3= i=1N(Yi- PXi2- QXi- R)²,

Где Y= 1Ni=1NYi, N — объём выборки,

E1=28606,5567; Е2=11060,4419; Е3=9500,8905.

Сравним статистики:

E1-E2E1∙100%=61,3359%

E1-E3E1∙100%=66,7877%

E2-E3E2∙100%=14,1002%


Показатели (1) и (2) характеризуют процент уменьшения статистик E2 и E3 относительно статистики E1, которую можно назвать базовой, а показатель (3) — процент уменьшения статистики E3 относительно E2.

Можно сделать следующие выводы:

  1. Гипотеза о том, что зависимость между Xi и Yi близка к линейной, подтвердилась, так как E1>E2.

  2. Гипотеза о том, что зависимость между Xi и Yi близка к квадратичной, также подтвердилась, так как E1>E3.

  3. Однако, сравнив статистики, получаем, что E2>E3. Отсюда следует, что параболическое приближение — наиболее точное.

  4. Коэффициент корреляции, равный -0,783, показывает, что связь между величинами Х и Y довольно тесная, как это и было видно на диаграмме рассеивания: за исключением отдельных точек, при улучшении состояния окружающей среды (увеличении Х) наблюдается тенденция уменьшения оттока населения из некоторых регионов в другие (уменьшение Y). Те самые отдельные точки – регионы, в которых объём эмиграционных потоков не столь явно связан с экологией.


Содержание

Постановка задачи2

Построение диаграммы рассеивания3

^ Нахождение коэффициентов и построение графика линейного приближения5

Нахождение коэффициентов и построение графика квадратичного приближения7

^ Графическое сопоставление линейной и квадратичной зависимостей9

Нахождение статистик, их анализ. Вывод10




Дата

ФИО студента

Подпись

22 декабря 2008 г.

Калинина Ирина Викторовна




Дата

ФИО преподавателя

Подпись

Оценка

22 декабря 2008 г.

Титкова Ирина Викторовна











Скачать файл (67.4 kb.)

Поиск по сайту:  

© gendocs.ru
При копировании укажите ссылку.
обратиться к администрации