Logo GenDocs.ru

Поиск по сайту:  

Загрузка...

Лекции - Лекции по теории вероятностей и математической статистике - файл 1.doc


Лекции - Лекции по теории вероятностей и математической статистике
скачать (3589.5 kb.)

Доступные файлы (1):

1.doc3590kb.30.11.2011 08:36скачать

1.doc

1   2   3   4   5   6

^ Неравенство П. Л. Чебышёва и законы больших чисел

Неравенство Чебышёва.

 Пусть случайная величина X такова, что математическое ожидание её квад-
рата существует и конечно: M(X2).

 Тогда для любого 0 справедливо неравенство:

             P{|X|}.

Доказательство. Введём случайную величину Y:

0
Y
, если |X|
2, если |X|

Это дискретная случайная величина. Её закон распределения даётся двумя вероятностями:

P{Y0}P{|X|},
P{Y2}P{|X|};

её математическое ожидание равно: MY2P{|X|}.

Легко проверить, что YX2. В самом деле, если Y0, то неравенство очевидно; если Y2, то при этом |X|  X22. Отсюда: MYM(X2), что можно переписать в виде:

P{|X|}.

Неравенство Чебышёва записывают и в других формах. Например, применим его к случайной величине XMX, в предположении, что существует дисперсия DX:

P{|XMX|}.

Для противоположного события:

P{|XMX|}1.

Применим неравенство Чебышёва в последней форме к среднему арифметическому попарно некоррелированных случайных величин X1, X2,  , Xn c одинаковыми математическими ожиданиями MXia и одинаковыми дисперсиями DXi2:

1P{|a|}1, 0.

Перейдём здесь к пределу при n:

P{|a|}1, 0.

Мы получили так называемый закон больших чисел в форме Чебышёва.

  Закон больших чисел в форме Чебышёва

  Среднее арифметическое отличается от истинного среднего значения
a меньше сколь угодно малого 0 при достаточно большом числе наблюде-
ний с вероятностью, сколь угодно близкой к единице.

  Это утверждение кратко записывается так: a – и читается: " схо-
дится по вероятности к a."

В частности, закон больших чисел Чебышёва действует в схеме повторных независимых равноточных измерений без систематической погрешности любой физической величины a и оправдывает нашу интуитивную веру в среднее арифметическое как хорошее приближение для a. Мы получаем уверенность в том, что при достаточно большом числе измерений мы будем знать истинное значение измеряемой величины a сколь угодно точно со сколь угодно большой вероятностью. Однако закон больших чисел указывает лишь очень грубо, сколько наблюдений достаточно выполнить, чтобы добиться заданной точности: если мы хотим, чтобы P{|a|}1, достаточно произвести n наблюдений.

Из закона больших чисел Чебышёва следует закон больших чисел Бернулли.

  ^ Закон больших чисел в форме Бернулли.

  Относительная частота  события A сходится по вероятности к вероят-
ности p события A: P{|p|}1 для 0.

Действительно, пусть проведено n независимых опытов, в которых событие A произошло m раз. Введём случайные величины

1
Xi
, если событие Ai произошло,
0, если событие Ai не произошло.

Это дискретные случайные величины, причём:

MXi1p0(1p)p, MXi212p02(1p)p, DXiM(Xi2)(MXi)2pp2pq,
(XiX2Xn).

Выполнены условия закона больших чисел Чебышёва, в котором ap, 2pq. Поэтому:  p.

Закон больших чисел в форме Бернулли даёт обоснование нашей интуитивной веры в относительную частоту как приближение для вероятности: как бы ни было мало 0, для достаточно большого числа наблюдений n относительная частота события ^ A бу­дет отличаться от его вероятности p меньше этого  с вероятностью, как угодно близкой к единице.

Возможно нам хотелось бы большего, а именно: p. Но так много теория вероятностей дать не может. И это по существу! Например, при бросании монеты ничто не мешает ей всё время выпадать решкой, а для подобной серии испытаний относительная частота гербов равна нулю. Нетрудно также построить серию испытаний, для которой  принимает любое заданное значение на отрезке [0, 1], либо не существует. Тем удивительнее усиленный закон больших чисел, доказанный Борелем.

  ^ Усиленный закон больших чисел (Борель).

  Предел относительной частоты  события A существует и равен вероят-
ности p этого события почти наверное: P{p}1.

Связь относительной частоты и вероятности позволяет дать ещё одну мотивировку принятого в теории вероятностей определения математического ожидания и его толкования как среднего значения. Пусть дискретная случайная величина X с возможными значениями xk и вероятностями pk наблюдается n раз независимым образом; пусть частота xk равна mk, Среднее арифметическое этих наблюдений равно

xkmkxk.

Можно думать, что истинное среднее мы получим, сделав бесконечно много наблюдений, а относительные частоты при этом почти наверное будут равны вероятностям pk. Это и даёт для истинного среднего выражение xkpk, т. е. MX.


Характеристические функции и моменты

До сих пор мы задавали случайные величины законом распределения. Характеристическая функция – ещё один способ представления случайных величин.

Пусть ^ X – случайная величина. Её характеристической функцией f(t) назовём математическое ожидание случайной величины eitX:

f(t)MeitX,

где под комплекснозначной случайной величиной eitX мы понимаем комплексное число eitXcostXisintX, а

M(eitX)M(costX)iM(sintX);

независимая переменная t имеет размерность X1.

Характеристическая функция – преобразование Фурье-Стилтьеса функции распределения:

f(t)eitxdF(x).

В непрерывном случае f(t) – преобразование Фурье плотности вероятности:

f(t)eitxp(x)dx.

Если f(t) абсолютно интегрируема, то обратное преобразование Фурье позволяет восстановить плотность p(x) по характеристической функции:

p(x)eitxf(t)dt.

В дискретном случае:

f(t)eitxkpk.

Особо отметим дискретные случайные величины с целочисленными значениями, например, при xkk:

f(t)eitkpk;

здесь f(t) – ряд Фурье в комплексной форме, вероятности pk играют роль коэффициентов Фурье и легко восстанавливаются по f(t):

pkeiktf(t)dt.

В общем случае восстановление закона распределения по характеристической функции тоже возможно, но более сложно.

Важнейшим свойством характеристической функции, сделавшим её одним из главных инструментов современной теории вероятностей, оказалось то, что при суммировании независимых случайных величин их характеристические функции перемножаются: если X и Y независимы, то для случайной величины ZXY: fZ(t)fX(t)fY(t).

Действительно,

fZ(t)M(eitZ)M(eit(XY))M(eitXeitY)M(eitX)M(eitY)fX(t)fY(t).

Законы распределения при суммировании независимых слагаемых ведут себя гораздо сложнее. Например, в непрерывном случае по свойству преобразования Фурье произведению характеристических функций соответствует свёртка плотностей:

pZ(z)pX(x)pY(zx)dx.

Если YaXb, то

fY(t)M(eit(aXb))eitbM(eitaX)eitbfX(at).

Другим важным свойством характеристических функций является их простая связь с моментами.

  ^ Начальным моментом порядка k называется mkM(Xk).

  Центральным моментом порядка k называется kM[(XMX)k].

В частности, MXm1, DX2. Отметим также, что m01, 01, 10.

Предполагая возможность дифференцирования под знаком математического ожидания в равенстве f(t)MeitX, получим: f(k)(t)ikM(XkeitX).

При t0: f(k)(0)ikM(Xk)ikmk  mkf(k)(0).

Таким образом, характеристическая функция позволяет заменить интегрирование при вычислении моментов дифференцированием.

В частности,

MXm1f(0), DXm2m12f(0)[f(0)2].

Если характеристическая функция f(t) разлагается в ряд Маклорена, то

f(t)f(k)(0)tk(it)k,

и, если моменты существуют, то они однозначно определяют f(t), т. е. закон распределения случайной величины X. Таким образом, совокупность начальных моментов также может задавать случайную величину.

  Центральные моменты просто связаны с начальными:

          kM[(XMX)k](1)kjmjm1kj, k2, 3,  .

  Обратно: начальные моменты mk можно вычислять, зная центральные мо-
менты k и математическое ожидание m1:

          mkM{[(XMX)MX]k}jm1kj, k2, 3,  .

Характеристическую функцию определяют также и для n-мерной случайной величины (X1, X2, ,  , Xn):

f(t1, t2, ,  , tn)M(expi(t1X1t2X2tnXn)).

Например, для n-мерного нормального закона:

f(t1,  , tn)exp[i(t1X1tnXn)(xa)TD1(xa)]dx1dxn
exp(iaTttTDt),

где a и t задаются как столбцы, в чём можно убедиться, осуществляя преобразования, описанные в теореме ^ 18.

Вычисление f(t), MX и DX для основных распределений

1. XB(n, p).

f(t)eiktpkqnk(peitq)n.

Небольшое упражнение на дифференцирование даёт:

MXf(0)np, DXf(0)[f(0)2]npq.

2. X().

f(t)eikte(eit)kexp[(eit1)].

Отсюда сразу найдём: MX, DX.

3. XR(a, b).

f(t)eitxdx(eitbeita).

Отсюда находим: MX, DX.

4. XExp().

f(t)eitxxdx.

Из этого равенства: MX, DX.

5. XN(0, 1).

f(t)dx.

Примем во внимание, что eitxcostxisintx:

f(t)costxdxsintxdx.

Второй из этих интегралов равен нулю, так как его подынтегральная функция нечётна. Ввиду чётности подынтегральной функции первого интеграла:

f(t)costxdx.

Обозначим: J(t)costxdx.

Очевидно,

J(t)xsintxdxsintx;

интегрируем по частям:

J(t)sintxtcostxdxtJ(t).

Таким образом, J(t)tJ(t), причём J(0).

Решение этого дифференциального уравнения находится без труда:

J(t)costxdx.

Окончательно: f(t).

Отсюда для XN(a, ): f(t) и сразу же находим: MXa, DX2.

По поводу характеристической функции нормального закона можно заметить интересное его свойство:

сумма независимых нормально распределённых случайных величин распределена по нормальному закону.

Действительно. Пусть X и Y независимые случайные величины, причём, XN(a1, 1), YN(a2, 2), а ZXY.

Характеристические функции X и Y: fX(t), fY(t).

Для характеристической функции Z имеем:

fZ(t)fX(t)fY(t)exp[i(a1a2)tt2],

но это означает, что ZN(a1a2, ).

Аналогичным свойством обладают и независимые пуассоновские случайные величины:

сумма независимых случайных величин, распределённых по закону Пуассона, распределена по закону Пуассона.

В самом деле, если X(1), X(2), то

fX(t)exp[1(eit1)], fY(t)exp[2(eit1)],

поэтому характеристическая функция случайной величины ZXY:

fZ(t)fX(t)fY(t)exp[(12)(eit1)],

но это значит, что Z(12).

Законы, сохраняющиеся при сложении независимых случайных величин, называются безгранично делимыми. Нормальный и пуассоновский – примеры таких законов.

6
p(x)
. X(, ). Здесь:

x1ex, если x0,
0, если x0.

Найдём характеристическую функцию гамма-распределения. Имеем:

f(t)x1ex(it)dx.

Положим в интеграле x:

f(t)z1ezdz,

где интегрирование проводится по бесконечному лучу L, выходящему из начала координат и проходящему через точку it. Можно доказать, что этот интеграл равен (). Поэтому: f(t).

Сравнивая характеристические функции гамма-распределения и экспоненциального распределения, можно сделать следующий вывод:

сумма k независимых экспоненциальных слагаемых XiExp() распределена по закону (k, ).

––

Иногда в сокращённых курсах теории вероятностей тему "характеристические функции" исключают. Принимая это во внимание, дадим независимый от этой темы вывод значений MX и DX основных распределений.

1. XB(n, p).

В
Xi
ведём вспомогательные случайные величины:

1, если в i-ой попытке произошёл "успех",
0, если в i -ой попытке произошла "неудача".

Очевидно,

MXip, M(Xi2)12p02qp, DXipq.

Кроме того, XXi, причём слагаемые здесь независимы. Поэтому:

MXMXinp, DXDXinpq,

2. X().

Продифференцируем по  тождество e1: kee0, откуда:

ke.                       ()

Продифференцируем () по  ещё раз: k2eke1, или:

k2e2.                           ()

Из (): MX; из () и (): DXM(X2)M(X)2(2)2.

3. XR(a, b).

MXxdx; DX(x)2dx.

4. XExp().

Рассмотрим интеграл: Iexdx. Дважды продифференцируем его по параметру : xexdx, x2exdx.

Поэтому:

MXxexdx, M(X2)x2exdx, DXM(X2)M(X)2.

5. XN(a, ).

Найдём математическое ожидание X:

MXxdx.

Положим в интеграле y и представим его как сумму двух интегралов:

MXdyydy  MXa.

Вычислим дисперсию:

DX(xa)2dx.

Замена переменной y приводит интеграл к виду

DXy2dyxdy  DX2.


Предельные теоремы

1. Локальная теорема Муавра-Лапласа.

Теорема Муавра-Лапласа устанавливает условия, при которых биномиальную случайную величину можно приближённо рассматривать как нормальную.

  Пусть XB(n, p). При n и любых фиксированных a и b, ab:

          pmqnmexp[] *)

для любых m, удовлетворяющих неравенствам: ab.

Доказательство. Доказательство теоремы основывается на формуле Стирлинга: при n: n!nnen.

Введём величину y  mnpy  nmnqy.

Величина y по условию оказывается ограниченной. Пусть n, а m рассматриваем лишь такие, при которых ayb. Тогда:

pmqnmpmqnm
(1y)m(1y)nm
exp[(m)ln(1y)(nm)ln(1y)]
exp[(npy)(yy2)
                        (nqy)(yy2)]

отбрасываем в показателе экспоненты бесконечно малые величины выше второго порядка:

exp(yy2qy2yy2py2),

что и требовалось доказать.

Таким образом, при больших n, умерено больших m и фиксированном p (0p1) можно приближённо заменять биномиальное распределение нормальным: B(n, p)N(np, ).

Ошибка приближения зависит от того, достаточно ли велико n, не слишком ли близко p к 0 или к 1 и каково интересующее нас значение m. Эта ошибка в настоящее время хорошо изучена и оценена; при необходимости всю нужную информацию можно найти в литературе.

2. ^ Интегральная теорема Муавра-Лапласа.

  Пусть XB(n, p). Тогда при n и любых фиксированных a и b, ab:

          P{ab}dy.

Доказательство.  Обозначим: ym. Имеем:

P{ab}pmqnm

но для всех m, по которым нужно суммировать, выполнена локальная теорема Муавра-Лапласа, так что:



соседние точки суммирования ym находятся друг от друга на расстоянии ym
ym+1ym. Поэтому, в соответствии с определением определённого интеграла:

ymdy. 

Теорема Муавра-Лапласа позволяет уточнить связь относительной частоты и вероятности. Поскольку абсолютная частота m события A, имеющего вероятность p, распределена по биномиальному закону B(n, p), то

P{|p|}P{p}P{}
dy().

По этой формуле можно приближённо находить вероятность  заданного отклонения относительной частоты от вероятности, вычислять необходимое число опытов n, при котором с данной вероятностью  указанное отклонение не превышает . Исходное уравнение выглядит так: ().

3. ^ Центральная предельная теорема.

Переформулируем интегральную теорему Муавра-Лапласа, введя вспомогательные случайные величины, связанные со схемой Бернулли:

1
Xi
, если в i-ом испытании произошёл "успех",
0, если в i-ом испытании произошла "неудача".

Тогда SnXim, и MSnMXinp, DSnDXinpq, и теорему Муав­ра-Лапласа можно сформулировать так:

P{ab}dy,

т. е. центрированная и нормированная сумма Sn достаточно большого числа случайных величин Xi приближённо распределена по стандартному нормальному закону. Оказалось, что аналогичное утверждение верно для весьма широкого класса слагаемых, и центральная предельная теорема указывает точные ограничения (оказавшиеся весьма слабыми), которые нужно наложить на слагаемые, чтобы их центрированная и нормированная сумма в пределе была распределена по стандартному нормальному закону. Грубо говоря, смысл этих ограничений состоит в том, что слагаемые случайные величины должны быть бо­лее или менее равноправны. Именно центральная предельная теорема приводит, например, к тому, что большинство физических измерений приводят к нормально распределённым результатам: на результат отдельного измерения накладываются многие мелкие факторы, и суммарная ошибка по центральной предельной теореме оказывается нормально распределенной случайной величиной.

В качестве примера изложим здесь центральную предельную теорему в наиболее простом варианте: для одинаково распределённых слагаемых, имеющих дисперсию. Пусть Xi, i1, 2,  – независимые случайные величины с одной и той же функцией распределенияF(x). Характеристическая функция их равна f(t)eitxdF(x).

Очевидно, если существует k-й начальный момент mk:

mkxkdF(x),

то существует и производная k-го порядка характеристической функции:

f(k)(t)ikxkeitxdF(x),

ибо |eitx|1. Если существует момент второго порядка m2 (т.е. дисперсия), то по формуле Тейлора, отсюда следует, что можно при t0 представить характеристическую функцию в форме

f(t)f(0)f(0)tf(0)t2(t2)1m1itm2(it)2(t2).

Рассмотрим сумму SnXi. Её центрирование и нормирование даёт:

,

где aMXi, 2Dxi. Случайная величина  имеет моменты m10, m21. Её характеристическая функция представляется в виде: f(t)1t2(t2), а характеристическая функция fn(t) центрированной и нормированной суммы Sn, очевидно, равна:

fn(t)[1t2(t2)]nexp[nln(1t2(t2)]

и при n: fn(t).

Характеристическая функция центрированной и нормированной суммы сходится к характеристической функции стандартного нормального закона. Отсюда можно вывести, что и функция распределения центрированной и нормированной суммы сходится к функции распределения нормального закона.

4. ^ Теорема Пуассона.

Теорема Пуассона устанавливает условия, при которых биномиальную случайную величину можно приближённо считать пуассоновской.

Докажем сначала чисто аналитический факт:

  При любом фиксированном 0, любом фиксированном целом m0 и   при n: e.

 Действительно,

[]
[]e. 

Для достаточно больших n величина становится как угодно близкой к своему пределу. Обозначая p,  np, можем записать приближённое равенство:

pmqnme,

т. е. биномиальные вероятности можно считать пуассоновскими:B(n, p)
(), причём np. Поскольку в точной формулировке m и  фиксированы, а n, то можно рассчитывать на малую погрешность приближения при большом n, малом p и умеренном np.


Математическая статистика

ВВОДНЫЕ ЗАМЕЧАНИЯ

В теории вероятностей о вероятностях, законах распределения, параметрах случайных величин говорится как о чём-то данном, известном. Но встаёт вопрос: откуда их взять? Как найти параметры хотя бы приближённо? Как проверить предположение о том, что некоторая случайная величина распределена, например, по нормальному закону?

На эти и подобные им вопросы отвечает математическая статистика, причём информацию для ответов она берёт из наблюдений над случайными событиями и величинами. При этом наблюдения ведутся над реальными объектами и моделями, тогда как теория вероятностей изучает математические модели, в значительной степени идеализированные и абстрагированные. Соотношение между выводами математической теории и поведением реального мира приобретает уже не философский, а практический смысл. Можно сказать, что математическая статистика заведует связями теории вероятностей с внешним миром.

Ниже мы будем рассматривать одну единственную статистическую модель: предполагается, что существует случайная величина ^ X, которую можно наблюдать повторно n раз в независимых опытах. Результатом таких наблюдений оказываются n значений, которые X приняла в n экспериментах: (x1, x2,  , xn), – так называемая выборка, nобъём выборки. На все вопросы о случайной величине X математическая статистика берётся отвечать по выборке.

В каждом опыте мы наблюдаем одну и туже случайную величину X; все опыты по предположению независимы. Можно считать, что фактически мы наблюдаем n-мерную случайную величину (X1, X2,  , Xn) с независимыми компонентами, распределёнными одинаково – по тому же закону, что и X. Выборка (x1, x2,  , xn) есть наблюдённое значение случайной величины (X1, X2,  , Xn), выборка – одно из её возможных значений; её можно представить точкой в n-мерном евклидовом пространстве. Всё множество точек, которые могут быть выборками, образует так называемое выборочное пространство. По сути дела выборка – элементарное событие, а выборочное пространство – пространство элементарных событий . Часто смотрят на выборку (x1, x2,  , xn) как на случайную величину и не вводят особого обозначения (X1, X2,  , Xn) для случайной величины.

Если XN(a, ), то выборочным пространством оказывается всё евклидово пространство Rn. Если X(), то выборочное пространство совпадает с целочисленной решёткой главного координатного угла. Если XR(0, 1), то  – единичный n-мерный куб.

Пусть XF(x, ): F(x, ) – функция распределения случайной величины X. Тогда совместная функция распределения выборки:

F(x1, x2,  , xn)F(xi, ).

Если X имеет плотность вероятности p(x, ), то совместная плотность вероятности выборки равна

p(x1, x2,  , xn) p(xi, ).

Познакомимся с важнейшими задачами математической статистики и с их статистическими решениями.

^ I. ОТНОСИТЕЛЬНАЯ ЧАСТОТА КАК ОЦЕНКА ВЕРОЯТНОСТИ

Пусть имеется событие A, вероятность которого P(A)p – неизвестна, и мы хотим найти её хотя бы приблизительно. Из курса теории вероятностей ответ нам известен: хорошим приближением для вероятности является относительная частота события. Если в n независимых опытах событие A произошло m раз, то P(A). При этом:

1. В среднем мы не ошибаемся: M()p.

Это свойство оценки называется несмещённостью.

2. Дисперсия оценки как угодно мала при достаточно большом числе опы­тов:D()0 при n.

Дисперсия играет роль среднего квадрата ошибки.

3. Вероятность заметных отклонений относительной частоты от вероятности мала, поскольку по закону больших чисел Бернулли:

p  P{|p|}1 для 0.

Это свойство оценки называется состоятельностью. Оно может быть усилено, поскольку по закону больших чисел Бореля:

P{p}1.

Итак, относительная частота – несмещённая, состоятельная оценка для вероятности со сколь угодно малой среднеквадратической ошибкой.

Решение I задачи, таким образом, нам известно, и оно послужит нам удобным образцом для более сложных задач.

Разумеется, нужно понимать, что полученный ответ точно укладывается в рамки той единственной модели, которую мы взялись изучать в математической статистике.

Можно считать, что мы имеем здесь дело с биномиальной случайной величиной ^ X, а выборка состоит из одного наблюдения m. Либо можно считать, что мы имеем дело здесь со случайной величиной

1
X
, если событие A произошло,
0, если событие A не произошло.

Очевидно, ^ X – дискретная случайная величина с двумя возможными значениями 1 и 0, а вероятности этих значений p и q1p. Мы уже встречались с подобной величиной и выяснили, что MXp, DXpq.

Соответственно выборка (x1, x2,  , xn) состоит из m единиц и nm нулей, выборочное пространство состоит из вершин n-мерного единичного куба, и

(x1x2+xn)=,

так что ответ мы действительно получаем в терминах выборки:

pP(A)(x1x2+xn)==.

II. ЭМПИРИЧЕСКАЯ ФУНКЦИЯ РАСПРЕДЕЛЕНИЯ
1   2   3   4   5   6



Скачать файл (3589.5 kb.)

Поиск по сайту:  

© gendocs.ru
При копировании укажите ссылку.
обратиться к администрации