Logo GenDocs.ru

Поиск по сайту:  

Загрузка...

Лекции - Компьютерные методы статистического анализа и прогнозирования - файл СПТЕМА1.doc


Лекции - Компьютерные методы статистического анализа и прогнозирования
скачать (1043.6 kb.)

Доступные файлы (9):

СПТЕМА1.doc830kb.28.09.2009 15:58скачать
СПТЕМА2.doc1017kb.28.10.2008 15:03скачать
СПТЕМА3.doc1028kb.08.10.2009 14:39скачать
СПТЕМА4.doc1073kb.12.10.2009 23:31скачать
СПТЕМА5.doc407kb.13.10.2009 14:21скачать
СПТЕМА6.doc614kb.11.11.2008 15:41скачать
СПТЕМА7.doc624kb.13.10.2009 14:54скачать
СПТЕМА8.doc1038kb.12.11.2008 14:03скачать
СПТЕМА9.doc25kb.11.11.2008 17:08скачать

содержание

СПТЕМА1.doc

  1   2
Власов М. П.

конспект лекций по дисциплине
Компьютерные методы статистического анализа и прогнозирование




ТЕМА 1 Статистическое исследование и оценивание


Содержание


стр.

1. Случайная величина, случайные и псевдослучайные числа,
случайное блуждание ………………………………………………….. 2

2. Статистическое исследование ………………………………………. 5

3. Статистическое оценивание, решение, моделирование …………… 8

4.Статистический анализ и статистическая оценка ……………..…… 13

5. Кривые Пирсона и распределение Пирсона …………………..…… 21

6. Доверительное оценивание и доверительный интервал ………….. 25


Санкт-Петербург 2008

1. Случайная величина, случайные и псевдослучайные числа, случайное блуждание

Случайная величина это поддающаяся измерению скаляр­ная или векторная величина определённого физического смыс­ла, значения (компоненты) которой подвержены некоторому неконтролируемому разбросу при повторениях исследуемого эксперимента. Можно также сказать, что случайная величина - это функция, определённая на множестве элементарных событий — , т. е. . Если случайная величина принимает конечное или счётное число по­парно различных значений х12,...,хп,... с вероятностями то её называют дискретной. Случайная величина называется непре­рывной, если её функция распределения непрерывна.

В зависимости от своей природы, своего назначения одномер­ные дискретные величины подразделяются на количественные, ординальные (или порядковые) и номинальные (или классифи­кационные). Случайная количественная величина позволяет измерять степень проявления анализируемого свойства обследуемого объекта в определённой шкале. Случайная ординальная величина позволяет упорядочи­вать обследуемые в ходе случайных экспериментов объекты по степени проявления в них анализируемого свойства. Случайная номиналь­ная величина позволяет разбивать обследуемые в ходе случайных экспериментов объекты на не поддающиеся упорядочению одно­родные по анализируемому свойству классы. Примерами могут служить:

- среднедушевой доход семьи (случайная количественная величина);

- качество жилищных условий (например, с четырьмя града­циями - «плохое», «удовлетворительное», «хорошее» и «очень хорошее») - ординальная случайная величина;

- профессия главы семьи - номинальная случайная величина.

Случайные числа могут рассматриваться как значения независимых одинаково распределённых случайных величин. Как правило, имеются в виду значения случайных вели­чин с равномерным распределением в промежутке (0, 1) или приближения к таким значениям, имеющие конечное число цифр в своём представлении. В таком узком смысле случайные числа (равномерно распределённые случайные числа) можно определить как числа, составленные из случайных цифр. Случайные цифры в m-ичной системе счис­ления являются результатами независимых испытаний с т равно­вероятными исходами (каждому исходу соответствует одна из т цифр и вероятность ). Для построения случайных чисел с некоторым за­данным распределением производится подходящее преобразова­ние равномерно распределённых случайных чисел.

Использование случайных чисел было связано с техникой случайного выбора в математической статистике и теории игр. Роль случайных чисел значительно возросла в связи с возникновением метода статистических испытаний. Источником случайных чисел первоначально служили результаты пере­писи населения, тиражные таблицы и другие таблицы чисел, полу­ченные экспериментальным путём (например, с помощью рулетки). Первые специальные таблицы случайных чисел были составлены в 1927 для процедуры случайного выбора при планировании эксперимента. Самая большая опубликованная таблица случайных чисел (1987) содержит 1 000 000 случайных цифр. В дальнейшем в связи с задачами моде­лирования на компьютере были созданы специальные экспериментальные устройства-датчики или генераторы случайных чисел. В настоящее время боль­шая часть расчётов по методу статистических испытаний на компью­тере производится с использованием так называемых псевдослучайных чисел - чисел, получаемых по какой-либо формуле (алгоритму) и имитирующих случайные числа в том смысле, что их свойства близки к свойствам случайных чисел. Последовательности псевдослучайных чисел обычно получают на компьютере с помощью алгоритмов, среди которых наибольшее рас­пространение получил так называемый метод вычетов, например, в таком виде: , , . Получаемые последова­тельности псевдослучайных чисел имеют период, что существенно отличает их от пос­ледовательностей случайных чисел. Алгоритмы получения псевдослучайных чисел ещё недостаточ­но исследованы, но при расчётах на компьютере метод псевдослучайных чисел облада­ет рядом преимуществ, в частности свойства последовательности псевдослучайных чисел можно исследовать путём пробных вычислений, а все другие способы приводят каждый раз к новым последовательностям случайных чисел.

^ Случайное блуждание является математической моделью перемещения частицы в некотором пространстве под воздействием слу­чайных факторов. Чаше всего рассматривают случайное блуждание на прямой, порождённое суммированием независимых случайных величин . При этом частица осуществляет скачки только в мо­менты времени п = 1,2,..., и положение частицы в момент определяется величиной , , so=0. В простей­шем случае, когда , , sn может интерпретироваться как суммарный выигрыш одного из игро­ков в п партиях, если каждая партия завершается выигрышем единицы с вероятностью р и проигрышем единицы с вероятнос­тью 1-р. Положение блуждающей частицы в момент п при боль­ших значениях п описывается законом больших чисел, централь­ной предельной теоремой.

При соединении отрезками прямых на координатной плоскости точек с координатами (n,sn), , получается траектория случайного блуждания. Ряд задач математической статистики (последовательный анализ, критерии согласия Колмогорова, Колмогорова — Смирнова, задача о разладке), те­ории массового обслуживания, теории страхования, теории хранения запасов и др. приводят к изучению характеристик случайного блуждания, связанных с возможностью достижения траекторий границы некоторого множества (так называемые задачи для случайных блужданий). Примером такой задачи служит вычисление вероятности того, что до момента п вся траектория случайного блуждания находится ниже фиксированного уровня. Решение граничных задач, как правило, сопряжено со значительными трудностями. Среди других типов случайного блуждания — многомерные случайные блуждания, цепи Маркова.


^ 2.Статистическое исследование

Статистическое исследование – это получение, обработка и анализ статистических данных для заданных целей. Статистическое исследование в соответствии с общей теорией статистики проводится в строгой последовательности и логической взаимосвязи. Этапы статистического исследования:

1) организация статистического исследования;

2) сбор данных (статистическое на­блюдение) ;

3) группировка и сводка данных;

4) преобразование сводки;

5) анализ;

6) выводы и графическое оформле­ние.

Организация статистического исследования включает разра­ботку плана, программы и регистра­ционного документа. План статистического исследования пре­дусматривает четкое определение те­мы, цели, задач статистического исследования, объекта и еди­ницы наблюдения, времени и способа исследования. Объект наблюдения — статистическая совокупность, о которой должны быть собраны статистические сведения. Единицы наблюдения — со­ставной элемент объекта исследова­ния, являющийся носителем призна­ков, подлежащих регистрации. Про­грамма наблюдения — перечень при­знаков, подлежащих изучению и регистрации. Статистическое наблю­дение может быть централизованным, децентрализованным, единовремен­ным и текущим.

Группировка и сводка статистиче­ских данных — первоначальное рас­членение всей страховой совокупно­сти на однородные части по атрибу­тивным (описательным) или вариаци­онным признакам с последующим обобщением единичных случаев в ви­де разработочных таблиц, заполнен­ных абсолютными числами. Таблицы могут быть простыми, групповыми и комбинационными.

Преобразование сводки заключает­ся в счетной обработке с получением относительных величин (интенсив­ных, экстенсивных показателей, по­казателей наглядности, индексов) и средних величин. Интенсивные показатели — показатели распростране­ния (например, на 1000, 10000, 100000 страхова­телей или объектов страхования).

Экстенсивные показатели — пока­затели распределения, удельного веса (в процентах к итогу). Показатели на­глядности характеризуют соотноше­ние показателей на разных террито­риях и в динамике (картограммы, ди­аграммы и т.д.)

Средние величины одним числом характеризуют статистическую совокуп­ность. Их вычисляют при обработке вариационного ряда. Обязательной величиной, сопутствующей средней, является среднее квадратическое от­клонение — критерий изменчивости и колеблемости изучаемого признака (в рамках статистической совокупности).

Статистический анализ включает ряд методик, позволяющих оценить, сопоставить показатели и выявить за­кономерности в изучаемом явлении: стандартизация показателей, оценка достоверности статистических вели­чин и их различий, корреляционный анализ, динамические сравнения и т.д.

Стандартизация показателей явля­ется методом статистического исследования, позволяющим иск­лючить влияние неоднородности со­става двух сравниваемых групп на об­щие показатели. В результате можно судить, какими могли быть общие по­казатели изучаемого явления при ус­ловии одинакового состава сравнивае­мых групп.

Оценка достоверности полученных результатов проводится на основе вы­числения ошибки показателей, или ошибки средних величин (±), опре­деления доверительных границ и до­верительного коэффициента ().

Средняя ошибка является ошибкой репрезентативности (представитель­ности), зависит от числа наблюдений и показывает, в каких пределах (±) может колебаться показатель. Вычис­ление ошибки репрезентативности для относительного показателя (т.е. его значение от 0 до1), про­водится по формуле:

,

где — величина показателя; — обратная показателю величина, равная , либо (если показа­тель выражен в процентах) либо (если показатель выражен в промиле); — число наблюдений.

Для того, чтобы результаты вычис­лений соответствовали степени веро­ятности, с которой требуется пол­учить величину, ошибки репрезента­тивности ( ± т) следует умножить на так называемый доверительный коэффициент (), показывающий, во сколько раз ре­зультат (показатель) превышает свою ошибку. Чем выше t, тем выше веро­ятность выводов. При t = 1 вероят­ность достоверности результатов рав­на 68,3%, при t=2 — 95,5%, при t =3-99,7%.

Доверительные границы (интер­вал) относительного показателя, или средней величины, определяют по формуле:

(для относительных показателей) и (для средних величин),

где — средняя арифметическая величина.

Для измерения связи показателей статистики используют ме­тоды корреляционного и регрессион­ного анализа, вычисление коэффици­ентов ассоциации, сопряженности и Хи-квадратов.

Динамика явлений рассматривает­ся методом анализа динамического ряда. Динамический ряд — это ряд статистических величин, расположен­ных в хронологическом порядке через равные (или неравные) промежутки времени и пока­зывающий изменение во времени изучаемого явления. В результате стати­стической обработки динамического ряда получают темп роста, темп при­роста, величину одного процента при­роста. Способом наименьших квадра­тов проводят выравнивание динами­ческих рядов и экстраполяцию пока­зателей.

При анализе статистического мате­риала, требующего определения фак­торов, влияющих на величину показа­телей, и степени этого влияния, при­меняют дисперсионный, факторный и дискриминантный анализ.

^ 3. Статистическая оценивание, решение, моделирование

Методы изучения статистической сово­купности разрабатываются и приме­няются в соответствии с целью и зада­чами исследования. При статистическом исследовании следует различать статистическое оценивание, статистическое решение, статистическое моделирование.

^ Статистическое оценивание представляет совокупность методов математической статистики для приближённого определения не­известных распределений вероятностей (или каких-либо их ха­рактеристик) по результатам наблюдений. В наиболее распрост­ранённом случае результаты наблюдений образуют последовательность, независимых случайных величин (или векторов), имеющих одно и то же (неизвестное) распределение вероятностей с функцией распределения .

Обычно предпо­лагают, что функция принадлежит какому-либо известно­му семейству, которое зависит от конечного числа параметров, и определению подлежат лишь значения самих этих параметров. Например, значительная часть теории, особенно в многомерном случае, развита в предположении, что неизвестное распределе­ние является нормальным распределением, у которого все пара­метры или какая-либо их часть неизвестны, или что пол­ностью неизвестна.

Два основных вида статистического оценивания - так называвемое точечное оценивание и интер­вальное оценивание с помощью доверительных интервалов. В пер­вом случае в качестве приближённого значения для неизвестной характеристики выбирают какую-либо одну функцию от резуль­татов наблюдений, во втором - указывают интервал значений, с высокой вероятностью «накрывающий» неизвестное значение этой характеристики.

Интервальная статистическая оценка это статистическая оценка неизвестного параметра вероятностного рас­пределения, представляющая интервал приближённых значений параметра. Границы этого интервала, принадлежа­щего множеству допустимых значений параметра (параметри­ческому множеству), определяются по результатам наблюде­ний. Существует несколько способов построения интервальной статистической оценки для параметров распределения. Наиболее распространённым явля­ется метод доверительных интервалов (областей, множеств). При наличии априорной информации о распределении пара­метра применяются бейесовские интервальные статистические оценки. В отличие от точечной статистической оценки, интервальная статистическая оценка даёт возможность решить во­прос о точности оценивания, именно, вычислить вероятность ошибки при использовании данной интервальной статистической оценки.

Разработаны методы статистического оценивания и для случая, когда результаты наблюдений зависимы, и для случая, когда индекс заменя­ется непрерывно меняющимся аргументом , т. е. для случай­ных процессов. В частности, широко используется статистическое оценивание таких характеристик случайных процессов, как корреляционная функ­ция и спектральная функция. Разработаны также методы статистического оценивания для случая, когда объём выборки не фиксируется заранее, а определяется в процессе наблюдения. В связи с задачами ре­грессионного анализа был развит метод непараметрического по­следовательного статистического оценивания - стохастическая аппроксимация. В наи­более общей форме методы статистического оценивания рассматриваются в теории статисти­ческих решений.

^ Статистическое решение (решающее правило, реша­ющая функция), название решения, принимаемого в математи­ческой статистике на основе результатов наблюдений какого-либо явления, подчиняющегося вероятностным закономернос­тям, которые не полностью известны. Обычно предполагается, что соответствующее распределение вероятностей зависит от не­известного параметра , оцениваемого по результатам наблюде­ний .

Например, при обеззараживании воды хлорирова­нием количество добавляемого хлора зависит от среднего числа бактерий в единице объёма, однако значение неизвестно и оценивается по результатам подсчёта численности бак­терий в независимо выбранных единицах объёма воды при допущении (в простейшей модели), что независимые случайные величины имеют одинаковое распределение Пуассона с неиз­вестным математическим ожиданием . Статистическое решение - решение о коли­честве добавляемого хлора - будет функцией от какой-либо статистической оценки параметра . Последняя должна вы­бираться с учётом риска нежелательных последствий как недо­оценки (недостаточное обеззараживание воды), так и завышение оценки (ухудшение качества воды от чрезмерного добавления хлора).

Точная математическая формулировка понятий, касающихся статистических решений и способов их сравнения, рассматривается теорией статистический решений.

^ Статистическое моделирование рассматривается как моделирование случайных величин или процессов для численного решения ма­тематических задач. При этом искомые величины (связанные или не связанные со случайностью) представляют вероятност­ными характеристиками какого-либо случайного явления. Это явление моделируют, после чего нужные характеристики при­ближённо определяют с помощью статистической обработки «на­блюдений» модели (например, с помощью метода Монте-Карло).

Пусть, например, требуется рассчитать потоки тепла в нагре­ваемой тонкой металлической пластине, на краях которой под­держивается нулевая температура. Распределение тепла описы­вается тем же уравнением, что и расплывание пятна краски в слое жидкости. Поэтому моделируют плоское броуновское дви­жение частиц «краски» по пластине, следя за их положениями в моменты , . Приближённо принимают, что за малый интервал частица перемещается на шаг равновероятно во всех направлениях. Каждый раз направление выбирается слу­чайным образом независимо от всего предыдущего. Соотноше­ние между и определяется коэффициентом теплопроводнос­ти. Движение начинается в источнике тепла и кончается при первом достижении края («краска» налипает на край). Поток тепла через участок границы измеряется количеством налипшей краски. При общем количестве частиц согласно закону больших чисел такая оценка даёт случайную относитель­ную ошибку порядка (и систематическую ошибку поряд­ка из-за дискретности выбранной модели). Искомую величину представляют математическим ожиданием числовой функции от случайного исхода :

,

т. е. интегралом по вероятностной мере р. На оценку

,

где — смоделированные исходы, можно смотреть как на квадратурную формулу для указанного интеграла со случайными узлами и случайной погрешностью . Обычно принимают

,

считая большую погрешность пренебрежимо маловероятной; дис­персия может быть оценена в ходе наблюдений.

В разобранном выше примере , когда траектория кончается на ; иначе f(w) = 0. Дисперсия . Интеграл берётся по пространству ломаных со звеньями постоян­ной длины; он может быть выражен через кратные интегралы.

Проведение каждого «эксперимента» распадается на две части: «розыгрыш» случайного исхода w и последующее вычисление функции f(w). Когда пространство всех исходов и вероятностная мера слишком сложны, розыгрыш проводится последовательно в несколько этапов (см. пример). Случайный выбор на каждом этапе проводится с помощью случайных чисел, например, генери­руемых каким-либо физическим датчиком; употребительна также их арифметическая имитация - псевдослучайные числа. Анало­гичные процедуры случайного выбора используются в математи­ческой статистике и теории игр.

Численные методы, основанные на статистическом моделировании, широко применяют­ся для решения на компьютере многих задач вычислительной математики. Они удобны своей универсальностью и, как правило, не требуют большого объёма памяти. Недостаток - большие случайные погрешности, слишком медленно убывающие при уве­личении числа экспериментов. Поэтому разработаны приёмы преобразования моделей, позволяющие понижать разброс на­блюдаемых величин и объём модельного эксперимента.

В экономике статистические модели предполагают мо­делируемую систему неизменной во времени, т. е. полностью отвлекаются от её в принципе возможных (а подчас даже неиз­бежных) изменений, поскольку их учёт не требуется для дости­жения цели моделирования; кроме того, предполагается, что все интересующие исследователя процессы, происходящие в систе­ме, не требуют при своём описании развёртывания во времени, так что могут быть с достаточной точностью охарактеризованы не зависящими от времени величинами - известными и неизвест­ными. Поэтому в статистическом моделировании время не вводится явно. Статистические модели характе­ризуют моделируемую систему на какой-либо фиксированный момент времени; такой момент может представлять целый вре­менной интервал (как правило, в качестве его конечной, сред­ней или начальной точки), в течение которого система предпола­гается неизменной.

К статистической модели естественно приводят самые разнообразные задачи экономического анализа и планирования, которые допускают постановки при жёстко фиксированной структуре моделируемой системы, например, моделирование межотраслевого баланса, задача максимизации выпуска в заданном ассортименте, задача дие­ты, задача оптимального назначения, задача раскроя и многие другие. Значительная часть этих задач относится к сфере текущего планирования производства.

Поскольку статистические модели в формализованном виде отвлекаются от фактора времени, они всегда проще, чем динамические модели тех же экономических систем, с той или иной степенью полноты учитывающие этот фактор. Поэтому для экономико-математи­ческого моделирования типична ситуация, когда сначала разра­батываются статистические модели, а затем они усложняются введением фактора времени, т. е. преобразуются в динамические. В частности, ста­тическими первоначально были модели межотраслевого баланса, разнообразные модели, сводимые к транспортной задаче и рас­пределительной задаче линейного программирования (в частно­сти, некоторые статические модели размещения производства), к задачам о потоках в сетях и т. д. В последствии для всех этих моделей были разработаны динамические аналоги и обоб­щения, однако подобное усложнение далеко не всегда оказыва­ется продуктивным даже в случаях, когда динамический аспект моделируемой системы небезразличен для цели моделирования. Например, статистические модели межотраслевого баланса для одного из пред­стоящих лет (фиксированного) может быть подчас не менее информативной, чем динамическая модель межотраслевого ба­ланса, развёрнутая по годам на весь период от текущего года до года, фиксированного в анализе. Объясняется это тем, что по­лучаемые из динамической модели детальные данные об измене­нии экономических показателей «внутри» исследуемого периода могут быть недостаточно состоятельны со статистической точки зрения, а обобщённые в сравнении с ними итоговые данные за период, существенно более устойчивые относительно вариаций исходной информации, практически совпадают с результатами расчётов по статистическим моделям. При этом динамическая модель существенно более сложна и трудоёмка во всех отношениях.

^ 4. Статистическая оценка и статистический анализ

Статистическая оценка, некоторая функция от резуль­татов наблюдений, предназначенная для статистического оцени­вания неизвестных характеристик и параметров распределения вероятностей. Выделяется случай, когда распределение вероят­ностей принадлежит какому-либо известному семейству, завися­щему от конечного числа параметров. В математической статис­тике используются непараметрические методы непосредственной статистической оценки функциональных характеристик распределения вероятно­стей, например, неизвестной функции распределения или его плотности. Так, если результаты наблюдений — незави­симые случайные величины, имеющие одно и то же нормальное распределение с неизвестным математическим ожиданием а, то выборочная средняя - средняя арифметическая результатов на­блюдений - и выборочная медиана



где - элементы вариационного ряда, соответствующего ре­зультатам наблюдений , являются статистической оценкой неизвестного параметра а. Такие статистические оценки, приводящие в конкретном случае к числовому значению параметра, называются точечными.

В дальнейшем рассматриваются лишь точечные статистические оценки.

В качестве статистической оценки какого-либо па­раметра распределения вероятностей естественно выбирать такую функцию от результатов наблюдений , которая в некотором определённом смысле близка к истинному значению параметра. Принимая какую-либо меру «бли­зости» статистической оценки к значению оцениваемого параметра, можно срав­нивать различные оценки. Обычно мерой близости статистической оценки к ис­тинному значению параметра служит величина среднего значе­ния квадрата ошибки



(выражающаяся через математическое ожидание оценки и её дисперсию , вычисленные по распределению, завися­щему от неизвестного значения ).

В классе всех несмещённых оценок (для которых при всех ) наилучшими с этой точки зрения будут статистические оценки, имеющие при заданном минимальную возможную дисперсию при всех (такие статистические оценки называ­ются также эффективными). Указанная выше статистическая оценка для параметра нормального распределения является наилучшей не­смещённой оценкой, поскольку дисперсия любой другой несмещённой статистической оценкой параметра удовлетворяет неравенству

,

где - дисперсия исходного нормального распределения. В конкретных случаях отыскание наилучших статистических оценок облегчается с помощью достаточных статистик, так как наилуч­шую несмещённую оценку нужно искать в классе статистических оценок, завися­щих только от достаточной статистики.

Имея в виду построение статистических оценок для больших значений , изуча­ют также асимптотические свойства статистических оценок. Естественно, напри­мер, предполагать, что вероятность отклонений от истинно­го значения параметра , превосходящих какое-либо заданное число, будет стремиться к нулю при . Статистические оценки с таким свой­ством называются состоятельными оценками.

Состоятельная оценка это статистическая оценка параметра распределения вероятностей, обладающая тем свойством, что при увеличении числа наблюдений вероятность отклонений оценки от оцениваемого параметра на величину, превосходящую неко­торое заданное число, стремится к нулю. Точнее, если - независимые результаты наблюдений, распределение которых зависит от неизвестного параметра , и при каждом функция является оценкой , построенной по первым наблюдениям, то оценка называется состоятельной, если при для каждого произвольного числа и любого допустимого значения



(т. е. сходится к - по вероятности). Например, любая несмещённая оценка параметра (или оценка с ), дисперсия которой стремится к нулю с ростом , является состоятельной оценкой параметра . Так, выборочная средняя и выборочная дисперсия суть состоятельная оценка соответственно математического ожидания и дисперсии нормального распределения.

Состоятельность, являющаяся желательной характеристикой всякой статистической оценки, имеет отношение лишь к асимп­тотическим свойствам оценки и слабо характеризует качество оценки при конечном объёме выборки в практических задачах. Существуют критерии, позволяющие выбрать из числа всевоз­можных состоятельных оценок некоторого параметра ту, которая обладает нуж­ными качествами.

Понятие «состоятельная оценка» впервые было предложено английским учё­ным Р. Фишером (1922).

Несмещенная оценка это статистическая оценка пара­метра распределения вероятностей по результатам наблюде­ний, лишённая систематической ошибки. Более точно: если оцениваемое распределение зависит от параметра , то функ­ция от результатов наблюдений называется несмещённой оценкой для параметра , если при любых допустимых значениях параметра математиче­ское ожидание

.

Например, если результаты наблюдений суть взаимно независимые случайные величины, имеющие одинако­вое нормальное распределение, заданное плотностью



с неизвестными параметрами и , то среднее арифметическое

(4.1.)

будет несмещенная оценка для . Часто используемая для оценки выбороч­ная дисперсия



не является несмещенной оценкой. Несмещенная оценка для служит

, (4.2.)

величина несмещенной оценки квадратичного отклонения имеет более слож­ное выражение

. (4.3.)

Оценка (1) для математического ожидания и оценка (4.2) для дисперсии являются несмещенной оценкой и при распределениях, отличных от нормального; оценка (4.3) для квадратичного отклонения, вооб­ще говоря (при распределениях, отличных от нормального), может быть смещённой. Оценка s2 дисперсии принадлежит классу т. н. асимптотически несмещённых оценок, который определяется соотношением при .

Использование несмещенных оценок необходимо при оценке неизвестного параметра по большому числу серий наблюдений, каждая из которых состоит из небольшого числа наблюдений. Пусть, на­пример, имеется серий

,

по наблюдений в каждой и пусть — несмещённая оценка s2 для , составленная по серии наблюдений. Тогда при большом в силу закона больших чисел

,

даже когда невелико.

Наилучшие оценки параметров распределения, как правило, разыскиваются среди несмещенных оценок.

Несмещённые статистические оценки, дисперсия которых стремится к нулю при , являются состоятельными. Асимптотическое сравнение статистических оценок производят по отношению их асимптотических дисперсий. Так, средняя ариф­метическая в приведённом выше примере наилучшая и, сле­довательно, асимптотически наилучшая статистическая оценка для параметра , тогда как выборочная медиана являющаяся также несмещён­ной оценкой, не является асимптотически наилучшей, т. к.



(тем не менее использование , имеет свои положительные сто­роны; например, если истинное распределение не является в точности_нормальным, а несколько отличается от него, то дис­персия может резко возрасти, а дисперсия остаётся почти той же, т. е. обладает свойством, называемым прочностью или робастностью).

Одним из распространённых общих методов получения статистических оценок параметров распределения является метод моментов, заключаю­щийся в приравнивании определённого числа выборочных момен­тов соответствующим моментам исходного распределения, кото­рые суть функции от неизвестных параметров, и решении полу­ченных уравнений относительно этих параметров. Хотя метод моментов часто удобен в практическом отношении, однако статистические оценки, найденные при его использовании, вообще говоря, не являются асимптотически наилучшими. Более важным с теоретической точ­ки зрения представляется метод максимального правдоподобия, который приводит к оценкам, являющимся при некоторых общих условиях асимптотически наилучшими; близок к последнему ме­тоду и метод наименьших квадратов.

Теория точечных статистических оценок не даёт возможности сделать заключение о «точности» таких оценок. В этом отношении статистические оценки неизвестных параметров существенно дополняются результатами интервального оценивания с помощью доверительных интервалов.

Статистическая оценка является вариантом более общего понятия статистического решения.

  1   2



Скачать файл (1043.6 kb.)

Поиск по сайту:  

© gendocs.ru
При копировании укажите ссылку.
обратиться к администрации