Logo GenDocs.ru

Поиск по сайту:  

Загрузка...

Информатика и математика - файл 1.doc


Информатика и математика
скачать (647 kb.)

Доступные файлы (1):

1.doc647kb.04.12.2011 11:06скачать

содержание
Загрузка...

1.doc

1   2   3
Реклама MarketGid:
Загрузка...

2. Статистические оценки параметров распределения. Виды статистических оценок. Статистические оценки параметров распределения. Эмпирические моменты. Асимметрия и эксцесс эмпирического распределения.


Пусть требуется изучить количественный признак генеральной совокупности. Допустим, что из теоретичес­ких соображений удалось установить, какое именно рас­пределение имеет признак. Естественно возникает задача оценки параметров, которыми определяется это распреде­ление. Например, если наперед известно, что изучаемый признак распределен в генеральной совокупности нормаль­но, то необходимо оценить (приближенно найти) матема­тическое ожидание и среднее квадратическое отклонение, так как эти два параметра полностью определяют нормаль­ное распределение; если же есть основания считать, что признак имеет, например, распределение Пуассона, то необходимо оценить параметр , которым это распреде­ление определяется7.

Обычно в распоряжении исследователя имеются лишь данные выборки, например значения количественного при­знака x1, х2, . . ., хп, полученные в результате п наблюде­ний (здесь и далее наблюдения предполагаются независимы­ми). Через эти данные и выражают оцениваемый параметр. Рассматривая х1, х2, ..., хп как независимые случайные величины X1, Х2 ,…Хn, можно сказать, что найти статистическую оценку неизвестного параметра теоретиче­ского распределения — это значит найти функцию от наблюдаемых случайных величин, которая и дает при­ближенное значение оцениваемого параметра. Например, как будет показано далее, для оценки математического ожидания нормального распределения служит функция (среднее арифметическое наблюдаемых значений признака)



Итак, статистической оценкой неизвестного пара­метра теоретического распределения называют функцию от наблюдаемых случайных величин.

^ Несмещенные, эффективные и состоятельные оценки. Для того чтобы статистические оценки давали «хорошие» приближения оцениваемых параметров, они должны удовлетворять определенным требованиям. Ниже указаны эти требования.

Пусть * —статистическая оценка неизвестного пара­метра  теоретического распределения. Допустим, что по выборке объема n найдена оценка 1. Повторим опыт, т. е. извлечем из генеральной совокупности другую вы­борку того же объема и по ее данным найдем оценку 2. Повторяя опыт многократно, получим числа 1*, 2*, ..., k*, которые, вообще говоря, различны между собой. Таким образом, оценку * можно рассматривать как случайную величину, а числа 1*, 2*, ..., k*, —как ее возможные значения.

Представим себе, что оценка * дает приближенное значение  с избытком; тогда каждое найденное по дан­ным выборок число i* (i= 1, 2, ..k) больше истинного значения . Ясно, что в этом случае и математическое ожидание (среднее значение) случайной величины * боль­ше, чем , т. е. М (*) > . Очевидно, что если * дает оценку с недостатком, то М (*) < .

Таким образом, использование статистической оценки, математическое ожидание которой не равно оцениваемому параметру, привело бы к систематическим (одного знака) ошибкам. По этой причине естественно потребовать, чтобы математическое ожидание оценки * было равно оценива­емому параметру. Хотя соблюдение этого требования не устранит ошибок (одни значения * больше, а другие меньше ), однако ошибки разных знаков будут встречать­ся одинаково часто. Иными словами, соблюдение требова­ний М (*) =  гарантирует от получения систематических ошибок.

Несмещенной называют статистическую оценку *, мате­матическое ожидание которой равно оцениваемому пара­метру  при любом объеме выборки, т. е.

M (*) = .

Смененной называют оценку, математическое ожидание которой не равно оцениваемому параметру.

Однако было бы ошибочным считать, что несмещенная оценка всегда дает хорошее приближение оцениваемого параметра. Действительно, возможные значения * могут быть сильно рассеяны вокруг своего среднего значения, т е. дисперсия D (*) может быть значительной. В этом случае найденная по данным одной выборки оценка, на­пример 1, может оказаться весьма удаленной от среднего значения , а значит, и от самого оцениваемого пара­метра ; приняв 1 в качестве приближенного значения , мы допустили бы большую ошибку. Если же потребовать, чтобы дисперсия * была малой, то возможность допустить большую ошибку будет исключена. По этой причине к статистической оценке предъявляется требование эффек­тивности.

Эффективной называют статистическую оценку, которая (при заданном объеме выборки п) имеет наименьшую воз­можную дисперсию.

При рассмотрении выборок большого объема (n вели­ко!) к статистическим оценкам предъявляется требование состоятельности.

Состоятельной называют статистическую оценку, кото­рая при n—» стремится по вероятности к оцениваемому параметру. Например, если дисперсия несмещенной оценки при п—»о стремится к нулю, то такая оценка оказы­вается и состоятельной.

Генеральная средняя. Пусть изучается дискретная генеральная совокуп­ность относительно количественного признака X.

^ Генеральной средней называют среднее арифметичес­кое значений признака генеральной совокупности.

Если все значения x1, x2 ..., хN признака генераль­ной совокупности объема N различны, то



Если же значения x1, x2 ..., хk признака имеют соответственно частоты N1,N2….Nk, причем N1+N2….+Nk=N, то



т. е. генеральная средняя есть средняя взвешенная зна­чений признака с весами, равными соответствующим ча­стотам.

^ Выборочная средняя. Пусть для изучения генеральной совокупности относительно количественного признака X извлечена вы­борка объема п.

Выборочной средней называют среднее арифмети­ческое значение признака выборочной совокупности.

Если все значения x1, x2, ..., хп признака выборки объема n различны, то



Если же значения признака x1, x2, . .., xk имеют cooтветственно частоты n1, n2..., nk, причем n1+n2.. ... + nk = n, то



т. е. выборочная средняя есть средняя взвешенная зна­чений признака с весами, равными соответствующим ча­стотам.

Заметим, что в теоретических рассуждениях выборочные значения x1, х2, ..., хn признака X, полученные в итоге независимых наблюдений, также рассматривают как слу­чайные величины Х1, Х2, . . ., Хn, имеющие то же распре­деление и, следовательно, те же числовые характеристики, которые имеют X.

^ Оценка генеральной средней по выборочной средней. Устойчивость выборочных средних. Пусть из генеральной совокупности (в резуль­тате независимых наблюдений над количественным при­знаком X) извлечена повторная выборка объема n со значениями признака x1, х2, . .., хп. Не уменьшая общ­ности рассуждений, будем считать эти значения признака различными. Пусть генеральная средняя хГ неизвестна и требуется оценить ее по данным выборки. В каче­стве оценки генеральной средней принимают выборочную


Убедимся, что — несмещенная оценка, т. е. покажем, что математическое ожидание этой оценки равно . Будем рассматривать как случайную величину и x1, х2, . .., хп как независимые, одинаково распределенные случайные величины Х1, Х2, . . ., Хn. Поскольку эти величины оди­наково распределены, то они имеют одинаковые числовые характеристики, в частности одинаковое математическое ожидание, которое обозначим через а. Так как матема­тическое ожидание среднего арифметического одинаково распределенных случайных величин равно математическому ожиданию каждой из величин , то



Приняв во внимание, что каждая из величин Х1, Х2, . . ., Хn имеет то же распределение, что и генеральная совокупность (которую мы также рассматриваем как слу­чайную величину), заключаем, что и числовые характе­ристики этих величин и генеральной совокупности оди­наковы. В частности, математическое ожидание а каждой из величин равно математическому ожиданию признака X генеральной совокупности, т. е.



Заменив в формуле (*) математическое ожидание а на , окончательно получим



Тем самым доказано, что выборочная средняя есть не­смещенная оценка генеральной средней.

Легко показать, что выборочная средняя является и состоятельной оценкой генеральной средней. Действи­тельно, допуская, что случайные величины Х1, Х2, . . ., Хn имеют ограниченные дисперсии, мы вправе применить к этим величинам теорему Чебышева (частный случай), в силу которой при увеличении n среднее арифметическое рассматриваемых величин, т. е. , стремится по веро­ятности к математическому ожиданию а каждой из вели­чин, или, что то же, к генеральной средней (так как = а).

Итак, при увеличении объема выборки n выборочная средняя стремится по вероятности к генеральной средней, а это и означает, что выборочная средняя есть состоятель­ная оценка генеральной средней. Из сказанного следует также, что если по нескольким выборкам достаточно боль­шого объема из одной и той же генеральной совокупности будут найдены выборочные средние, то они будут при­ближенно равны между собой. В этом и состоит свойство устойчивости выборочных средних.

Заметим, что если дисперсии двух одинаково распре­деленных совокупностей равны между собой, то близость выборочных средних к генеральным не зависит от отно­шения объема выборки к объему генеральной совокуп­ности. Она зависит от объема выборки: чем объем выборки больше, тем меньше выборочная средняя отличается от генеральной. Например, если из одной совокупности ото­бран 1 % объектов, а из другой совокупности отобрано 4% объектов, причем объем первой выборки оказался большим, чем второй, то первая выборочная средняя бу­дет меньше отличаться от соответствующей генеральной средней, чем вторая.

^ Групповая и общая средние. Допустим, что все значения количественного при­знака X совокупности, безразлично-генеральной или вы­борочной, разбиты на несколько групп. Рассматривая каждую группу как самостоятельную совокупность, можно найти ее среднюю арифметическую.

^ Групповой средней называют среднее арифметическое значений признака, принадлежащих группе.

Теперь целесообразно ввести специальный термин для средней всей совокупности.

^ Общей средней называют среднее арифметическое значений признака, принадлежащих всей совокупности.

Зная групповые средние и объемы групп, можно найти общую среднюю: общая средняя равна средней арифмети­ческой групповых средних, взвешенной по объемам групп.

^ Отклонение от общей средней и его свойство. Рассмотрим совокупность, безразлично — гене­ральную или выборочную, значений количественного при­знака X объема n:



При этом . Далее для удобства записи знак суммы заменен знаком .

Найдем общую среднюю



Отсюда .

Заметим, что поскольку - постоянная величина, то



Отклонением называют разность xi - между значением признака и общей средней.

Теорема. Сумма произведений отклонений на соответствующие частоты равна нулю:



Следствие. Среднее значение отклонения равно нулю.

^ Генеральная дисперсия. Для того чтобы охарактеризовать рассеяние зна­чений количественного признака X генеральной совокуп­ности вокруг своего среднего значения, вводят сводную характеристику — генеральную дисперсию.

Генеральной дисперсией Dг называют среднее арифме­тическое квадратов отклонений значений признака гене­ральной совокупности от их среднего значения .

Если все значения x1, х2, . .., хN признака генеральной совокупности объема N различны, то




Если же значения признака x1, х2, . .., хk имеют соответственно частоты N1, N2…Nk, причем N1 + N2+ ...+Nk = N, то




т. е. генеральная дисперсия есть средняя взвешенная квадратов отклонений с весами, равными соответствую­щим частотам.

Кроме дисперсии для характеристики рассеяния зна­чений признака генеральной совокупности вокруг своего среднего значения пользуются сводной характеристикой— средним квадратическим отклонением.

Генеральным, средним квадратическим отклонением (стандартом) называют квадратный корень из генераль­ной дисперсии:



^ Выборочная дисперсия. Для того чтобы охарактеризовать рассеяние наблюдаемых значений количественного признака выборки вокруг своего среднего значения вводят сводную характе­ристику— выборочную дисперсию.

^ Выборочной дисперсией DB называют среднее арифме­тическое квадратов отклонения наблюдаемых значений признака от их среднего значения .

Если все значения х1, х2, ..хn признака выборки объема n различны, то




Если же значения признака xl, х2, ..., хn имеют ответственно частоты п1, n2, .пk, причем п1 + п2 + пk = n. то



т. е. выборочная дисперсия есть средняя взвешенная квадратов отклонений с весами, равными соответствую­щим частотам.

Кроме дисперсии для характеристики рассеяния зна­чений признака выборочной совокупности вокруг своего среднего значения пользуются сводной характеристи­кой— средним квадратическим отклонением.

Выборочным средним квадратическим отклонением (стандартом) называют квадратный корень из выбороч­ной дисперсии:




^ Формула для вычисления дисперсии.

Вычисление дисперсии, безразлично—выборочной или генеральной, можно упростить, используя следую­щую теорему.

Теорема. Дисперсия равна среднему квадратов значений признака минус квадрат общей средней:


^ Выборка. Вариационный ряд. Эмпирические законы распределения.

Пусть проводятся n независимых испытаний над случайной величиной X при не­изменном комплексе условий, от которых зависят конкретные реализации этой величи­ны. В результате испытаний получены n измерений величины X: Xn = x1, х2, ..., хn}. Сово­купность Xn таких измерений называют выборкой случайной величины X, сами измерения называют элементами выборки, а число измерений n - объёмом выборки. Элементы вы­борки можно считать независимыми одинаково распределёнными случайными величи­нами, поскольку они являются результатом проведения последовательности независимых испытаний с одной и той же случайной величиной X.

Предположим, что в выборке Xn представлены все возможные значения случайной величины X с частотами, пропорциональными истинным (неизвестным) вероятностям этих значений. Тогда выборку называют генеральной совокупностью. Генеральная совокуп­ность полностью представляет закон распределения вероятностей случайной величины. Если X - дискретная случайная величина с конечным числом возможных значений, то, в принципе, можно получить генеральную совокупность при неограниченном увеличении числа измерений. По теореме Бернулли относительные частоты появления тех или иных возможных значений будут стремиться по вероятности к истинным вероятно­стям этих значений. Если X - непрерывная случайная величина, то ситуация усложняет­ся, поскольку возможные значения случайной величины в совокупности представляют непрерывное множество. Из сказанного следует, что, во-первых, для любого конечного n нельзя утверждать, что Xn является генеральной совокупностью, во-вторых, чем больше n, тем ближе, в определённом смысле, Xn к генеральной совокупности.

Та выборка Xn, которая достаточно хорошо сохраняет пропорции генеральной со­вокупности, называется представительной (или репрезентативной). Это определение пред­ставительности выборки не позволяет делать конкретные выводы, так как не указана об­щая мера соответствия между представительной выборкой и генеральной совокупно­стью. Вопрос о представительности выборки нужно решать в конкретных частных зада­чах, опираясь на конкретные критерии соответствия.

Выборка Xn, элементы которой расположены в порядке возрастания, называется простым вариационным рядом. Разность R между наибольшим и наименьшим значениями измерений называют широтой распределения или размахом варьирования. Если одинаковые по значению элементы объединить в группы, то получается сгруппированный вариацион­ный ряд, который представляется в виде таблицы:

Та выборка Xn, которая достаточно хорошо сохраняет пропорции генеральной со­вокупности, называется представительной (или репрезентативной). Это определение пред­ставительности выборки не позволяет делать конкретные выводы, так как не указана об­щая мера соответствия между представительной выборкой и генеральной совокупно­стью. Вопрос о представительности выборки нужно решать в конкретных частных зада­чах, опираясь на конкретные критерии соответствия.

Выборка Xn, элементы которой расположены в порядке возрастания, называется простым вариационным рядом. Разность R между наибольшим и наименьшим значениями измерений называют широтой распределения или размахом варьирования. Если одинаковые по значению элементы объединить в группы, то получается сгруппированный вариацион­ный ряд, который представляется в виде таблицы:



В таблице хi (i = 1, 2, ..., r) - различающиеся значения элементов; ni - число элемен­тов, имеющих значение хi; r - число различных значений в выборке, причём n1 + n2 + ... + +nr = n.

По вариационному ряду строится эмпирическая функция распределения вероятностей исследуемой случайной величины. Эмпирическая функция распределения вероятностей F*(x) определяется как отношение числа (х) элементов выборки, меньших, чем x, к об­щему числу элементов n: F*(x) = (х)/ n. Эта функция будет иметь ступенчатый график. Если все элементы выборки различны, то величина ступенек будет равна 1/ n. С ростом объёма выборки n величина ступенек уменьшается и стремится к нулю при n Для непрерывной величины при эмпирическая функция F*(x) будет неограниченно приближаться к некоторой непрерывной функции F(x). Эту сходимость следует пони­мать как сходимость по вероятности. Если выборка имеет повторяющиеся по величине элементы, что характерно для дискретных величин, то удобнее пользоваться сгруппиро­ванным вариационным рядом. В случае дискретной величины ступенчатый характер функции F*(x) с возрастанием n сохраняется. С ростом n могут появляться дополнитель­ные ступеньки до тех пор, пока не будут зарегистрированы все возможные значения дис­кретной случайной величины (если число их конечно).

При большом объёме выборки и большом числе различных по величине элемен­тов выборки пользоваться простым и сгруппированным вариационными рядами неудоб­но. В таком случае пользуются интервальным вариационным рядом, который строится сле­дующим образом. Вся широта распределения разбивается на r частичных интервалов и подсчитывается число элементов ni, попавших в i-й интервал (i = 1, 2, ..., r). Для каждого интервала указываются его правая i-1 и левая i границы и его середина xi. Вся эта ин­формация представляется в виде таблицы произвольной формы. Приведём один из ва­риантов такой таблицы:




Для наглядного представления о форме плотности распределения случайной ве­личины X используются понятия полигона и гистограммы распределения, которые строят­ся по интервальному вариационному ряду. Для построения полигона нужно из середины каждого частичного интервала восстановить перпендикуляр длиной рi* = ni/n и соеди­нить отрезками прямых вершины этих перпендикуляров. Вершины крайних перпенди­куляров соединяются с концами крайних частичных интервалов. Относительные частоты рi* представлены в таблице последней строкой. Чтобы построить гистограмму, нужно на каждом частичном интервале построить прямоугольник высотой pi* (рис. 1).



^ Рис. 1. Полигон и гистограмма эмпирического распределения

Относительные частоты pi* есть не что иное, как эмпирические вероятности попа­дания случайной величины в соответствующие интервалы (здесь и далее символ * озна­чает, что величина определена по экспериментальным данным). Если по оси OY откла­дывать не pi, а отношения pi*/i, где i - длины частичных интервалов, то полигон и гис­тограмма будут различными формами представления эмпирической плотности распределе­ния вероятностей.

Любая группировка исходных данных, подобная той, которая применяется при построении интервального вариационного ряда, приводит к частичной потере инфор­мации. Интервальный вариационный ряд не содержит точных значений элементов вы­борки, так как все элементы, попавшие в i-й интервал (i = 1, 2, ..., r), фактически прирав­ниваются к значению , находящемуся в середине интервала. Современная вычисли­тельная техника позволяет проводить обработку данных, исходя непосредственно из простого вариационного ряда при любом объёме выборки. Использовать интервальный вариационный ряд рационально тогда, когда этого требует сам метод обработки экспе­риментальных данных.

^ Эмпирические числовые характеристики. Числовые характеристики случайных величин, найденные на основе эксперимен­тальных данных, называются точечными оценками этих характеристик или эмпирическими характеристиками. Чтобы понять структуру формул, определяющих эмпирические мо­менты случайной величины, рассмотрим простой вариационный ряд Xn = x1x2, ..., xn}. Можно формально считать, что рассматривается дискретная случайная величина, имеющая n возможных значений с вероятностями 1/n. Математическое ожидание этой случайной величины и дисперсия определяются по общему правилу:



Данные формулы соответствуют простому вариационному ряду. Для сгруппирован­ного вариационного ряда число слагаемых в уменьшится до r, где r - число различных по величине элементов выборки, за счёт группирования одинаковых слагаемых. Для интервального вариационного ряда формулы будут иметь такую же структуру, однако вместо непосредственных измерений, в ней фигурируют середины частичных интервалов xi. Учитывая эти особенности, можно записать общие формулы для вычисления начальных  *k и центральных *k эмпирических моментов случайной величины8:



В этих формулах первая строка соответствует простому вариационному ряду, вто­рая - сгруппированному, третья - интервальному вариационному ряду. Формулы связи между центральными и начальными моментами не изменяется, т.е.




Эмпирическое математическое ожидание случайной величины совпадает с первым начальным моментом 1*, а её эмпирическая дисперсия совпадает со вторым центральным моментом 2*. Формулы, определяющие основные характеристики случайной величины, также сохраняют свою структуру. В них достаточно заменить теоретические моменты k и k на эмпирические k* и k*. Таким образом, эмпирические характеристики асимметрия (скошенность) и эксцесс определяются по обычным формулам:




Где - эмпирическое среднее квадратическое отклонение величины Х.

При вычислении эмпирических характеристик можно делать некоторые предва­рительные преобразования выборки, которые приводят к упрощению вычислений. При этом опираются на соответствующие свойства математического ожидания, дисперсии и т.п. Например, математическое ожидание можно вычислять по формуле:



Постоянная величина C выбирается так, чтобы суммирование оказалось наиболее простым. Преобразование типа X - C означает сдвиг всей выборки по числовой оси на величину C. Дисперсия не изменяется, т.е. D*X} = D*X - C}. Можно вводить масштабный коэффициент, т.е. рассматривать величину X вместо величины X, где  - масштаби­рующий множитель. При вычислениях следует учитывать, что MX} = MX}, а DX} = 2 DX}. Такие преобразования часто приводят к упрощению вычислений. Если вычис­ления проводятся на ЭВМ, то эти преобразования не целесообразны.

^ Точечные оценки параметров. Свойства эмпирических характеристик.

Требуется оценить некоторый параметр , связанный со случайной величиной X, используя выборку Xn = x12, ..., хn}. Пусть в качестве такой оценки выбрана однознач­ная функция от элементов выборки * = *(x1, х2, ..., хn). Для конкретных значений эле­ментов выборки эта оценка представляет собой одно число. Такие оценки называются точечными оценками параметров, так как на числовой оси они изображаются одной точ­кой. Задача состоит в том, чтобы найти такую оценку *, которая была бы в определён­ном смысле наиболее близкой к оцениваемому параметру .

Как функция элементов выборки, оценка * является случайной величиной. Оп­ределим её математическое ожидание. Оно, очевидно, будет зависеть от истинных число­вых характеристик изучаемой величины X и от объёма выборки n. Пусть получено равен­ство:

М*} =  + (, n),

где (, n) - некоторая функция истинного значения параметра . Желательно, чтобы функция (, n) равнялась нулю. Это бы означало, что математическое ожидание оценки параметра равно истинному значению этого параметра. Оценка *, обладающая таким свойством, называется несмещённой оценкой параметра . Если (, n)  0, то * называется смещённой оценкой параметра , а сама функция (, n) называется смещением.

Если при n оценка параметра сходится по вероятности к истинному значению параметра, то оценка * называется состоятельной оценкой параметра . Для дальнейшего изучения свойств оценки * можно определить её дисперсию, которая также окажется функцией от истинных числовых характеристик изучаемой случайной величины X и от объёма выборки n, т.е. D{*} = D(, n). Если оценка состоятельная, то D(, n) стремится к нулю при n Различные оценки одного и того же параметра будут иметь разные дис­персии. Та из них, которая имеет наименьшую дисперсию, называется эффективной оцен­кой данного параметра.

Приведем краткий анализ эмпирических числовых характеристик. Найдем математическое ожидание и дисперсию оценки mx случайной величины Х:





Здесь учтено, что элементы выборки xi, являясь независимыми реализациями слу­чайной величины X, имеют те же самые характеристики, что и сама величина X. Таким образом,



Из этого следует, что mX* является несмещённой и состоятельной оценкой истинного математического ожидания mx случайной величины X (DmX*}0 при n.

Аналогичный анализ для эмпирической дисперсии DX* показывает, что



Таким образом, эмпирическая дисперсия является смещённой оценкой дисперсии. Смещение равно (-Dx/ n) и стремится к нулю при n. Однако при малом объёме выбор­ки это смещение оказывается существенным. Для его устранения вводится поправочный коэффициент, при умножении которого на DX* получается другая оценка дисперсии, не имеющая смещения. Эта оценка обозначается обычно через S2 (читается: «S - квадрат»):



Очевидно, что MS2} = Dx.

Вычисление дисперсии величины S2 не представляет принципиальных трудно­стей, но оказывается достаточно громоздким. Вычисления показывают, что эта дисперсия пропорциональна величине 1/n и, следовательно, стремится к нулю при n. Таким об­разом, величина S2 является несмещённой и состоятельной оценкой истинной дисперсии Dx. Её рекомендуется использовать вместо оценки Dx*, особенно при малых значениях n.

Свойством несмещённости обладают только первые два эмпирических момента. Моменты более высоких порядков ни при каких весовых коэффициентах суммирования таким свойством не обладают, т. е. они всегда имеют неустранимое смещение.

Рассмотрим кратко методы нахождения оценок. Один из методов предполагает за­дание структуры оценки с точностью до неизвестных параметров, которые определяются из условия минимума дисперсии оценки. Примером применения этого метода является определение оценки математического ожидания случайной величины в случае неравно­точных измерений. Пусть по выборке Xn = x1, x2, ..., xn} требуется оценить параметры mx и Dx, причём измерения xi были произведены с разной точностью, т.е.



Чем меньше дисперсия измерения, тем больше доверия этому измерению, т.е. из­мерения должны учитываться оценкой с разными весовыми коэффициентами. Исходя из этого, выберем следующую структуру оценки:

(1)

Чтобы оценка была несмещенной, необходимо выполнение условия:



т.е. . Коэффициенты bi нужно выбрать так, чтобы они минимизировали бы дисперсию оценки. Так как измерения статистически независимы, то . Коэффициенты bi должны определяться из условия , i=1,2,…n, при ограничении .

Проводя минимизацию, получим:

(2)

Итак, при неравноточных измерениях для оценки математического ожидания следует пользоваться формулой (1), подставляя в неё коэффициенты bi из (2).



Второй метод нахождения оценок - метод моментов. В этом методе используются теоретические формулы, которые связывают оцениваемый параметр с моментами слу­чайной величины. Для получения оценки неизвестного параметра нужно в соответст­вующую формулу подставить вместо теоретических моментов эмпирические моменты. Предположим, например, что случайная величина X распределена по экспоненциально­му закону: f(x) = exp{-x}, где  > 0, x > 0, причём параметр  неизвестен. Требуется оце­нить этот параметр. Пусть по выборке Xn получена оценка математического ожидания mx* исследуемой случайной величины. С другой стороны, известна формула, связываю­щая параметр  экспоненциального распределения с математическим ожиданием mx:  = = 1/ mx. Подставляя в эту формулу вместо mx оценку mx*, получим оценку параметра : * = 1/mх*. В некоторых случаях оценки, полученные этим простым способом, совпадают с оценками, полученными с помощью других, более сложных методов.

Третий метод - метод наибольшего правдоподобия. Этот метод требует знания закона распределения случайной величины с точностью до неизвестных параметров. Предпо­ложим, что плотность распределения вероятностей величины X равна fx(x, ), где  - не­известный параметр, который требуется оценить. Тогда каждое измерение xi из выборки Xn = {x1, х2, ..., xn} будет иметь плотность распределения fx(xi,). Элементы выборки xi яв­ляются статистически независимыми, поэтому n - мерная плотность распределения веро­ятностей выборки равна произведению одномерных плотностей, т.е.



Эту плотность называют функцией правдоподобия. Можно предполагать, что в вы­борке чаще встречаются те возможные значения величины X, для которых плотность распределения имеет относительно большие значения. Из этого следует, что в качестве оценки параметра  логично взять такое значение, которое максимизирует функцию правдоподобия. Однако с целью упрощения вычислений используют не функцию правдоподобия непосредственно, а её натуральный логарифм:



Доказано, что эта функция имеет максимум, причём значение  = *(x1, х2, ..., хn), при котором достигается этот максимум, является оценкой параметра , обладающей наи­меньшей дисперсией. Таким образом, для определения оценки нужно решить уравнение



Решение этого уравнения *(x1, х2, ..., хn) и будет оценкой параметра . Оценки, найденные таким способом, называются оценками максимального (или наибольшего) правдопо­добия. Оценки максимального правдоподобия всегда являются эффективными оценками.

^ Доверительные интервалы. Общие определения. Точечные оценки оценивают неизвестное значение параметра одним числом. Не­достатком точечных оценок является то, что в них не указывается точность оценки пара­метра при выборках конечного объёма. Можно лишь сказать, что при n оценки пара­метров сходятся по вероятности к истинным значениям этих параметров. Иногда удобнее оценивать значение параметра с помощью интервала, в который это значение попадает с определённой вероятностью. Пусть  - оцениваемый параметр, а 1 и 2 - две функции элементов выборки x1, x2, ..., xn, такие, что 1 < 2. Если выполняется соотношение

P{1 <  < 2} = g, (3)

то интервал (1, 2) называется 100 -процентным доверительным интервалом параметра . Другими словами, доверительный интервал - это интервал, в котором с заданной веро­ятностью находится значение неизвестного параметра. Значения Q1 и Q2 называют соот­ветственно нижней и верхней границами доверительного интервала, a g - доверительной вероятностью или коэффициентом доверия. Неважно, каким образом были получены гра­ницы интервала Q1 и Q2, важен сам факт выполнения соотношения (3). Доверительный интервал даёт определённую информацию о точности оценки данного параметра.

Для построения доверительного интервала необходимо знать тот или иной закон распределения вероятностей. Предположим, например, что неизвестный параметр  можно интерпретировать как некоторую случайную величину с известной плотностью распределения вероятностей f(). Пусть * = *( x1, х2, ..., хn) - точечная оценка параметра . Тогда в некоторых случаях можно определить условную плотность распределения вероятностей



Следовательно, из соотношения

можно определить границы Q1и Q2 доверительного интервала с доверительной вероятностью g.

Однако не всегда можно задать неизвестный параметр плотностью распределения вероятностей. Обычно неизвестный параметр является некоторой постоянной величи­ной. Поэтому при построении доверительного интервала пользуются не условной плот­ностью распределения f( | *), а условной плотностью f(* | ). Рассмотрим один из воз­можных способов построения доверительного интервала с использованием этой плотно­сти. Зададим некоторую доверительную вероятность g и рассмотрим соотношение Р|* - | < } = g.

Это соотношение определяет симметричный относительно  доверительный ин­тервал. Рассматривая это соотношение как уравнение относительно , можно определить , используя известную плотность f(* | )0. Тем самым доверительный интервал будет най­ден.

Величина  определяет ширину доверительно­го интервала. Для фиксированного значения довери­тельной вероятности g и для неизменной плотности f(Q* | Q) эта величина является постоянной. Границы доверительного интервала определяются равенства­ми  = *- и  = * + . Если считать  и * перемен­ными, то эти два равенства являются уравнениями прямых линий. Вся область, заключённая между этими прямыми, называется доверительной областью. Располагая доверительной областью можно определить доверительный интервал для любого значения оценки *.
Для дискретных случайных величин не всегда мож­но найти доверительный интервал, имеющий коэффици­ент доверия, в точности равный g, если g задано произволь­но. Это связано с тем, что закон распределения дискретной случайной величины имеет ступенчатый характер.

Установление доверительного интервала не озна­чает того факта, что неизвестный параметр принадлежит этому интервалу. Можно лишь утверждать, что с вероятно­стью у этот параметр находится внутри интервала. При этом, разумеется, с вероятностью 1 - g данный параметр на­ходится вне этого интервала. Доверительную вероятность у выбирают достаточно боль­шой (g = 0,9  0,99). Следует иметь в виду, что при увеличении доверительной вероятно­сти увеличивается длина доверительного интервала. Таким образом, при выборе значе­ния доверительной вероятности следует придерживаться разумного компромисса. Если есть необходимость повысить доверительную вероятность при сохранении длины дове­рительного интервала, то нужно увеличить объём выборки.
1   2   3



Скачать файл (647 kb.)

Поиск по сайту:  

© gendocs.ru
При копировании укажите ссылку.
обратиться к администрации