Logo GenDocs.ru

Поиск по сайту:  

Загрузка...

Основы математической статистики - файл 1.doc


Основы математической статистики
скачать (302 kb.)

Доступные файлы (1):

1.doc302kb.08.12.2011 18:53скачать

содержание
Загрузка...

1.doc

Реклама MarketGid:
Загрузка...
План
Введение

  1. Предмет математической статистики

  2. Вариационный ряд и его характеристики

  3. Выборочный метод и статистическое оценивание

  4. Понятие о проверке статистических гипотез

Заключение

Список использованной литературы

Введение
Явления, происходящие в природе, в обществе, в человеке, очень сложны и разнообразны. Ученые изучают разные стороны этих явлений, причем каждая наука вырабатывает свои специфические методы исследования. Например, таким важным социальным явлением, как преступность, занимаются не только юристы, но и социологи, психологи, медики и иные специалисты. Есть тут серьезная работа и для математиков. Их задача состоит в том, чтобы подвергнуть математической статистике огромный статистический материал: отчеты органов внутренних дел и другие документы, содержащие различные числовые данные. Цель этой работы – выделить наиболее существенные сведения об интересующем нас явлении.
1. Предмет математической статистики
Термин статистика употребляется ча­ще всего для обозначения двух понятий. Во-первых, статистикой называют набор количе­ственных данных о некотором явлении, со­вокупности объектов и т.п. Эти данные на­зывают статистическими.

Во-вторых, термином статистика объ­единяют совокупность методов исследования, основанных на анализе статистических дан­ных.

В каждой области деятельности разрабо­таны свои специфические статистические ме­тоды. Существует много разных статистик: социально-экономическая, демографическая, медицинская, юридическая, звёздная и ряд других. Поскольку всякая статистика опери­рует с числами, то основой всех статистических методов является математика. Совокуп­ность математических методов обработки, си­стематизации, анализа и использования статистических данных составляет предмет спе­циальной науки – математической статисти­ки. Именно математические методы в силу их объективности позволяют получать наиболее значимые результаты при обработке статисти­ческих данных. Глубина и достоверность этих результатов зависит как от мощности приме­няемых математических методов, так и от пра­вильности их применения. Разумеется, досто­верность результатов зависит также от доброкачественнности статистического материала, который подвергается обработке.

Математическая статистика – раздел математики, в котором изучаются методы сбора, систематизации и обработки результатов на­блюдений массовых случайных явлений для выявления существующих закономерностей.

Математическая статистика тесно связана с теорией вероятностей. Обе эти математические дисциплины изучают массовые случайные явления. Связующим звеном между ними являются предельные теоре­мы теории вероятностей. При этом теория вероятностей выводит из ма­тематической модели свойства реального процесса, а математическая статистика устанавливает свойства математической модели, исходя из данных наблюдений (говорят "из статистических данных").

Предметом математической статистики является изучение случай­ных величин (или случайных событий, процессов) по результатам на­блюдений. Полученные в результате наблюдения (опыта, эксперимен­та) данные сначала надо каким-либо образом обработать: упорядочить, представить в удобном для обозрения и анализа виде. Это первая зада­ча.

Затем, это уже вторая задача, оценить, хотя бы приблизительно, интересующие нас характеристики наблюдаемой случайной величи­ны. Например, дать оценку неизвестной вероятности события, оценку неизвестной функции распределения, оценку математического ожида­ния, оценку дисперсии случайной величины, оценку параметров рас­пределения, вид которого неизвестен, и т.д.

Следующей, назовем ее условно третьей, задачей является провер­ка статистических гипотез, т.е. решение вопроса согласования ре­зультатов оценивания с опытными данными.

Одной из важнейших задач математической статистики является разработка методов, позволяющих по результатам обследования выборки делать обоснованные выводы о распределении признака изучаемых объектов по всей совокупности.
2. Вариационный ряд и его характеристики
Ряды распределения – это ряды абсолютных и относительных чи­сел, которые характеризуют распределение единиц совокупности по качественному (атрибутивному) или количественному признаку. При­мером распределения совокупности по качественному признаку мо­жет быть распределение сотрудников милиции (офицеров) по специ­альному званию: полковников – 1, подполковников – 3, майоров – 8 … всего – 50 человек. Эта же совокупность может быть распределена по количественному признаку, скажем, по возрасту: моложе 20 лет – 2, 20-24 года – 18, 25-29 лет – 10 и т.д. В обоих примерах ряды распре­деления выражены в абсолютных числах. Последние в подобных слу­чаях называются частотами ряда распределения. Они указывают, на­сколько части повторяется та или иная варианта (признак). Варианта "майор" имеет частоту 8, а варианта "20-24 года" – 18.

Если значения качественных или количественных признаков вы­ражены в относительных числах (например, в процентах к общему числу), то эти значения именуются частостями. В этом случае наши примеры выглядят так: полковников – 2 %, подполковников – 6, май­оров – 16 … всего 100 %; моложе 20 лет – 4 %, 20-24 года – 18, 25-29 лет – 10 … всего 100 %.

Ряды распределения в таблицах, как правило, имеют и частоты, и частости (табл. 1).

Таблица 1

Распределение сотрудников милиции по званию и возрасту


Звание

Абсолютное число

В % к итогу

Возраст, лет

Абсолютное число

В % к итогу

Полковник

1

2

До 20

2

4

Подполковник

3

6

20-24

18

36

Майор

8

16

25-29

10

20

Капитан

12

24

30-34

10

20

Ст. лейтенант

15

30

35-39

5

10

Лейтенант

10

20

40-49

3

6

Мл. лейтенант

1

2

50 и старше

2

4

Итого

50

100

Итого

50

100

Ряды распределения, построенные по количественному признаку (возраст, стаж, сроки расследования или рассмотрения дел, число судимостей и т.д.), называются вариационными рядами. Различия единиц совокупности (до 20 лет, 20-24 года, 25-29 лет и т.д.) количественного признака называется вариацией, а сам кон­кретный признак – вариантой.

Вариация признаков может быть дискретной, или прерывной (20, 21, 22, 23, 24, 25 лет и т.д.), либо непрерывной (до 20 лет, 20-25, 25-30 лет и т.д.). При дискретной вариации величина количественно­го признака (варианты) может принимать вполне определенные значе­ния, отличающиеся в нашем примере на 1 год (20,21,22 и т.д.). При не­прерывной вариации величина количественного признака у единиц совокупности в определенном численном промежутке (интервале) мо­жет принимать любые значения, хоть сколько-нибудь отличающиеся друг от друга. Например, в интервале 20-25 лет возраст конкретных сотрудников может быть 20 лет и 2 дня, 21 год и 10 месяцев и т.д.

Вариационные ряды, построенные по дискретно варьирующим признакам, именуют дискретными вариационными рядами, а построен­ные по непрерывно варьирующим признакам (интервалам) – интер­вальными вариационными рядами. Вариационный ряд всегда состоит из двух основных граф (колонок) цифр.

В первой колонке указываются значения количественного призна­ка в порядке возрастания. В нашем примере интервального вариаци­онного ряда: до 20 лет, 20-24 года, 25-29 лет и т.д. При дискретной ва­риации 20, 21, 22, 23, 24, 25 лет. Эти значения количественного призна­ка и называют вариантами. В статистической литературе этот термин иногда употребляется как существительное мужского рода (вариант, варианты), а иногда – как существительное женского рода (варианта, варианты).

Во второй колонке указываются числа единиц, которые свойствен­ны той или иной варианте. Их называют частотами, если они выраже­ны в абсолютных числах, т.е. сколько раз в изучаемой совокупности встречается та или иная варианта, или частостями, если они выраже­ны в удельных весах или долях, т.е. в процентах или коэффициентах к итогу.

Интервальный вариационный ряд иногда строится с равными интервалами (20-24, 25-29 лет), а иногда с неравными (14-15, 16-18, 19-20, 21-25 лет) интервалами. В первом случае оба интервала равны 5 годам, а во втором случае – 2, 3, 5 годам. При построении интерваль­ного ряда с непрерывной вариацией верхняя граница каждого интер­вала обычно является нижней границей последующего (20-25, 25-30, 30-35 и т.д.), а в построении интервального ряда по дискретному при­знаку границы смежных интервалов не повторяются (1-5 дней, 6-10 дней, 11-15 дней и т.д.)

Статистический анализ вариационных рядов требует не только на­личия единичных частот (частостей), но и накопленных частот (частостей). Накопленная частота для той или иной варианты представляет собой
сумму частот всех предшествующих вариант (интервалов). В на­шем примере (табл. 1) для интервала 20-24 года накопленная частота будет равна:
2 + 18 = 20 человек, а накопленная частость 4 + 36 = 40 %, а для интервала 25-29 лет соответственно: 2 + 18 + 10 = 30 человек, или 4 + 36 + 20 = 60 %. Таким образом, от варианты к варианте (от интерва­ла к интервалу) идет накопление (кумуляция) частот и частостей.

Вариационные ряды легко изображаются графически в виде поли­гона или гистограммы. Графическое изображение накопленных частот (частостей) воспроизводится в системе прямоугольных координат в виде кумуляты, или кумулятивной кривой. По оси ординат откладыва­ется величина накопленных частот, а по оси абсцисс – возрастающие значения количественного признака. Накопленные частоты и кумулята – это интегральные показатели плотности распределения в вариа­ционном ряду.
3. Выборочный метод и статистическое оценивание
Основной формой сбора крими­нологической и социально-правовой информации является статисти­ческая отчетность правоохранительных и других юридических учреж­дений. Но их отчеты, отражая важнейшие показатели, ограничены по объему. Юридическая наука и практика систематически нуждаются в та­кой информации, которая бы адекватно отражала возникающие во­просы в меняющейся действительности. Поэтому по актуальным во­просам, которые не отражены в официальной отчетности, следует про­водить специально организованные изучения, применяя такое несплошное наблюдение, которое дает относительно надежные и достоверные данные. Это достигается при выборочном наблюдении.

Методика выборочного наблюдения досконально разработана математической статистикой. Оно получило самое широкое признание и распространение в различных отраслях науки и практики как метод, во многих случаях замещающий сплошное изучение тех или иных явле­ний и процессов. Выборочный метод относительно прост, экономи­чен, оперативен, надежен и имеет вполне определимую точность.

Выборочные данные достаточно полно отра­жают особенности всей, или, как говорят статистики, генеральной, со­вокупности изучаемых явлений.

Теория выборочного наблюдения базируется на статистических закономерностях, которые формируются и обнаруживаются в массо­вых явлениях и процессах. Это свойство закономерностей получило название закона больших чисел. Математической основой закона боль­ших чисел, да и статистической науки в целом, служит теория вероят­ностей.

Приведем экспери­ментальный пример распределения случайных величин, заимствован­ный из статистической литературы и приближенный к нашим проб­лемам.

Были взяты 10 пачек по 10 карточек, пронумерованных от 1 до 10. Каждую пачку тщательно перемешали. После этого из каждой пачки по жребию было извлечено по одной карточке. Сумма номеров вы­нутых карточек составила 52. Карточки были возвращены в свои пачки, которые вновь перемешивались. При втором извлечении сум­ма номеров вынутых карточек составила 46. Подобные операции были проделаны 30 раз. Полученные данные: 52, 46, 72 и т.д. (табл. 2).

Таблица 2

Индивидуальные суммы при 30 извлечениях

52

56

58

46

65

42

72

48

58

53

54

46

36

62

63

55

65

61

42

48

68

56

65

53

61

61

54

53

60

43


На втором этапе эксперимент усложнялся: было сделано не по од­ному извлечению карточек из каждой пачки, а последовательно по 10 извлечений 30 раз, или 30 выборок. Сделав 10 извлечений по одной карточке из каждой пачки (извлекалась одна карта, возвращалась в пачку, пачка перемешивалась, и т.д.), подсчитав общую сумму номе­ров вынутых карточек (526) и разделив на 10, получили среднюю сумму 52,6. Так повторили 30 раз (табл. 3).

Таблица 3

Средние суммы из 10 извлечений в 30 выборках

52,6

53,4

56,7

58,4

59,4

55,2

54,6

55,0

56,3

52,6

56,2

52,3

48,6

61,6

53,8

54,0

53,6

57,8

52,8

54,2

55,9

50,8

56,8

61,8

46,0

52,3

58,6

55,8

54,0

49,2


При проведении третьего этапа эксперимента в каждую из таких 30 случайных выборок входило уже по 40 извлечений. Среднее число из первых 40 извлечений составило 54,6, из вторых – 51,6 и т.д. (табл. 4).

Таблица 4

Средние суммы из 40 извлечений в 30 выборках

54,6

55,3

54,3

51,6

54,1

57,2

53,6

55,8

53,2

56,6

55,4

56,0

54,3

56,0

54,5

55,1

53,2

51,5

57,3

55,1

53,7

54,4

54,3

56,0

56,0

54,8

54,8

55,4

54,2

53,4


Полученные эмпирические вероятности сравнивались с теорети­ческой вероятностью. Последняя в данном примере равна средней сумме номеров десяти карточек в пачке, которая представляет собой как бы среднюю в исходной совокупности. Она равняется: . По значению отклонений от этой средней можно судить, насколько эмпирическая вероятность приближается к теоретической.

Размах колебаний индивидуальных сумм (указанных в табл. 2) был самым большим и равнялся 36. Это не что иное, как разность между максимальной и минимальной суммой (они в таблицах выделены и подчеркнуты). В табл. 2 максимальная сумма равнялась 72, минималь­ная 36 . Отклонение этих показателей от средней (55) было наибольшим: и .

При выборках, состоящих каждая из 10 извлечений (см. табл. 3), размах колебаний уменьшился более чем вдвое, до 15,8 , а максимальные отклонения от средней составили: и .

В выборках, состоящих каждая из 40 извлечений, размах колеба­ний по сравнению с результатами первой части эксперимента умень­шился более чем в 6 раз, составив только 5,8 . Макси­мальные отклонения от средней равнялись при этом: и .

Р

Рис. 1
аспределение выбо­роч­ных сумм отражено на графике рис. 1, на оси абсцисс которого отложены суммы выборки с указанием средней (55) в исходной совокупности, а на оси ординат – этапы эксперимента.

Результаты эксперимента показывают, что чем больше извлече­ний, тем их усредненные показатели плотнее группируются вокруг средней (теоретической вероятности) в исходной совокупности. То есть чем больше явлений изучено, тем надежнее полученные данные, тем точнее выявленные закономерности. Данный вывод – краеугольный ка­мень всех статистических выборочных исследований.

Теоретические основы выборочного метода были бы неполны­ми, если бы мы не коснулись законов распределения случайных величин, к которым подвел нас проведенный эксперимент.

Поскольку за внешними случайными явлениями стоят скрытые за­коны, то данные, характеризующие эти явления, должны распределять­ся определенным образом. Исходя из закона больших чисел, чем боль­ше изученная совокупность случайных явлений, тем должно быть более упорядоченным распределение полученных данных. Обратимся к результатам различных этапов эксперимента. Из табл. 2-4 и рис. 1 видно, что на первом этапе эксперимента при 30 индивидуальных извлечениях числовые значения вынутых карточек, имея большое рассеяние, все же группировались вокруг средней суммы, равной 55. На втором этапе при 30 выборках по 10 извлечений эта тенденция стала более явной, а на третьем этапе при 30 выборках по 40 извлечений – очевидной.

Представим данные табл. 4 в виде вариационного ряда, ранжиро­вав их от меньшего к большему по значению извлеченных карточек (табл. 5). Данные для простоты исчисления округлены до целых чисел.

Таблица 5

Усредненные суммы значений карточек (х)

Частоты извлечения карточек (f)

Произведения карточек (xf)

51

52

53

54

55

56

57

1

2

3

8

8

5

3

51

104

159

432

440

280

171




Сумма

Сумма


Из табл. 5 видно, что с увеличением варьирующего признака (усредненной суммы значения карточек) частота извлечения этих сумм в

Рис. 2
начале увеличивается, а затем, после достижения мак­симального зна­чения (), уменьшается. Налицо зако­номерность. Упорядочен­ность изменения частот в вариацион­ных рядах имену­ется законо­мерностью распре­де­ления. Данные табл. 5, изображенные графически в виде стол­биковой диаграммы, гистограммы или полигона распределения, пред­ставлены на рис. 2.

Гистограмма, или полигон распределения, представляет собой ломаную кривую, характеризующую фактическое распределение полученных данных. Она позволяет выявить лишь приближенную картину распределения всей (генеральной) совокупности. Чем больше выборочное изучение, тем в большей мере будут сглаживаться влияние слу­чайных причин и явственнее будет проступать действительная закономерность распределения. В этом случае кривая распределения факти­ческих данных будет приближаться к теоретической кривой распреде­ления.

В

Рис. 3
математической статистике теоретическую кривую распределе­ния обычно называют кривой Лапласа – Гаусса, или нормальным рас­пределением (рис. 3).

Нормальное распределение в чистом виде при выборочных иссле­дованиях в юридических или других социальных науках встречается нечасто. Тем не менее большинство распределений близки к нормаль­ному. Фактическое распределение выборочных показателей отличает­ся от теоретического, главным образом, нарушением симметрии, т.е. если в нормальном распределении частоты анализируемого признака убывают по обе стороны от вершины кривой равномерно, то в фактиче­ском распределении вершина кри­вой может быть смещена влево или вправо от теоретической средней, быть крутой с одной стороны и поло­гой – с другой (см. рис. 2). Причина таких смещений – ошибки наблю­дения и сбора данных.

Распределение показателей ха­рактеризуется размахом вариации и отклонением от средней.

Размах вариации (колебаний) – наиболее простой параметр изме­рения разброса значений варьирующего признака. Он исчисляется по формуле .

Наиболее полная характеристика распределения раскрывается че­рез значение отклонения всех вариант от средней или значение отклоне­ния эмпирических вариант от теоретических. Причем важно не столь­ко отклонение каждой варианты от средней, сколько среднее отклоне­ние всех вариант от средней, или дисперсия (колеблемость, пестро­та) изучаемого признака. Упрощенно мы ее тоже рассчитывали. На первом этапе эксперимента значение отклонения от среднего находи­лось в диапазоне от +17 до –19, на втором – от +6,8 до –9, на треть­ем – от +2,3 до –3,5.

Средние величины – наиболее распространенные показатели в статистике. Это объясняется тем, что только с помощью средней мож­но охарактеризовать совокупность по количественно варьирующему признаку.

Средняя величина может раскрыть лишь общую тенденцию изу­чаемого явления и только тогда, когда она выведена из большого числа фактов и при изучении однородной совокупности. При несоблюдении этих условий средние показатели лишь введут в заблуждение. Приме­ром может служить средняя заработная плата в нашей стране, когда в одну совокупность зачисляют и богатых, и бедных, разрыв в уровне обеспечения которых в 1997 г., например, составил соответственно 24: 1.

В статистике разработано множество средних величин: степенные (средняя арифметическая, средняя гармоническая, средняя геометри­ческая и др.), мода и медиана. Каждая из средних выполняет свои ана­литические функции. Для расчета дисперсии и других показателей вы­борочного наблюдения нам необходима лишь средняя арифметиче­ская.

Средний арифметический показатель – наиболее распространен­ный вид средних. Он используется в качестве центрального значения в рядах распределения и выполняет функцию теоретической вероятно­сти. Все другие варианты расцениваются как случайные отклонения от него. Чем больше отклоняется какое-либо значение признака от сред­него арифметического, тем более случайным оно является.

Средняя арифметическая простая, известная из школьных учебни­ков по математике, рассчитывается по формуле

,

где , , ,…, – значения признака; n – число значений.

При изучении больших совокупностей некоторые варианты имеют большие частоты повторения. Из табл. 5, например, видно, что вари­анта 52 повторяется дважды, 53 – трижды, 54 – восемь раз и т.д. В этом случае целесообразнее вначале каждую варианту умножить на частоту ее встречаемости, как это показано в графе (xf) упомянутой таблицы. Такое умножение в статистике называют взвешиванием. Средняя арифметическая в данном случае именуется взвешенной и рассчитыва­ется по формуле

.

Средняя арифметическая лежит в основе расчета дисперсии (колеблемости), которая представляет собой не что иное, как значение отклонения всех вариант от средней. Значение дисперсии и предопределя­ет объем выборочной совокупности. Чем больше дисперсия, тем боль­ше разброс показателей от средней, а, следовательно, нужен больший объем выборки, чтобы она была достаточно репрезентативной. Репре­зентативность (представительность) объема выборки практически не зависит от объема генеральной совокупности.

Расчет дисперсии качественных и количественных признаков неодинаков. Определение объема и представительности выборочной совокупности, а, следовательно, и дисперсии производится примени­тельно не к преступности, административной правонарушаемости или другим социально-правовым явлениям вообще, а лишь к их конкрет­ным показателям. Последние могут быть качественными, или атрибутивными (вид преступления, содержание мотива, свойства личности и т.д.), и количественными (возраст правонарушителей, уровень обра­зования, повторность совершения преступления, сроки рассмотрения гражданских дел и т.п.). Каждый признак имеет свою дисперсию, а, следовательно, и необходимый объем выборки для надежного изуче­ния. Это значит, что при выборочном изучении многих признаков, чтобы выявить совокупные отклонения, дисперсию надо рассчитывать по каждому из них. Иногда эти признаки исчисляются десятками и даже сотнями. Чтобы избежать множества расчетов, можно ограни­чить их только в отношении тех признаков, на базе которых делаются основные выводы. Общая численность выборки или ее общая репре­зентативность определяются по совокупной представительности всех параметров.

Дисперсия – это средний квадрат отклонения изучаемого признака от теоретического (среднего) показателя. Она характеризует уровень однородности исследуемой совокупности и обозначается символом . Расчет ее применительно к качественным признакам производится по одной формуле, а применительно к количественным – по другой.

Колеблемость качественного признака двухвариантна: совершено преступление против собственности или иное, в состоянии опьянения правонарушителя или трезвым субъектом, по мотиву мести или иным побуждениям, лицом, воспитанным в неполной или полной семье, интровертом или экстравертом и т.д. Указанная двухвариантность отражается в таких относительных показателях, как удельный вес или доля признака в общей структуре изученных явлений, в данном случае преступлений, причин, лиц, мер.

Удельные веса многих качественных признаков могут быть взяты из официальной статистической отчетности правоохранительных и других юридических органов, которая основывается на сплошном текущем учете, из предыдущих исследований, достоверность результатов которых не вызывает сомнений, или других источников. Они могут быть специально получены на основе предварительного (пилотажно­го) изучения. Если удельный вес какого-то признака неизвестен и нет возможности получить его при предварительном изучении, то иссле­дуемая совокупность по этому признаку условно принимается макси­мально неоднородной. В этом случае искомый удельный вес берется, равным 50% (или 0,5).

При наличии удельного веса качественного признака его диспер­сия рассчитывается по следующей формуле: , где Р – доля качественного признака, а () – доля иных признаков или противоположного признака.

Дисперсия количественного признака многовариантна. Она рассчитывается с применением средней арифметической взвешенной (ее расчет приводился выше) по формуле

,

где – дисперсия; х – показатели варь­ирующего признака; – среднее арифметическое значение признака; f – частоты вариант варьирующего признака.

Второй общепринятой мерой вариации признака является среднее квадратическое отклонение. Оно обозначается символом и выводится как самостоятельно, так и на основе среднего квадрата отклонений, т.е. дисперсии, которая обозначается .

Извлекая корень квадратный из дисперсии, получаем среднее квадратическое отклонение:

– для качественных признаков;

– для количественных признаков.

Среднее квадратическое отклонение всегда выражается в тех именованных числах, в которых выражены варианта и средняя.

Очер­тания симметричной кривой нормального распределения полностью определяются двумя показателями – средней арифметической (х) и средним квадратическим отклонением (). В зависимости от их зна­чений она может иметь разный центр группировки показателей (рис. 4), быть более удлиненной, растянутой или сжатой, компактной (рис. 5).
frame4

На рис. 4 средняя арифметическая больше средней арифметиче­ской поэтому распределение II сдвинуто по оси абсцисс вправо. Средние квадратические отклонения распределений I и II одинаковы (), следовательно, одинаковы и кривые распределения. На рис. 5, наоборот, средние арифметические () одинаковы, поэто­му центры группировки обоих распределении на оси абсцисс совпада­ют, а среднее квадратическое отклонение распределения II () больше среднего квадратического отклонения (), поэтому кривая II нор­мального распределения оказалась более растянутой, а кривая I – компактной.



Рис. 6

Следующее свойство среднего квадратического отклонения позво­ляет правильно оценить надежность выборочных показателей. Если пло­щадь, ограниченную кривой нор­мального распределения, принять за 1 или 100 %, то площадь, заключенная в пределах 1 вправо и влево от средней арифметической (рис. 6), составит 0,683 всей площади. Это означает, что 68,3% всех изученных вариант откло­няется от средней арифметической не более чем на 1, т.е. находится в пре­делах ().

Площадь, заключенная в преде­лах 2 вправо и влево от средней арифметической, составляет 0,954 всей площади, т.е. 95,4 % всех единиц совокупности находится в пре­делах (). Площадь, заключенная в пределах 3 влево и вправо от средней арифметической, составляет 0,997 всей площади, или 99,7 % всех единиц совокупности находится в пределах (). Это и есть так называемое правило трех сигм, характерное для нормального рас­пределения.

При проведении выборочных исследований параметры и , a также пределы единиц выборки (площадь выборки) всегда известны. Опираясь на них, можно с точностью сказать, с каким доверием следу­ет относиться к выборочным показателям.
4. Понятие о проверке статистических гипотез
Одна из часто встречающихся на практике задач, связанных с применением статистических методов, состоит в решении вопроса о том, должно ли на основании данной выборки быть принято или, напро­тив, отвергнуто некоторое предположение (гипотеза) относительно ге­неральной совокупности (случайной величины).

Процедура сопоставления высказанного предположения (гипотезы) с выборочными данными называется проверкой гипотез.

Задачи статистической проверки гипотез ставятся в следующем
виде: относительно некоторой генеральной совокупности высказыва­ется та или иная гипотеза Н. Из этой генеральной совокупности из­влекается выборка. Требуется указать правило, при помощи которого можно было бы по выборке решить вопрос о том, следует ли отклонить гипотезу Н или принять ее.

Следует отметить, что статистическими методами гипотезу можно только опровергнуть или не опровергнуть, но не доказать. Например, для проверки утверждения (гипотеза Н) автора, что "в рукописи нет ошибок", рецензент прочел (изучил) несколько страниц рукописи.

Если он обнаружил хотя бы одну ошибку, то гипотеза Н отверга­ется, в противном случае – не отвергается, говорят, что "результат проверки с гипотезой согласуется".

Выдвинутая гипотеза может быть правильной или неправильной, поэтому возникает необходимость ее проверки.

Под статистической гипотезой (или просто гипотезой) понима­ют всякое высказывание (предположение) о генеральной совокупности, проверяемое по выборке.

Статистические гипотезы делятся на гипотезы о параметрах распределения известного вида (это так называемые параметрические гипотезы) и гипотезы о виде неизвестного распределения (непараметрические гипотезы).

Одну из гипотез выделяют в качестве основной (или нулевой) и обозначают , а другую, являющуюся логическим отрицанием , т.е. противоположную – в качестве конкурирующей (или альтер­нативной) гипотезы и обозначают .

Гипотезу, однозначно фиксирующую распределение наблюдений, называют простой (в ней идет речь об одном значении параметра), в противном случае – сложной.

Имея две гипотезы и , надо на основе выборки принять либо основную гипотезу , либо конкурирующую .

Правило, по которому принимается решение принять или откло­нить гипотезу (соответственно, отклонить или принять ), назы­вается статистическим критерием (или просто критерием) проверки гипотезы .

Проверку гипотез осуществляют на основании результатов выбор­ки , из которых формируют функцию выборки , называемой статистикой критерия.

Основной принцип проверки гипотез состоит в следующем. Множество возможных значений статистики критерия разбивается на два непересекающихся подмножества: критическую область S, т.е. область отклонения гипотезы и область принятия этой гипоте­зы. Если фактически наблюдаемое значение статистики критерия (т.е. значение критерия, вычисленное по выборке: ) попадает в критическую область S, то основная гипотеза отклоняет­ся и принимается альтернативная гипотеза ; если же попадает в , то принимается , а отклоняется.

При проверке гипотезы может быть принято неправильное реше­ние, т.е. могут быть допущены ошибки двух родов.

Ошибка первого рода состоит в том, что отвергается нулевая гипо­теза , когда на самом деле она верна.

Ошибка второго рода состоит в том, что отвергается альтернатив­ная гипотеза , когда она на самом деле верна.

Вероятность ошибки 1-го рода (обозначается через ) называется уровнем значимости критерия.

Очевидно, . Чем меньше , тем меньше вероятность отклонить верную гипотезу. Допустимую ошибку 1-го рода обычно за­дают заранее.

В одних случаях считается возможным пренебречь событиями, вероятность которых меньше 0,05 ( означает, что в среднем в 5 случаях из 100 испытаний верная гипотеза будет отвергнута), в других случаях, когда речь идет, например, о разрушении сооружений, гибе­ли судна и т.п., нельзя пренебречь обстоятельствами, которые могут появиться с вероятностью, равной 0,001.

Обычно для используются стандартные значения: ; 0,01; 0,005; 0,001.

Вероятность ошибки 2-го рода обозначается через , т.е. .

Величину , т.е. вероятность недопущения ошибки 2-го рода (отвергнуть неверную гипотезу , принять верную ), называется мощностью критерия.

Очевидно, .

Чем больше мощность критерия, тем вероятность ошибки 2-го рода меньше, что, конечно, желательно (как и уменьшение ).

Последствия ошибок 1-го, 2-го рода могут быть совершенно различными: в одних случаях надо минимизировать , в другом – . Так, применительно к судебной системе, ошибка 1-го рода приводит к оправданию виновного, ошибка 2-го рода – осуждению невиновного.

Отметим, что одновременное уменьшение ошибок 1-го и 2-го рода возможно лишь при увеличении объема выборок. Поэтому обычно при заданном уровне значимости отыскивается критерий с наибольшей мощностью.

frame6

Методика проверки гипотез сводится к следующему:

  1. Располагая выборкой , формируют нулевую гипотезу и альтернативную .

  2. В каждом конкретном случае подбирают статистику критерия .

  3. По статистике критерия и уровню значимости определяют критическую область S). Для ее отыскания достаточно найти критическую точку , т.е. границу (или квантиль), отделяющую область S от .

Границы областей определяются, соответственно, из соотношений: , для правосторонней критической области ^ S (рис. 7); , для левосторонней критической обла­сти S (рис. 8); , для двусторонней критической области S (рис. 9).

Для каждого критерия имеются соответствующие таблицы, по которым и находят критическую точку, удовлетворяющую приведен­ным выше соотношениям.

  1. Для полученной реализации выборки подсчи­тывают значение критерия, т.е. .

  2. Если (например, для правосторонней области S), то нулевую гипотезу отвергают; если же (), то нет оснований, чтобы отвергнуть гипотезу .



Заключение
При изучении причин преступности, отдельных преступлений, административных правонарушений и других нарушений действующего законодательства очевидно, что они, как правило, обусловлены совокупностью взаимосвязанных явлений и что связь между ними и изучаемыми нарушениями не однозначна, а многозначна, не фатальна, а вероятностна. Она улавливается лишь при изучении большого числа нарушений и отражается в форме статистических устойчивостей, тенденций или закономерностей, которые формируются и обнаруживаются в массовых явлениях и процессах, с чем имеет дело юридическая статистика.

Свойство статистических закономерностей формироваться и отчетливо отражаться лишь в массовом процессе и при достаточно большом числе единиц совокупности получило название закона больших чисел. Структура и динамика преступности, ее причины, мотивы преступного поведения, эффективность уголовно-правовых мер, результаты деятельности судов, прокуратуры, милиции и тому подобное могут быть правильно установлены и поняты лишь на основе закона больших чисел целого ряда показателей.

Математической основой закона больших чисел служит теория вероятностей. Она представляет собой раздел математики, изучающий закономерности, возникающие при взаимодействии большого числа случайных явлений.

Вероятность (частость) может быть теоретической и эмпирической. Теоретическая, или математическая, вероятность представляет собой отношение количества шансов, способствующих появлению изучаемого события, к количеству всех шансов. Отношение числа фактически наступивших явлений к общему числу возможных называется частостью или опытной (эмпирической) вероятностью.

Список использованной литературы


  1. Лунев В.В. Юридическая статистика. – М.: Юристъ, 2007.

  2. Письменный Д.Т. Конспект лекций по теории вероятностей и математической статистике. – М.: Айрис-пресс, 2004.

  3. Роганов Е.А., Тихомиров Н.Б., Шелехов А.М. Математика и информатика для юристов. – М.: МГИУ, 2005.



Скачать файл (302 kb.)

Поиск по сайту:  

© gendocs.ru
При копировании укажите ссылку.
обратиться к администрации