Вибірковим називається таке статистичне дослідження, при якому узагальнювальні
показники сукупності, що вивчається, встановлюються по деякій її частині,
сформованій на основі положень випадкового відбору.
У основі вибіркового дослідження лежить несуцільне спостереження, при якому
обстежуються не всі одиниці сукупності, а лише певна їх частина.
Вибіркове дослідження широко застосовується на практиці, оскільки володіє
істотними перевагами в порівнянні з іншими методами отримання статистичних
даних. До них відносяться:
·
Достатньо
висока точність результатів обстеження завдяки використанню більш
кваліфікованих кадрів, що приводить до скорочення помилок реєстрації;
·
Економія
часу і засобів в результаті скорочення об'єму роботи, велика оперативність в отриманні
даних про результати обстеження;
·
Можливість
дослідження дуже великих статистичних совокупностей;
·
Вибірковий
метод є єдино можливим, якщо збір інформації пов'язаний з руйнуванням або
втратою одиниць спостереження, наприклад, при органалітічеськом контролі якості
продукції;
·
Можливість
дослідження повністю недоступних совокупностей. При вибірковому дослідженні вивчається порівняно невелика частина
статистичної сукупності (5-10%, рідше 20-25% об'єму її одиниць).
Проведення вибіркового дослідження є достатньо складним процесом, виконання
якого включає:
·
обгрунтування
доцільності застосування вибіркового методу в даному дослідженні;
·
складання
програми дослідження;
·
встановлення
об'єму вибірки - n;
·
обгрунтування
способу формування вибірки;
·
відбір одиниць
з Генеральної сукупності ( формування вибірки);
·
вимірювання
ознак, що вивчаються, у окремих одиниць;
·
обробка отриманої
інформації і розрахунок характеристик вибірки;
·
визначення
помилки вибірки;
·
розповсюдження
вибіркових характеристик на Генеральну сукупність.
Для постановки завдання вибіркового дослідження необхідно ввести наступні
поняття:
- Генеральна сукупність - сукупність, що вивчається, з якої проводиться
відбір одиниць, що підлягають вивченню, вона може бути кінцевою (N) або
нескінченною (н).
- Вибіркова сукупність ( вибірка) - частина одиниць генеральної
сукупності, відібрана для вивчення (n). Якість результатів вибіркового дослідження
залежить від того, наскільки склад вибірки представляє генеральну сукупність,
інакше кажучи, наскільки вибірка репрезентативна.
Під репрезентативністю вибірки розуміється відповідність її властивостей
і структури властивостям і структурі генеральної сукупності. Репрезентативність
вибірки може бути забезпечена тільки при об'єктивності відбору даних, що
гарантується принципами випадковості відбору одиниць.
Принцип випадковості припускає, що на включення або виключення статистичної
одиниці з вибірки не може вплинути ніякій інший чинник, окрім випадку. Цей принцип
лежить в основі методів випадкового відбору, за допомогою яких формується
вибірка.
Використання методів випадкового відбору при формуванні вибірки дозволяє надалі
при обробці використовувати апарат теорії вірогідності.
Найчастіше за допомогою вибіркового дослідження визначаються наступні
характеристики генеральної сукупності:
·
Середнє значення
ознаки в сукупності - X, розраховується як середня арифметична.
·
Частка альтернативної
ознаки в сукупності - d . Альтернативною вважається ознака, що набуває два значення.
Якщо одне з них змінюється як задане, то частка альтернативної ознаки характеризуватиме
питому вагу статистичних одиниць, що володіють заданим значенням альтернативної
ознаки, наприклад, частка браку у виготовленій партії продукції;
·
Дисперсія
ознаки в сукупності - 2, як показник варіації.
У загальному вигляді завдання вибіркового дослідження формулюється таким
чином: Хай є деяка генеральна сукупність відомого об'єму ( N одиниць).
Необхідно на основі відомих характеристик вибірки отримати статистичні оцінки
характеристик генеральної сукупності.
Статистичною оцінкою або статистикою характеристики (параметра)
генеральної сукупності називають наближене значення шуканої характеристики
(параметра), отримане за даними вибірки.
У статистиці використовуються два види оцінок - точкові і інтервальні.
Точковою статистичною оцінкою параметра генеральної сукупності називається
конкретне числове значення шуканої характеристики.
Інтервальна оцінка є числовими інтервалами, що імовірно містять значення параметра
генеральної сукупності.
Якість статистичних оцінок визначається наступними їх властивостями:
Спроможність: оцінка вважається спроможною, якщо при необмеженому збільшенні
об'єму вибірки її помилка прагне до 0.
Незміщеність: оцінка вважається незміщеною, якщо при даному об'ємі вибірки
n математичне очікування помилки дорівнює 0. Для незміщеної оцінки її математичне
очікування точно дорівнює математичному очікуванню характеристики вибірки.
Незміщена оцінка не завжди дає хороше наближення оцінюваного параметра,
оскільки можливі значення отримуваної оцінки можуть бути сильно розсіяні
навколо свого середнього значення. Тому оцінка повинна відповідати ще одній
вимозі - ефективності.
Ефективність: оцінка вважається ефективною, якщо її помилка, звана помилкою
вибірки, є величиною мінімальною.
Для точкових оцінок справедливі наступні твердження:
·
Точковою
оцінкою генеральної частки є вибіркова частка
·
Точковою оцінкою
генеральною середньою є вибіркова середня
Таким чином, заздалегідь відомо, що оцінки для вказаних параметрів є
спроможними і незміщеними. Для решти параметрів генеральної сукупності це твердження
не є справедливим. У математичній статистиці доводиться, що точковою оцінкою генеральної
дисперсії є вибіркова дисперсія, відкоректована на відношення . Аналогічно, точковою
оцінкою генерального среднеквадратічеського відхилення є вибіркове
среднеквадратічеськоє відхилення, відкоректоване
на .
В цьому випадку точкові оцінки генеральної дисперсії і генерального среднеквадратічеського відхилення є спроможними
і незміщеними. Основним недоліком точкових оцінок є те, що вони не враховують
помилки вибірки, тобто не є ефективними. Тому переважнішими є інтервальні оцінки
параметрів генеральної сукупності, в яких ці помилки враховуються. Інтервальні оцінки
відповідають всім трьом вимогам якості статистичної оцінки. Застосування інтервальних
оцінок означає, що характеристики генеральної сукупності укладаються в певний діапазон
значень. Щоб їх отримати, необхідно розрахувати відповідні помилки вибірки.
Розрахуємо
середні арифметичні значення ознак в вибірковій сукупності. Розрахунки будемо
виконувати на основі групувань, проведених вище. Для виконання розрахунків не
обходимо визначити середнє значення відповідної ознаки в кожній групі.
Ознака
«Урожайність льоноволокна»:
Номер інтервалу
1
4,89
10
2
7,166667
6
3
9,433333
3
4
12
6
Отже,
Ознака «Якість
льонотрести»
Номер інтервалу
1
0,603125
16
2
0,855
6
3
0
0
4
1,353333
3
Отже,
Ознака «Витрати
праці на 1 центнер трести»:
Номер інтервалу
1
2,823333
9
2
4,632222
9
3
6,996667
6
4
10,38
1
Отже,
Розраховані
вибіркові середні досліджуваних ознак є точковими оцінками генеральних середніх
відповідних ознак.
Розрахуємо
середні квадратичні відхилння досліджуваних ознак:
Розрахуємо
точкові незміщені оцінки дисперсій генеральної сукупності.
Розрахуємо
незміщені середні квадратичні відхилння досліджуваних ознак:
Вважаючи, що
надані дані є 5% вибіркою, розрахуємо інтервальні оцінки показників.
Середні похибки
вибірки:
Граничні похибки вибірки
при довірчій ймовірності 0,997:
Отже, довірчі
інтервали для генеральних середніх:
Розрахуємо
коефіцієнти варіації:
Ознака
«Урожайність льоноволокна»:
- свідчить про
неоднорідність досліджуваної сукупності
Ознака «Якість
льонотрести»
- свідчить про однорідність
досліджуваної сукупності
Ознака «Витрати
праці на 1 центнер трести»:
- свідчить про
неоднорідність досліджуваної сукупності
Розрахуємо
структурі середні – моду та медіану кожної ознаки.
Медіана (Ме) - це
величина, яка відповідає варіанту, що знаходиться в середині ранжируваного
ряду.
Модою
(Мо-пермалой) називають значення ознаки, яке зустрічається найчастіше у одиниць
сукупності. Для дискретного ряду модою буде варіант з найбільшою частотою.
Ознака
«Урожайність льоноволокна»:
Ознака «Якість
льонотрести»
Ознака «Витрати
праці на 1 центнер трести»:
Цей ряд розподілу є двомодальним.
2.3 Перевірка
статистичної гіпотези про відповідність емпіричного ряду розподілу нормальному
Основною метою аналізу варіаційних рядів є виявлення закономірності
розподілу, виключаючи при цьому вплив випадкових для даного розподілу чинників.
Цього можна досягти, якщо збільшувати об'єм досліджуваної сукупності і
одночасно зменшувати інтервал ряду. При спробі зображення цих даних графічно ми
отримаємо деяку плавну криву лінію, яка для полігону частот буде деякою межею.
Цю лінію називають кривою розподіли.
Іншими словами, крива розподілу є графічне зображення у вигляді
безперервної лінії зміни частот у варіаційному ряду, яке функціонально
пов'язане із зміною варіант. Крива розподілу відображає закономірність зміни
частот за відсутності випадкових чинників. Графічне зображення полегшує аналіз
рядів розподілу.
Відомо достатньо багато форм кривих розподіли, по яких може вирівнюватися
варіаційний ряд, але в практиці статистичних досліджень найчастіше
використовуються такі форми, як нормальний розподіл і розподіл Пуассона.
Нормальний
розподіл залежить від двох параметрів: середньою арифметичною і середнього
квадратичного відхилення . Його крива виражається рівнянням
Якщо потрібно отримати теоретичні частоти f' при вирівнюванні
варіаційного ряду по кривій нормального розподілу, то можна скористатися
формулою:
За допомогою цієї формули ми отримуємо теоретичний (імовірнісне)
розподіл, замінюючи ним емпіричний (фактичне) розподіл, по характеру вони не
повинні відрізнятися один від одного.
Порівнюючи отримані величини теоретичних частот n* з емпіричними (фактичними) частотами n, переконуємося, що їх розбіжності
можуть бути вельми невеликі.
Об'єктивна характеристика відповідності теоретичних і емпіричних частот
може бути отримана за допомогою спеціальних статистичних показників, які
називають критеріями згоди.
Для оцінки близькості емпіричних і теоретичних частот застосовуються
критерій згоди Пірсону, критерій згоди Романовського, критерій згоди
Колмогорова.
Найбільш поширеним є критерій згоди К. Пірсона , який можна представити як суму
відносин квадратів розбіжностей між n* і n до теоретичних частот:
Обчислене
значення критерію необхідно порівняти з табличним
(критичним) значенням . Табличне значення визначається
по спеціальній таблиці, воно залежить від прийнятої вірогідності Р і числа мір
свободи до (при цьому до = m - 3, де m - число груп у ряді розподілу для
нормального розподілу). При розрахунку критерію згоди Пірсону повинна
дотримуватися наступна умова: достатньо великим повинне бути число спостережень
(n 50),
при цьому якщо в деяких інтервалах теоретичні частоти < 5, то інтервали
об'єднують для умови > 5.
Якщо ,
то розбіжності між емпіричними і теоретичними частотами розподілу можуть бути
випадковими і припущення про близькість емпіричного розподілу до нормального не
може бути спростована.
Перевіримо статистичну гіпотезу про відповідність статистичного розподілу
за ознакою «Урожайність льоноволокну» нормальному закону розподілу.
Номер інтервалу
1
4,89
10
5,337562
2
7,166667
6
8,373766
3
9,433333
3
7,076648
4
12
6
2,782567
Критичнее значення критерія Пірсона при рівні значущості 0,058 та ступені свободи дорівнює 3,84
Оскільки
розраховане значення критерію Персона більше за критичне, то розбіжності між
емпіричними і теоретичними частотами розподілу не можуть бути випадковими і
припущення про близькість емпіричного розподілу до нормального повинна бути спростоване.
Отже,
Перевіримо статистичну гіпотезу про відповідність статистичного розподілу
за ознакою «Якість льонотрести» нормальному закону розподілу.