Заглавная страница Избранные статьи Случайная статья Познавательные статьи Новые добавления Обратная связь FAQ Написать работу КАТЕГОРИИ: ТОП 10 на сайте Приготовление дезинфицирующих растворов различной концентрацииТехника нижней прямой подачи мяча. Франко-прусская война (причины и последствия) Организация работы процедурного кабинета Смысловое и механическое запоминание, их место и роль в усвоении знаний Коммуникативные барьеры и пути их преодоления Обработка изделий медицинского назначения многократного применения Образцы текста публицистического стиля Четыре типа изменения баланса Задачи с ответами для Всероссийской олимпиады по праву
Мы поможем в написании ваших работ! ЗНАЕТЕ ЛИ ВЫ?
Влияние общества на человека
Приготовление дезинфицирующих растворов различной концентрации Практические работы по географии для 6 класса Организация работы процедурного кабинета Изменения в неживой природе осенью Уборка процедурного кабинета Сольфеджио. Все правила по сольфеджио Балочные системы. Определение реакций опор и моментов защемления |
Интервальное оценивание генеральной доли (вероятности события).Содержание книги
Поиск на нашем сайте Пусть проводится n независимых испытаний, в каждом из которых событие A может произойти с одной и той же вероятностью p. Тогда относительная частота p * появлений события A в серии из n испытаний принимается в качестве точечной оценки для вероятности p появления события в каждом испытании. При этом величину p * называют выборочной долей появлений события A, а p – генеральной долей. Доверительный интервал для генеральной доли имеет границы При n > 30 предельная ошибка:
При Пример. С помощью случайного повторного отбора руководство фирмы провело выборочный опрос 900 своих служащих. Среди опрошенных оказалось 270 женщин. Постройте доверительный интервал, с вероятностью 0,97 накрывающий истинную долю женщин во всем коллективе фирмы. Решение. По условию g = 0.97, n = 900, m = 270, значит, выборочная доля равна: Так как отбор является повторным и объем выборки велик (n = 900), предельная ошибка выборки определяется по формуле
Искомый доверительный интервал имеет границы
Ответ. С вероятностью 0,97 можно гарантировать, что доля женщин во всем коллективе фирмы находится в интервале от 0,27 до 0,33. Или: С вероятностью 0,97 можно гарантировать, что доля женщин во всем коллективе фирмы находится в интервале от 27% до 33%.◄ Пример. Владелец автостоянки считает день «удачным», если автостоянка заполнена более, чем на 80%. В течение года было проведено 40 проверок автостоянки, из которых 24 оказались «удачными». С вероятностью 0,98 найдите доверительный интервал для оценки истинной доли «удачных» дней в течение года. Решение. По условию задачи n = 40, m = 24, N = 365, g = 0,98. Тогда
Искомый доверительный интервал имеет границы
Ответ. С вероятностью 0,98 можно утверждать, что доля «удачных» дней в течение года находится в интервале от 0,49 до 0,71 (от 49% до 71%).◄
Вопросы для самопроверки
1. В чем сущность задачи по определению параметров генеральной совокупности? В чем особенности этой задачи? 2. Как вычисляется средняя арифметическая выборки при малом и больших объемах ее? 3. Как вычисляется дисперсия выборки в случаях малого и большого объема ее? 4. Какая величина принимается за среднюю генеральной совокупности, а какая — за дисперсию? 5 Что понимается под доверительным интервалом и доверительной вероятностью? 6. Как вычисляется среднее квадратическое отклонение средней выборки? 7. Назовите выборочные числовые характеристики. 8. Что такое статистики и для чего они служат? 9. Какими свойствами должны обладать оценки? 10. Какова вероятность попадания генеральной средней в интервал размером ±2(+3) средних квадратических отклонений средней выборки при нормальном распределении. 11. Что называется доверительным интервалом и доверительной вероятностью? Дайте общую схему построения доверительного интервала. 12. Как изменяется доверительный интервал с увеличением надежности? С увеличением объема выборки? 13. Как изменяется доверительный интервал в зависимости от того, известны ли другие параметры точно или нет? 14. Если доверительная вероятность будет увеличена, то как изменится доверительный интервал при других равных условиях. 15. Что надо сделать с объемом выборки, чтобы уменьшить доверительный интервал при том же значении доверительной вероятности?
ЭЛЕМЕНТЫ ТЕОРИИ КОРРЕЛЯЦИИ Линейная корреляция Рассмотрим выборку двумерной случайной величины (Х, Y). Примем в качестве оценок условных математических ожиданий компонент их условные средние значения, а именно: условным средним M (Y / x) = f (x), M (X / y) = φ (y). Условные средние
- выборочное уравнение регрессии Y на Х,
- выборочное уравнение регрессии Х на Y. Соответственно функции f* (x) и φ* (у) называются выборочной регрессией Y на Х и Х на Y, а их графики – выборочными линиями регрессии. Выясним, как определять параметры выборочных уравнений регрессии, если этих уравнений известен. При совместном исследовании двух случайных величин по имеющейся выборке (х 1, у 2), (х 2, у 2),…,(xk, yk) возникает задача определения зависимости между ними. Если вид функции y = f (x, a, b,...) задан, то требуется найти значения коэффициентов a, b,..., при которых yi наименее отличаются от f (xi). В методе наименьших квадратов коэффициенты должны быть такими, что а) Линейная зависимость y = ax + b. Если
б) Квадратичная зависимость y = (ax + b)2. Отсюда
в) Показательная зависимость
г) Зависимость вида
д) Логарифмическая зависимость y = ln(ax + b), то есть ey = ax + b, и
Пример. Найти параметры зависимости между х и у для выборки
для случаев: 1) линейной зависимости y = ax + b; 2) квадратичной зависимости y = (ax + b)2; 3) показательной зависимости y = eax + b. Определить, какая из функций является лучшим приближением зависимости между х и у. По виду выборки достаточно очевидно, что связь между х и у скорее всего не является линейной – у растет не пропорционально х. Проверим это предположение, найдя коэффициенты а и b для каждой из функций. Для этого вычислим предварительно
1) 2) у = (2,29 х – 1,68)2. 3) у = е 0,94 х + 0,04. Вычислим значения
Итак, наилучшим приближением является квадратичная функция.◄ Пусть изучается двумерная случайная величина (Х, Y), и получена выборка из п пар чисел (х 1, у 1), (х 2, у 2),…, (хп, уп). Будем искать параметры прямой линии среднеквадратической регрессии Y на Х вида Y = ρyxx + b, (3) Подбирая параметры ρух и b так, чтобы точки на плоскости с координатами (х 1, у 1), (х 2, у 2), …, (хп, уп) лежали как можно ближе к прямой (3). Используем для этого метод наименьших квадратов и найдем минимум функции
Приравняем нулю соответствующие частные производные:
В результате получим систему двух линейных уравнений относительно ρ и b:
Ее решение позволяет найти искомые параметры в виде:
При этом предполагалось, что все значения Х и Y наблюдались по одному разу. Теперь рассмотрим случай, когда имеется достаточно большая выборка (не менее 50 значений), и данные сгруппированы в виде корреляционной таблицы:
Здесь nij – число появлений в выборке пары чисел (xi, yj). Поскольку
Можно решить эту систему и найти параметры ρух и b, определяющие выборочное уравнение прямой линии регрессии:
Но чаще уравнение регрессии записывают в ином виде, вводя выборочный коэффициент корреляции. Выразим b из второго уравнения системы (7):
Подставим это выражение в уравнение регрессии:
где
и умножим равенство (8) на
Коэффициент корреляции – безразмерная величина, которая служит для оценки степени линейной зависимости между Х и Y: эта связь тем сильнее, чем ближе | r | к единице. Для любых переменных Х и Y абсолютная величина коэффициента корреляции не превосходит единицы: Для качественной оценки тесноты корреляционной связи между X и Y можно воспользоваться и таблицей Чеддока:
Итак,если для выборки двумерной случайной величины (X, Y): {(xi, yi), i = 1, 2,..., n } вычислены выборочные средние
и получить линейные уравнения, описывающие связь между Х и Y, которые называются выборочным уравнением прямой линии регрессии Y на Х:
и выборочным уравнением прямой линии регрессии Х на Y:
Степень приближения регрессионной линии к наблюдениям измеряется коэффициентом детерминации
где Коэффициент детерминации показывает, на сколько процентов
Пример. Для выборки двумерной случайной величины
вычислить выборочные средние, выборочные средние квадратические отклонения, выборочный коэффициент корреляции и составить выборочное уравнение прямой линии регрессии Y на Х.
Пример. По данным корреляционной таблицы найти выборочный корреляционный момент (ковариацию):
Выборочный корреляционный момент
Здесь Найдем выборочные средние с помощью соотношения
где Так как
Тогда
Пример. По заданной корреляционной таблице найти выборочные средние
Вычислим выборочные средние и среднеквадратические отклонения для X,Y
Выборочный коэффициент корреляции между Х и У отыскивается по формуле
Согласно таблице
откуда
Выборочное линейное уравнение регрессии У на Х имеет вид
или, с учётом вычисленных значений,
Условное среднее при x = xi вычисляется по формуле
где
Значения условных средних
Отклонения значений,
будут d1 = 0-0.45=-0.45; d2 = 2.6- 1.96 = 0.65; d3 = -0.51, d4 = 0.55; d5 = -0.05; d6 = 0.05. Наибольшее по абсолютной величине отклонение равно 0.65. ◄ Пример. Выборочно обследовано 100 снабженческо-сбытовых предприятий некоторого региона по количеству работников X и объёмам складской реализации Y (д.е.). Результаты представлены в корреляционной таблице;
По данным исследования требуется: 1) в прямоугольной системе координат построить эмпирические ломаные регрессии Y на X и X на Y, сделать предположение в виде корреляционной связи; 2) оценить тесноту линейной корреляционной связи; 3) проверить гипотезу о значимости выборочного коэффициента корреляции, при уровне значимости α=0,05; 4) составить линейные уравнения регрессии У на X и X на У, построить их графики в одной системе координат; 5) используя полученные уравнения регрессии, оценить ожидаемое среднее значение признака Y при х=40 чел.; дать экономическую интерпретацию полученных результатов. 1. Для построения эмпирических ломаных регрессии вычислим условные средние 2.
то условное среднее При х=15 признак Y имеет распределение
тогда
Аналогично вычисляются все
Таблица 2
Таблица 3
В прямоугольной системе координат построим точки Аi(хi,
Построенные эмпирические ломаные регрессии Y на X и X на Y свидетельствуют о том, что между количеством работающих (X) и объёмом складских реализаций (Y) существует линейная зависимость. Из графика видно, что с увеличением X величина 2. Оценим тесноту связи. Вычислим выборочный коэффициент корреляции, предварительно вычислив характеристики по формулам
Это значение rB говорит о том, что линейная связь между количеством работников и объемом складских реализаций высокая. Этот вывод подтверждает первоначальное предположение, сделанное исходя из графика. 3. Запишем теоретические уравнения линейной регрессии:
Подставляя в эти уравнения найденные величины, получаем искомые уравнения регрессии: 1) уравнение регрессии Y на X:
2) уравнение регрессии X на Y:
Контроль: точка пересечения прямых линий регрессии имеет координаты 4. Найдём среднее значение Y при х =40 чел., используя уравнение регрессии Y на X. Подставим в это уравнение х=40, получим
Ожидаемое в генеральной совокупности среднее значение объёма складских реализаций при заданном количестве работников (х=40) составляет 137,51 д.е. Замечание 1. Если в корреляционной таблице даны интервальные распределения, то за значения вариант надо брать середины частичных интервалов. Замечание 2. Если данные наблюдений над признаками X и Y заданы в виде корреляционной таблицы с равноотстоящими вариантами, то целесообразно перейти к условным вариантам:
где h1 – шаг, т.е. разность между двумя соседними вариантами xi; С1 – «ложный нуль» вариант xi (в качестве «ложного нуля» удобно принять варианту, которая расположена примерно в середине ряда); h2 – шаг вариант Y; С2 – «ложный нуль» вариант Y. В этом случае выборочный коэффициент корреляции
где
Зная эти величины, находят
Найденные величины подставляем в уравнения (10). Так в данном примере С1 =25, h1=10, С2=136, h2=2; Корреляционная таблица в условных вариантах имеет вид
По этой таблице и приведённым выше формулам находим характеристики:
В результате получаем те же уравнения линейной регрессии:
Пример. Найти выборочное уравнение прямой линии регрессии: а) а) Выборочное уравнение прямой линии регрессии
где Поскольку
б) Согласно выборочному уравнению прямой линии регрессии
Поэтому получаем
Пример. Некоторая фирма занимается поставками различных грузов на короткие расстояния внутри города. Перед менеджером стоит задача оценить стоимость таких услуг, зависящую от затрачиваемого на поставку времени. В качестве наиболее важного фактора, влияющего на время поставки, менеджер выбрал пройденное расстояние. Были собраны данные о десяти поставках:
Постройте график исходных данных, определите по нему характер зависимости между расстоянием и затраченным временем, найдите уравнение регрессии, проанализируйте силу регрессионной зависимости и сделайте прогноз времени поездки на 2 мили. Построим диаграмму рассеяния, т.е. график исходных данных:
Помимо расстояния на время поставки влияют пробки на дорогах, время суток, дорожные работы, квалификация водителя, вид транспорта. Построенные точки не находятся точно на линии, что обусловлено описанными выше факторами, но эти точки собраны вокруг прямой, поэтому можно предположить линейную связь между параметрами. Уравнение линейной регрессии
|