Заглавная страница
Избранные статьи
Случайная статья
Познавательные статьи
Новые добавления
Обратная связь
FAQ
Написать работу

ТОП 10 на сайте

Приготовление дезинфицирующих растворов различной концентрации

Техника нижней прямой подачи мяча.

Франко-прусская война (причины и последствия)

Организация работы процедурного кабинета

Смысловое и механическое запоминание, их место и роль в усвоении знаний

Коммуникативные барьеры и пути их преодоления

Обработка изделий медицинского назначения многократного применения

Образцы текста публицистического стиля

Четыре типа изменения баланса

Задачи с ответами для Всероссийской олимпиады по праву

Мы поможем в написании ваших работ!

ЗНАЕТЕ ЛИ ВЫ?

Влияние общества на человека

Приготовление дезинфицирующих растворов различной концентрации

Практические работы по географии для 6 класса

Организация работы процедурного кабинета

Изменения в неживой природе осенью

Уборка процедурного кабинета

Сольфеджио. Все правила по сольфеджио

Балочные системы. Определение реакций опор и моментов защемления

Главная Избранные Случайная статья Познавательные Новые добавления Обратная связь FAQ Написать работу

числовая характеристика двумерной выборки

↑

⇐ ПредыдущаяСтр 3 из 3

Напомним, по какой формуле вычисляется коэффициент корреляции между случайными величинами Х и Y, и каковы его свойства

Коэффициент корреляции обладает следующими свойствами:

1. Если X и Y независимы, то ρ(Х, Y) = 0.

2. | ρ(Х, Y) | ≤ 1.

3. | ρ(Х, Y) | = 1 тогда и только тогда, когда случайные величины X и Y связаны линейной зависимостью Y = aX + b.

В математической статистике аналогом является выборочный коэффициент корреляции r, определяемый формулой

. (14.1)

Нетрудно убедиться в следующих свойствах выборочного коэффициента корреляции:

1. | r | ≤ 1.

2. | r |= 1 тогда и только тогда, когда точки (x_i_, y_i) лежат на одной прямой.

3. Если точки (x_i_, y_i) расположены на диаграмме рассеяния хаотически, то значение r весьма близко к нулю. Значение r может оказаться близким к нулю и в случае группировки точек относительно некоторой кривой, например, параболы.

Найдем выборочные коэффициенты корреляции для наших трех случаев. Для удобства будем использовать таблицы.

Пример с текстом (табл. 14.4).

Таблица 14.4

x_i

y_i

x_i y_i

x_i²

y_i²

Сумма

Отсюда:

= 7,8; = 72,4 – 7,8² = 11,56; = 3,4;

= 36,6; = 1625,4 – 36,6² = 285,84; = 16,91;

= 340,5; r = = 0,957 .

Это значение весьма близко к единице. Число букв и число слов в предложении почти линейно зависят друг от друга.

Свойства резины (табл. 14.5)

Таблица 14.5

x_i

y_i

x_i y_i

x_i²

y_i²

Сумма

r = .

Такое значение r указывает на сильную отрицательную линейную зависимость между снашиванием резины и ее твердостью.

Пример с двумя фрагментами одного стихотворения (табл. 14.6).

Таблица14.6

x_i

y_i

x_i y_i

x_i²

y_i²

Сумма

Такое маленькое значение r указывает на отсутствие связи между этими величинами.

В дальнейшем выражение будем обозначать через s_xy и назовем его выборочной ковариацией.

14.4. Метод наименьших квадратов

Обратимся к примеру с текстом. На рис. 14.1 хорошо видно, что точки (х_i, у_i) группируются около прямой. Естественным образом возникает задача подбора уравнения этой прямой. Например, для того, чтобы предсказать, сколько примерно букв будет содержать предложение с заданным количеством слов. Можно подобрать два уравнения:

y = ax + b (независимая переменная - число слов, функция – число букв);

x = cy + d (независимая переменная - число букв, функция– число слов).

Каждое из таких уравнений называется уравнением регрессии. (Слово “прогресс” означает развитие, движение вперед, слово “регресс” означает упрощение, движение назад). В случае уравнения y = ax + b говорят о регрессии y на x; в случае уравнения x = cy + d говорят о регрессии x на y.

В нашем примере каждая из переменных, как x, так и y, может быть объявлена независимой. Возможны ситуации, когда независимая переменная определяется однозначно. Например, можно исследовать растворимость некоторого вещества (переменная y) в зависимости от температуры растворителя (переменная x). Здесь x – независимая переменная, ее значение можно установить заранее, а y – статистически зависимая переменная. Исследуется только зависимость y от x.

Допустим, мы хотим подобрать коэффициенты уравнения y = ax + b так, чтобы это уравнение наилучшим образом соответствовало экспериментальным данным (x_i, y_i); i = 1,2,…,n. Но ведь понятие «наилучшим образом» не является строгим. Между точками на рис. 14.1 можно провести бесконечно много «хороших» прямых. Какая же из них «лучшая»?

Общепринятым способом определения неизвестных коэффициентов уравнения регрессии является метод наименьших квадратов, разработанный А. Лежандром (1806 ) и К. Гауссом (1821 ). Идея метода наименьших квадратов такова. Пусть нужно подобрать неизвестные коэффициенты a_1,a₂, …, a_k уравнения регрессии y = f(a₁, a₂, ..., a_k, х). Рассмотрим экспериментальную точку (x_i, y_i) и вычислим отклонение ординаты у_i точки от теоретического значения f(a₁, a₂, ..., a_k, х_i) (рис.14.4).

Рис. 14.4

d_i= у_i – f(a₁, a₂, ..., a_k, х_i) , i = 1, 2, ..., n.

Неизвестные значения a₁,a₂,...,a_k подберем из условия минимизации суммы квадратов отклонений d_i:

Необходимое (здесь и достаточное) условие существования экстремума функции нескольких переменных - равенство нулю всех частных производных.

Если приравнять нулю частные производные ,…, , получится система из k уравнений для определения k неизвестных чисел a₁, a₂, ..., a_k.

Составим эту систему и решим ее в случае линейного уравнения регрессии. Нужно определить два неизвестных коэффициента а и b уравнения прямой y = ax + b. Имеем

Раскрывая скобки, получаем:

Разделим второе уравнение системы на n. Уравнение примет вид

= a + b, откуда b = – a .

Разделим на n первое уравнение системы и подставим в него полученное выражение b через a. После несложных преобразований имеем:

Итак,

a = s_xy/ ; b = – a . (14.2)

Уравнение y = ax + b можно переписать в виде

следовательно, наша прямая проходит через точку .

Аналогично определяют коэффициенты c и d линейного уравнения регрессии x на y, x = cy + d.

c = s_xy/ d = – c . (14.3)

Само уравнение можно записать так:

В этом случае минимизируется сумма квадратов отклонений по координате x:

Найдем коэффициенты линейных уравнений регрессии y на x и x на y для примеров с текстом и резиной.

Пример с текстом:

= 7,8; s_x² = 11,56; = 36,6; s_y² = 285,84; = 3405. Тогда

s_xy = 340,5 - 7,8´36,6 = 55,02;

;

b = – a = 36,6 - 4,76´7,8 = -0,5.

Уравнение регрессии y на x таково: y = 4,76x – 0,5.

Вычислим несколько значений y для разных x.

47,1

94,7

142,3

Найдем коэффициенты c и d уравнения регрессии x на y.

d = – c = 0,8.

Тогда x = 0,19y + 0,8.

Вычислим несколько значений x для разных y.

2,7

4,6

19,8

Эти прямые приведены на рис. 14.1. Прямые почти совпадают – еще одно доказательство сильной линейной зависимости между числом слов и числом букв в предложении.

Пример с образцами резины.

=15 ; =6; = 81,4; = 38,8; = 2;

s_xy = 81,4 – 15 ´ 6 = -8,6; .

b= – a = 6 + 0,22 ´ 15 = 9,3. Тогда y= -0,22x + 9,3.

Несколько значений y:

8,2

7,1

4,9

d= – c = 40,8

Уравнение регрессии x на y: x = -4,3y + 40,8.

Несколько значений х:

23,6

19,3

10,7

6,4

Прямая y= -0,22x + 9,3 показана на рис. 14.2. С ней практически сливается прямая x = -4,3y + 40,8

14.5. Другие уравнения регрессии

Парабола второго порядка.Уравнение имеет вид y = ax² + bx + c.

Метод наименьших квадратов дает такую систему линейных уравнений относительно неизвестных коэффициентов а, b, c:

Показательная функция.Уравнение имеет вид y = bx^a.

Прологарифмируем левую и правую части, для определенности вычислим натуральные логарифмы

ln(y) = a·ln(x) + ln(b).

Обозначим ln(y) через y₁, ln(x) через x₁, ln(b) через b₁. Получаем уравнение относительно неизвестных коэффициентов а и b₁:

y₁ = ax₁ + b₁

Определив по методу наименьших квадратов числа a и b₁, найдем

Степенная функция. Уравнение имеет вид y = ba^x.

Прологарифмировав левую и правую части, получим линейное уравнение относительно неизвестных параметров

y₁ = a₁x + b₁,

где y₁ = ln(y), a₁=ln(a), b₁ = ln(b).

После определения параметров a₁и b₁ находим числа a и b:

Гиперболическая функция.Уравнение имеет вид

Положив , получим линейное уравнение относительно а и b:

y₁ = ax + b.

О более сложных уравнениях регрессии можно прочитать в специальной литературе по корреляционному и регрессионному анализу.

Пример построения нелинейного уравнения регрессии.В качестве примера рассмотрим данные из табл. .14.7, где указаны объемы производства (x_i, 1000т) и фермерская цена (у_i долл. за 1т), скорректированная на индекс потребительских цен вишни в США в 1954 - 1969 гг.

Таблица 14.7

Год

x_i

y_i

Как правило зависимость между ценой и объемом производства товара нелинейна. Диаграмма рассеяния для данного примера показана на рис. 14.5. Какой-либо отчетливой зависимости между значениями величин x и y на диаграмме рассеяния не видно. Но о приблизительно линейной или параболической зависимости сказать все же можно. Подкрепим эти рассуждения расчетами.

Рис. 14.5

Если вычислить по этим данным выборочный коэффициент корреляции, то получим, что r= –0,738, а это достаточно близко к 1. Ниже мы постараемся обосновать, почему парабола все-таки несколько лучше описывает эти данные, чем прямая. Коэффициенты системы линейных уравнений таковы:

n = 16; = 3654; = 870918; = 216509904;

= 56063591922; = 3722; = 817695;

= 187221051.

Система для определения коэффициентов a, b, c параболического уравнения регрессии у = ах² + bx + с получилась такой:

Решение этой системы:

a = 0,00173; b = –1,723; c = 532,00.

Следовательно, у = 0,00173x² – 1,723х + 532.

Коэффициент а близок к нулю, это означает, что полученная парабола не слишком отличается от прямой линии.

Линейное уравнение регрессии, полученное по методу наименьших квадратов, таково: у = -0,887х + 435,18.

Графики функций y₁(x) = -0,00173x² – 1,723x + 532 и

y₂(х) = -0,887х + 435,18 показаны на рис. 14.5.

Если теперь рассчитать суммы квадратов отклонений:

, ,

которые минимизируются при использовании метода наименьших квадратов, то, после округления, S₁= 23953; S₂= 23481. Разница, конечно, невелика, но рассеяние экспериментальных точек вокруг параболы все- таки меньше, чем вокруг прямой.

⇐ Предыдущая 1 23

Познавательные статьи:

Алгоритмические операторы Matlab

Конструирование и порядок расчёта дорожной одежды

Исследования учёных: почему помогают молитвы?

Почему терпят неудачу многие предприниматели?

Последнее изменение этой страницы: 2024-06-17; просмотров: 48; Нарушение авторского права страницы; Мы поможем в написании вашей работы!

infopedia.su Все материалы представленные на сайте исключительно с целью ознакомления читателями и не преследуют коммерческих целей или нарушение авторских прав. Обратная связь - 216.73.217.21 (0.007 с.)