числовая характеристика двумерной выборки 


Мы поможем в написании ваших работ!



ЗНАЕТЕ ЛИ ВЫ?

числовая характеристика двумерной выборки

Поиск

 

Напомним, по какой формуле вычисляется коэффициент корреляции между случайными величинами Х и Y, и каковы его свойства

.

Коэффициент корреляции обладает следующими свойствами:

1. Если X и Y независимы, то ρ(Х, Y) = 0.

2. | ρ(Х, Y) | ≤ 1.

3. | ρ(Х, Y) | = 1 тогда и только тогда, когда случайные величины X и Y связаны линейной зависимостью Y = aX + b.

В математической статистике аналогом является выборочный коэффициент корреляции r, определяемый формулой

.                                                             (14.1)

Нетрудно убедиться в следующих свойствах выборочного коэффициента корреляции:

1. | r | ≤ 1.

2. | r |= 1 тогда и только тогда, когда точки (xi, yi) лежат на одной прямой.

3. Если точки (xi, yi) расположены на диаграмме рассеяния хаотически, то значение r весьма близко к нулю. Значение r может оказаться близким к нулю и в случае группировки точек относительно некоторой кривой, например, параболы.

Найдем выборочные коэффициенты корреляции для наших трех случаев. Для удобства будем использовать таблицы.

Пример с текстом (табл. 14.4).

Таблица 14.4

i

xi

yi

xi yi

xi2

yi2

Сумма

Отсюда:

 = 7,8;         = 72,4 – 7,82 = 11,56;    = 3,4;

= 36,6;        = 1625,4 – 36,62 = 285,84;   = 16,91;

 = 340,5; r =  = 0,957 .

Это значение весьма близко к единице. Число букв и число слов в предложении почти линейно зависят друг от друга.

Свойства резины (табл. 14.5)

 

 

Таблица 14.5

i

xi

yi

xi yi

xi2

yi2

Сумма

r = .

Такое значение r указывает на сильную отрицательную линейную зависимость между снашиванием резины и ее твердостью.

Пример с двумя фрагментами одного стихотворения (табл. 14.6).

Таблица14.6

i

xi

yi

xi yi

xi2

yi2

Сумма

Такое маленькое значение r указывает на отсутствие связи между этими величинами.

В дальнейшем выражение   будем обозначать через sxy и назовем его выборочной ковариацией.

 

14.4. Метод наименьших квадратов

 

Обратимся к примеру с текстом. На рис. 14.1 хорошо видно, что точки (хi, уi) группируются около прямой. Естественным образом возникает задача подбора уравнения этой прямой. Например, для того, чтобы предсказать, сколько примерно букв будет содержать предложение с заданным количеством слов. Можно подобрать два уравнения:

y = ax + b (независимая переменная - число слов, функция – число букв); 

x = cy + d (независимая переменная - число букв, функция– число слов).

Каждое из таких уравнений называется уравнением регрессии. (Слово “прогресс” означает развитие, движение вперед, слово “регресс” означает упрощение, движение назад). В случае уравнения y = ax + b говорят о регрессии y на x; в случае уравнения x = cy + d говорят о регрессии x на y.

В нашем примере каждая из переменных, как x, так и y, может быть объявлена независимой. Возможны ситуации, когда независимая переменная определяется однозначно. Например, можно исследовать растворимость некоторого вещества (переменная y) в зависимости от температуры растворителя (переменная x). Здесь x – независимая переменная, ее значение можно установить заранее, а y – статистически зависимая переменная. Исследуется только зависимость y от x.

Допустим, мы хотим подобрать коэффициенты уравнения y = ax + b так, чтобы это уравнение наилучшим образом соответствовало экспериментальным данным (xi, yi); i = 1,2,…,n. Но ведь понятие «наилучшим образом» не является строгим. Между точками на рис. 14.1 можно провести бесконечно много «хороших» прямых. Какая же из них «лучшая»?

Общепринятым способом определения неизвестных коэффициентов уравнения регрессии является метод наименьших квадратов, разработанный А. Лежандром (1806 ) и К. Гауссом (1821 ). Идея метода наименьших квадратов такова. Пусть нужно подобрать неизвестные коэффициенты a1, a2, …, ak уравнения регрессии y = f(a1, a2, ..., ak, х). Рассмотрим экспериментальную точку (xi, yi) и вычислим отклонение ординаты уi точки от теоретического значения f(a1, a2, ..., ak, хi) (рис.14.4).

Рис. 14.4

di= уif(a1, a2, ..., ak, хi) , i = 1, 2, ..., n.

Неизвестные значения a1,a2,...,ak подберем из условия минимизации суммы квадратов отклонений di:

Необходимое (здесь и достаточное) условие существования экстремума функции нескольких переменных - равенство нулю всех частных производных.

Если приравнять нулю частные производные ,…, , получится система из k уравнений для определения k неизвестных чисел a1, a2, ..., ak.

Составим эту систему и решим ее в случае линейного уравнения регрессии. Нужно определить два неизвестных коэффициента а и b уравнения прямой y = ax + b. Имеем

Раскрывая скобки, получаем:

Разделим второе уравнение системы на n. Уравнение примет вид

 = a  + b, откуда b =  – a .

Разделим на n первое уравнение системы и подставим в него полученное выражение b через a. После несложных преобразований имеем:

Итак,

a = sxy / ; b =  – a .                                                     (14.2)

Уравнение y = ax + b можно переписать в виде

,

следовательно, наша прямая проходит через точку .

Аналогично определяют коэффициенты c и d линейного уравнения регрессии x на y, x = cy + d.

c = sxy / d =  – c .                                                            (14.3)

Само уравнение можно записать так:

.

В этом случае минимизируется сумма квадратов отклонений по координате x:

.

Найдем коэффициенты линейных уравнений регрессии y на x и x на y для примеров с текстом и резиной.

Пример с текстом:

 = 7,8; sx2 = 11,56; = 36,6; sy2 = 285,84;  = 3405. Тогда

sxy = 340,5 - 7,8´36,6 = 55,02;

;

b =  – a  = 36,6 - 4,76´7,8 = -0,5.

Уравнение регрессии y на x таково: y = 4,76x – 0,5.

Вычислим несколько значений y для разных x.

х

у

47,1

94,7

142,3

Найдем коэффициенты c и d уравнения регрессии x на y.

 d =  – c  = 0,8.

Тогда x = 0,19y + 0,8.

Вычислим несколько значений x для разных y.

y

x

2,7

4,6

19,8

Эти прямые приведены на рис. 14.1. Прямые почти совпадают – еще одно доказательство сильной линейной зависимости между числом слов и числом букв в предложении.

Пример с образцами резины.

=15 ; =6; = 81,4;  = 38,8;  = 2;

sxy = 81,4 – 15 ´ 6 = -8,6; .

b=  – a  = 6 + 0,22 ´ 15 = 9,3. Тогда  y= -0,22x + 9,3.

Несколько значений y:

х

y

8,2

7,1

4,9

    d=  – c  = 40,8

Уравнение регрессии x на y: x = -4,3y + 40,8.

Несколько значений х:

у

х

23,6

19,3

10,7

6,4

Прямая y= -0,22x + 9,3 показана на рис. 14.2. С ней практически сливается прямая x = -4,3y + 40,8

 

14.5. Другие уравнения регрессии

 

  Парабола второго порядка.Уравнение имеет вид y = ax2 + bx + c.

Метод наименьших квадратов дает такую систему линейных уравнений относительно неизвестных коэффициентов а, b, c:

      

 

  Показательная функция.Уравнение имеет вид y = bxa.

Прологарифмируем левую и правую части, для определенности вычислим натуральные логарифмы

ln(y) = a·ln(x) + ln(b).

Обозначим ln(y) через y1, ln(x) через x1, ln(b) через b1. Получаем уравнение относительно неизвестных коэффициентов а и b1:

y1 = ax1 + b1

Определив по методу наименьших квадратов числа a и b1, найдем

 

  Степенная функция. Уравнение имеет вид y = bax.

Прологарифмировав левую и правую части, получим линейное уравнение относительно неизвестных параметров

y1 = a1x + b1,

где y1 = ln(y), a1 =ln(a), b1 = ln(b).

После определения параметров a1 и b1 находим числа a и b:     

  Гиперболическая функция.Уравнение имеет вид

Положив , получим линейное уравнение относительно а и b:

y1 = ax + b.

О более сложных уравнениях регрессии можно прочитать в специальной литературе по корреляционному и регрессионному анализу.

 

  Пример построения нелинейного уравнения регрессии.В качестве примера рассмотрим данные из табл. .14.7, где указаны объемы производства (xi, 1000т) и фермерская цена (уi долл. за 1т), скорректированная на индекс потребительских цен вишни в США в 1954 - 1969 гг.

Таблица 14.7

Год

xi

yi

Как правило зависимость между ценой и объемом производства товара нелинейна. Диаграмма рассеяния для данного примера показана на рис. 14.5. Какой-либо отчетливой зависимости между значениями величин x и y на диаграмме рассеяния не видно. Но о приблизительно линейной или параболической зависимости сказать все же можно. Подкрепим эти рассуждения расчетами.

Рис. 14.5

Если вычислить по этим данным выборочный коэффициент корреляции, то получим, что r= –0,738, а это достаточно близко к 1. Ниже мы постараемся обосновать, почему парабола все-таки несколько лучше описывает эти данные, чем прямая. Коэффициенты системы линейных уравнений таковы:

n = 16; = 3654;  = 870918; = 216509904;

= 56063591922; = 3722;   = 817695;     

 = 187221051.

Система для определения коэффициентов a, b, c параболического уравнения регрессии у = ах2 + bx + с получилась такой:

Решение этой системы:

a = 0,00173;   b = –1,723;    c = 532,00.

Следовательно, у = 0,00173x2 – 1,723х + 532.

Коэффициент а близок к нулю, это означает, что полученная парабола не слишком отличается от прямой линии.

Линейное уравнение регрессии, полученное по методу наименьших квадратов, таково: у = -0,887х + 435,18.

Графики функций y1(x) = -0,00173x2 – 1,723x + 532 и

y2(х) = -0,887х + 435,18 показаны на рис. 14.5.

Если теперь рассчитать суммы квадратов отклонений:

,      ,

которые минимизируются при использовании метода наименьших квадратов, то, после округления, S1 = 23953; S2 = 23481. Разница, конечно, невелика, но рассеяние экспериментальных точек вокруг параболы все- таки меньше, чем вокруг прямой.

 



Поделиться:


Последнее изменение этой страницы: 2024-06-17; просмотров: 48; Нарушение авторского права страницы; Мы поможем в написании вашей работы!

infopedia.su Все материалы представленные на сайте исключительно с целью ознакомления читателями и не преследуют коммерческих целей или нарушение авторских прав. Обратная связь - 216.73.217.21 (0.007 с.)