Учебное пособие Москва 2004 содержание ваньков Б. М. Лекция 1 Эконометрический подход к выбору модели

ДИПЛОМАТИЧЕСКАЯ АКАДЕМИЯ МИД РОССИИ
Кафедра Государственного управления и информационных технологий

Б.М. Ваньков, О.В. Семенова

ЭКОНОМЕТРИКА

Учебное пособие

Москва

2004

СОДЕРЖАНИЕ

Ваньков Б.М.

Лекция 1 Эконометрический подход к выбору модели

сложного экономического объекта . . . . . . . . . . . . . . . . . . . 3
Ваньков Б.М.

Лекция 2 Построение однофакторной модели.

Метод наименьших квадратов . . . . . . . . . . . . . . . . . . . . 8
Ваньков Б.М.

Лекция 3 Использование методов математической статистики

для построения регрессионных моделей . . . . . . . . . . . . . . 14
Ваньков Б.М.

Лекция 4 Анализ вариации зависимой переменной

в модели парной регрессии . . . . .. . . . . . . . . . . . . . . . . 21
Ваньков Б.М.

Лекция 5 Сложные регрессионные эконометрические

модели . .. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 26
Ваньков Б.М.

Лекция 6 Другие эконометрические модели и функции . .. . . . . . 32

Приложение 1 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. . . . . 38
Вопросы к зачету или экзамену . . . . . . . . . ... . . . . . . . . . . . . . . . . . . . . 39
Литература . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 40

Лекция 1
ЭКОНОМЕТРИЧЕСКИЙ ПОДХОД К ВЫБОРУ МОДЕЛИ

СЛОЖНОГО ЭКОНОМИЧЕСКОГО ОБЪЕКТА

План лекции:

Основные эконометрические понятия и термины.
Математические модели сложной экономической системы.
Эконометрический подход к выбору модели сложной экономической системы.

1. Основные эконометрические понятия и термины.
Эконометрика это наука об измерениях в экономических системах с дальнейшим поиском математической зависимости между измеряемыми параметрами.

Найденная математическая зависимость в качестве математической модели закладывается дальше в ЭВМ для проведения расчетов изучаемого экономического процесса. Полученные результаты используются далее для прогнозных или оптимизационных целей.

Любая экономическая система характеризуется рядом параметров: объемами производства, объемами используемого сырья, временем процесса, инвестициями, уровнем зарплаты, прибылью, рентабельностью и т.д. Принято эти параметры относить к одной из четырех групп:

X - входные параметры, факторные признаки, экзогенные параметры;

Y - выходные параметры, результативные признаки, эндогенные параметры;

Z - параметры возмущения, случайные факторы, случайные составляющие;

U - параметры управления.

Так как любая экономическая система является довольно сложной системой, рассмотрим некоторые применения теории сложных систем.

Во-первых, любая система состоит из подсистем. Подсистема это самостоятельно функционирующий объект, не подлежащий декомпозиции.

Во-вторых, назовем принципы выделения системы:

- наличие управляющего центра;

- система состоит из компонентов;

- система обладает общей целью;

- любая система работает во взаимодействии с внешней средой;

- система жизнеспособна при наличии достаточных ресурсов.

Экономическая система – часть более сложной социально-экономической системы и представляет собой динамическую, вероятностную, адаптивную систему, охватывающую процессы производства, обмена, распределения и потребления материальных благ, а также предоставления различных услуг. Схема такой экономической системы приведена на рис.1.

Центр управления

U

Производящая

отрасль

Потребляющая

отрасль
X Y

Сырье товары

ресурсы

V
Другие потребляющие отрасли

Рис. 1. Схема сложной экономической системы.

На практике при разработке математической модели экономического процесс встречается два случая:

- процессы, лежащие в основе механизма явления можно описать математически, например, составляя различные балансовые соотношения,

- природа процесса настолько трудна и непонятна, что никаких уравнений применить нельзя. Зато имеется большое количество данных регистрации такого процесса, обычно описывающих состояние системы в различные моменты времени.

В первом случае разработано большое количество экономико-математических методов для решения задач. Во втором случае для описания математической зависимости привлекаются методы математической статистики.

2. Математические модели сложной экономической системы.
Рассмотрим задачи, в которых математические модели строятся с учетом механизма протекания экономического процесса [1]. Эти задачи относятся к пяти группам:

- задачи линейного программирования:

- задачи динамического программирования;

- задачи, использующие теорию Марковских процессов и теорию массового обслуживания;

- задачи, использующие игровые методы;

- задачи, решаемые с использованием метода Монте-Карло.

К задачам линейного программирования относятся:

- задача о пищевом рационе, которая состоит в подборе продуктов, для которых задано содержание жиров, белков и углеродов и стоимость единицы продукта, при условии, что еде будет обеспечено заданное количество жиров, белков и углеводов и стоимость будет минимальной;

- задача о планировании производства, где требуется так спланировать производство разных видов изделий из имеющихся разных видов сырья, чтобы суммарная прибыль была максимальна и выпущенное количество изделий по каждому виду был не меньше заданного;

- задача о снабжении сырьем, когда требуется составить такой план снабжения предприятия сырьем (с какой базы, куда и какое количество сырья везти), чтобы потребности предприятий были обеспечены при минимальных расходах на сырье;

- транспортная задача, когда требуется составить такой план перевозок (откуда, куда и сколько единиц везти), чтобы все заявки были выполнены, а общая стоимость всех перевозок минимальна.

Общий принцип решения таких задач заключается:

- в составлении целевой функции (уравнение, связывающее показатель эффективности со значениями искомых величин);

- в составлении системы алгебраических неравенств, описывающих расход каждого вида материалов, который ограничен имеющими запасами;

- использование разработанных математиками методов решения систем линейных алгебраических уравнений, состоящих из сотен и тысяч неизвестных.

К задачам динамического программирования относятся такие задачи:

- прокладка наивыгоднейшего пути между двумя пунктами;

- о распределении ресурсов, когда ищется способ размещения капитала между несколькими предприятиями, имеющими разную доходность от вложенных средств. Размещение должно обеспечить максимальный суммарный доход;

- задача о загрузке машины когда в условии задан определенный набор предметов разного веса и стоимости и грузовик с ограниченной грузоподъемностью, а требуется определить, какими предметами следует загрузить машину в пределах грузоподъемности, чтобы их суммарная стоимость была максимальна.

В задачах динамического программирования оптимизация производится на каждом шаге с учетом выигрыша на всех последующих шагах. Сначала выполняется так называемый обратный ход ( от n-го шага до 1-го), а затем от 1-го шага до конца.

Третий класс задач связан с наличием в процессе событий случайных, но подчиняющихся законам вероятностей: работа телефонных станции, касс, справочных бюро, парикмахерских и т.. Сюда же можно отнести задачи, решаемые с использованием игровых методов, когда на случайность некоторых событий накладывается непредсказуемое субъективное поведение противника (конкуренция, конфликты, переговоры и т.д.).

И, наконец, иногда выгоднее решать задачи методом статистических испытаний (методом Монте-Карло). В этом случае решение громоздкой задачи сводится к выполнению достаточно простых процедур, но довольно большое количество раз (десятки миллионов).

3. Эконометрический подход к выбору модели сложной экономической системы.
В тех случаях, когда невозможно математически описать механизм процессов, имеющих место в системе, или это очень сложно, а с другой стороны имеется достаточное количество экспериментальных данных, зафиксированных об этом процессе, то просто подбирают вид математической функции между результативным параметром и факторными переменными. Под факторными переменными понимаются переменные, от которых зависит результативный параметр.

Так как всегда экспериментальные данные измеряются с некоторой погрешностью, то они являются случайными величинами. Поэтому для установления связи между зависимой переменной и независимыми используются методы математической статистики.

Уравнение, связывающее зависимую переменную с независимой, называется уравнением регрессии.

Слово регрессия в статистику ввел Френсис Гальтон, один из создателей математической статистики. Сопоставляя рост детей и родителей, он обнаружил, что соответствие между ростом отцов и детей слабо выражено, оно оказалось меньшим, чем он ожидал. Однако Гальтон не унывал – он объяснил это наследственностью не только от родителей, но и от более отдаленных предков. ПО его предположениям, то-есть по его математической модели, рост определялся наполовину родителями, на четверть - дедом и бабкой, на одну восьмую – прадедом и прабабкой и т.д. Я не знаю прав ли здесь Гальтон, но он обратил внимание на движение назад по генеалогическому дереву и назвал это явление регрессией, заимствовав понятие движения назад, противоположное прогрессу – движению вперед.

Если результативная переменная зависит только от одной переменной, то уравнение

Y = f ( x )

называется уравнением парной регрессии.

Если результативная переменная зависит от многих переменных:

Y = f ( x₁, x₂, x₃, …, x_n )

то говорят, что имеют дело со множественной регрессией.

Постепенно в практике выработались всего пять видов функциональной зависимости для описания эконометрических моделей процессов:

1) уравнение прямой: y = a₀ + a₁ x

2) уравнение 2-го порядка: y = a₀ + a₁ x + a₂ x²

3) уравнение показательной функции: y = a₀ a₁ ^x

4) уравнение степенной функции: y = a₀ x ^a¹

5) уравнение гиперболы: y = a₀ + a₁ / x
Лекция 2
ПОСТРОЕНИЕ ОДНОФАКТОРНОЙ МОДЕЛИ.

МЕТОД НАИМЕНЬШИХ КВАДРАТОВ

План лекции:

Постановка задачи построения линейной однофакторной задачи.
Метод наименьших квадратов для линейной модели.
Метод наименьших квадратов для нелинейных моделей.

1. Постановка задачи построения линейной однофакторной задачи.
Итак для решения экономической задачи на ЭВМ нам надо иметь аналитическую зависимость обсчитываемого параметра от других параметров. В тех случаях, когда у нас нет данных о механизме протекания процесса, зато есть набор экспериментальных данных зависимости одного параметра от остальных, уже построить математическую модель можно. Как следует из математической теории функций, любую функциональную зависимость можно представить в трех видах: в табличном, аналитическом и графическом. Пусть мы имеем такую функциональную зависимость, представленную таблично.

Таблица 1

Зависимость

N	1	2	3	4	5	6	7	8	9	10
X	X₁	X₂	X₃	X₄	X₅	X₆	X₇	X₈	X₉	X₁₀
Y	Y₁	Y₂	Y₃	Y₄	Y₅	Y₆	Y₇	Y₈	Y₉	Y₁₀

На основании данных таблицы 1 можно построить график этой зависимости y = f ( x ). Пусть она выглядит, как показано на рис.1.

* *

* * *

* * * *

* *
X

Рис. 1. Зависимость y = f ( x).

Можно задумать вид математической зависимости и методами математической статистики построить эту зависимость наиболее точно описывающую ее.

Обычно начинают с самой простой зависимости: с линейной

y = f ( x).

2. Метод наименьших квадратов для линейной модели.
Суть данного метода заключается в том, что квадрат суммы разностей между фактическим значением результативного признака и его теоретическим значением сводится к минимуму.

F =  (у_факт – у_теор )²  min (1)

*

Рис. 2. Теоретическая прямая и набор экспериментальных точек
* - у_факт (эмпирическое)

Чтобы найти параметры a₀ , a₁, необходимо в формулу (1) подставить у_теор, то есть ту аналитическую зависимость, которой будем сглаживать (аппроксимировать) статистический материал. Как известно из математики для нахождения минимума функции нужно взять частные производные по анализируемым параметрам и приравнять данное выражение к нулю. Получим систему из двух алгебраических уравнений, решив которую найдем искомые коэффициенты.

F =  (у_факт – a₀ – a₁x_факт )²  min

у_расч = a₀ + a₁x_факт

(*)

преобразовав уравнения системы (*), получим систему из двух нормальных уравнений:

(**)

Решение системы (**) найдем используя главный определитель (иногда он называется детерминант) D и частные определители Do и D₁. Из теории систем алгебраических уравнений известно, что если мы имеем систему:

A1 X1 + B1 X2 = C1

A2 X1 + B2 X2 = C2,

D1 D2

то ее решением являются: X1 = ----- и X2 = -------

D D

A1 B1

где D = = (A1 B2 – A2 B1),

A2 B2
C1 B1

D1 = = (C1 B2 – C2 D1),

C2 B2
A1 C1

D2 = = (A1 C2 – A2 C1)

F2 C2
В соответствии с этим решением системы (**) будут:

Рассчитав коэффициенты a₀ , a₁, можно синтезировать модель:

Y = Ao + A1 X +

Где  - погрешность, которую мы научимся оценивать позже.
Пример: Рассчитать методом МНК коэффициенты регрессии для следующего набора данных:

№ п/п	Xi	Yi	Xi ^ 2	XiYi
1	1	2	1	2
2	2	1,5	4	3
3	3	2,5	9	7,5
4	4	2,5	16	10
5	5	4	25	20
6	5	3	25	15
7	6	4	36	24
8	6	3,5	36	21
9	7	4	49	28
10	8	5	64	40
∑=	47	32	265	170,5

32 265 – 170,5 47 8480 -8013,5 466,5

Ao = ------------------------ = ----------------------- = -------- = 1,057823

10 265 – 47 47 2650 – 2209 441

10 170,5 – 47 32 1705 – 1504 201

A1 = ---------------------- = ----------------------- = ------- = 0,455782

441 441 441
Таким образом линейное уравнение, описывающее данный набор точек, имеет вид:
Y = 1,06 + 0,456 X + 

3. Метод наименьших квадратов для нелинейной модели.
Аналогичным образом используя МНК, можно получить коэффициенты для остальных функций, используемых при аппроксимации.

Рассмотрим только два случая: зависимая переменная есть функция вида

Пример 1.

Y = a₀ + a₁ X + a₂ X² + a₃ X³ + ……+ a_m X^m (2)

В качестве критерия близости рассматриваемой функции к экспериментально заданным точкам опять выберем сумму квадратичных отклонений:

S = ∑ (Yi - a₀ - a₁ Xi - a₂ Xi² - a₃ Xi³ + ……- a_m Xi^m ) ²  min

. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

В результате получим систему алгебраических уравнений (m +1)-го порядка с m+1-неизвестными:
ao n + a1 ∑ Xi + a2 ∑ Xi^2 + a3 ∑ Xi^3 + … + am ∑ Xi^m = ∑ Yi
ao ∑Xi +a1 ∑ Xi^2 + a2 ∑ Xi^3 + … + am ∑ Xi^m+1 = ∑ Yi Xi
ao ∑ Xi^2 + a1 ∑ Xi^3 + a2 ∑ Xi^4… + am ∑ Xi^m+2 = ∑ Yi Xi^2
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
ao ∑ X^m + a1 ∑ Xi^m+1 + a2 ∑ Xi^m+2 + … + am ∑ Xi^2m =∑YiXi^m
Решая полученную систему уравнений относительно неизвестных ao, a1, a2, … am и подставляя их в уравнение (2), получим аналитическое представление экспериментальных данных (Xi, Yi) в виде полинома m-й степени.

Пример 2.

Представить заданную экспериментальную зависимость в виде гиперболической функции.

Представить заданную экспериментальную зависимость в виде гиперболической функции. A1

Y = Ao + ------ (3)

Условие минимума суммы квадратичных отклонений выглядит таким образом: A1

S = ∑ (Yi – Ao - -------) ²  S min

Условия минимума суммы квадратичных отклонений запишутся в виде:

После преобразования имеем:

∑ Yi - ∑ Ao – A1 ∑ 1/Xi = 0
∑ Yi/Xi =Ao ∑ 1/Xi – A1 ∑ 1/Xi^2 = 0
Система двух алгебраических уравнений для нахождения Ao и A1 имеет вид:
Ao n + A1 ∑ 1/Xi = ∑ Yi
Ao ∑ 1/Xi + A1 ∑ 1/Xi^2 =∑ Yi/Xi
Решение этой системы дает искомые величины:
N ∑ 1/Xi

D = = n ∑ 1/Xi^2 – (∑ 1/Xi) ²

∑ 1/Xi ∑ 1/Xi^2
∑ Yi ∑ 1/Xi

Dao = = ∑ Yi ∑ 1/Xi^2 - ∑ Yi/Xi ∑ 1/Xi

∑ Yi/Xi ∑ 1/Xi^2

N ∑ Yi

DA1 = = N ∑ Yi/Xi - ∑ 1/Xi ∑ Yi

∑ 1/Xi ∑ Yi/Xi

Ao = Dao / D
A! = DA1 / D

Лекция 3
ИСПОЛЬЗОВАНИЕ МЕТОДОВ

МАТЕМАТИЧЕСКОЙ СТАТИСТИКИ ДЛЯ ПОСТРОЕНИЯ

РЕГРЕССИОННЫХ МОДЕЛЕЙ
План лекции:
1. Элементы математической статистики

2. Случайные величины

3. Числовые характеристики распределения
1. Элементы математической статистики
1.1. Операции суммирования:

Далее при описании сумм мы будем опускать значение начала и конца суммирования.
∑ X²i = X²₁ + X²₂ + X²₃ + … + X²n

X = 1/n ∑ Xi

X² = 1/n ∑ X²i

X Y = 1/n ∑ Xi Yi

( X )² ≤ X² – полезно запомнить это отношение
1.2. Правила суммирования:
∑ a = n a

∑ b Xi = b ∑Xi = b n X

∑ ( a + b Xi ) = n a + b n X

∑ ( Xi + Yi ) = ∑ Xi + ∑ Yi = n X + n Y = n ( X + Y )

∑ ( X – Xi ) = 0

1/n ∑ ( Xi – X ) = X² – ( X )²

1/n ∑ ( Xi – X ) ( Yi – Y ) = X Y – X Y

2. Случайные величины

Случайной величиной называется величина, которая под воздействием случайных факторов может с определенными вероятностями принимать те или иные значения из некоторого множества чисел. Случайные величины бывают дискретные и непрерывные.

Дискретная случайная величина принимает отдельные изолированные значения в некотором промежутке чисел. Например, при бросании кубика с нарисованными на нем цифрами от 1 до 6 мы с вероятностью, равной 1/6, получим набор чисел 1. 2. 3. 4. 5 и 6, разбросанные случайным образом.

Xi 1 2 3 4 5 6

Pi 1/6 1/6 1/6 1/6 1/6 1/6

Непрерывная случайная величина это случайная величина, множество значений которой непрерывно заполняет некоторый числовой промежуток. В этом случае число случайных величин бесконечно.

Универсальным способом задания случайной величины Х является задание ее функции распределения F ( X ).

F ( x )

1

0 x

A X1 X2 b
Рис. 1. Вид функции распределения случайной величины
Вероятность, что Х принимает значение от Х1 до Х2 равна
P = F ( x2 ) – F ( X1 )
Вероятность того, что случайная величина принимает значение, лежащее в промежутке от а до b, равна

P ( a, b ) = F ( b ) – F ( a ) = 1 – 0 = 1

Кроме этих двух свойств функция распределения F(x) имеет еще одно свойство: на участке [a,b] она монотонно растет от 0 до 1.

На практике предпочитают работать не с функцией распределения F(x), а с производной от нее, которая называется плотностью распределения вероятностей f(x).

f(x) = F’ (x)
Свойства плотности распределения вероятностей:
1. f(x) ≥ 0 всегда,
2. p (x1 ≤ x ≤ x2 ) =
3.
Математики работают с несколькими видами распределений: распределение Пирсона, распределение Фишера, распределение Пуассона, t – распределение и т.д. Мы рассмотрим только два распределения: равномерное и нормальное.
f(x) Плотность распределения

A B X
F(x) Функция распределения

1

Рис.2. Пример равномерного распределения

Пример нормального распределения показан на рис.2. Нормальное распределение очень часто встречается в жизни: этому закону подчиняются результаты многих измерений, срок службы разных изделий и т.д.

f(x) Плотность распределения

X cp X

F(x) Функция распределения

1

Рис.3. Нормальное распределение
Математическая запись плотности нормального распределения имеет вид:

Наборы случайных величин встречаются в двух видах.

Генеральная совокупность – это множество всех значений случайной величины, которые она может принять в процессе наблюдения.

Выборочная совокупность – это множество наблюдений, составляющих лишь часть генеральной совокупности

3. Числовые характеристики распределения
а) Генеральная совокупность.
Математическое ожидание: µ(х)
М(х) = ∑ Xi pi для дискретных величин.
для непрерывных случайных величин.
µ(х) среднее значение для генеральной совокупности, центр распределения случайных величин.
Свойства математического ожидания:
1. M(a) = a
2. M(bx) = b M(x)
3. M(a+bx) = a + b M(x)
4. M(X +Y) = M(X) +M(Y)
5. M(X -µ) = 0
Дисперсия случайной величины – это математическое ожидание квадрата отклонения случайной величины Х относительно ее средней.

D ( x ) = M ( x -µ) ²

Можно записать также так: D(x) = M(x² ) - µ ².
Дисперсия это мера рассеяния случайной величины относительно центра.

σ (x) = V D(x) – стандартное отклонение случайной величины х относительно средней величины.

Свойства дисперсии:

1. D (a) = 0
2. D(bx) = b ² D(x)
3. D(a + bx) = b ² D(x)

Если две случайные величины независимы то

D(x + y) = D(x) + D(y).
б) Выборочная совокупность:
Выборочная средняя X = 1/n ∑ Xi
Выборочная дисперсия (вариация):
Var(x) = 1/n ∑ (Xi – X )² = X² – (X)²
M(x) = µ(x)
σ²x

D(x) = -----

n
σ x

σ x = ------

V n
Ковариация и корреляция случайных величин

COV (x,y) = 1/n ∑ (Xi – X) (Yi –Y) = XY – X Y

Ковариация – мера взаимосвязи между переменными Х и У

= -

COV = 0

= +
При положительной ковариации с увеличением одной переменной увеличивается; при отрицательной наоборот: с увеличением одной другая уменьшается.

При ковариации, равной 0, Х и У независимы.

Заметим, что

Cov(x,x) = 1/n ∑ (Xi –X )2 = var (x) (выборочная дисперсия)
Области I и III дают в ковариацию положительный вклад, а области II и IV отрицательный.

Y

II I

-

+

Y

III IV

X
Рис.4. Вклад областей I – IV в ковариацию

Выборочный коэффициент корреляции определяется следующим образом:

Cov(x,y) ∑(Xi-X)(Yi-Y)

r xy = -------------------- = -------------------------------------- =

V var(x) var(y) n V 1/n ∑(Xi-X)² 1/n ∑(yi-y)²

XY – X Y

= ---------------------------------

V [X² – (X)²] [ Y² – (Y)²]

-1 ≤ r ≤ +1

Коэффициент корреляции r показывает степень линейной связи двух переменных.
r ≥ 0 r ≤ 0 - Х и У коррелируют

r = 0 - Х и У могут быть и зависимыми и независимыми

переменными.
Лекция 4
АНАЛИЗ ВАРИАЦИИ ЗАВИСИМОЙ ПЕРЕМЕННОЙ

В МОДЕЛИ ПАРНОЙ РЕГРЕССИИ
План лекции:

1. Основные выводы теории математической статистики.

2. Проверка статистических гипотез.

3. Анализ вариации зависимой переменной.

1. Основные выводы теории математической статистики.
При построении математической модели по экспериментальным данным, мы всегда должны помнить, что мы имеем дело не с полным набором данных (генеральная совокупность), а с какими-то выборочными данными. Если бы мы имели дело с генеральной совокупностью, можно было бы чисто математическими методами точно предсказать искомую зависимость y = f(x), или в частности Y = ao + a1 X/

Мы всегда поставлены в условия, когда по характеристикам выборочной совокупности мы должны оценить параметры генеральной совокупности. Эта процедура проверки соответствия выборочных оценок параметрам генеральной совокупности имеет название проверка статистических гипотез и состоит она в следующем.

Статистической гипотезой Н называется предположение относительно параметров или вида распределения случайной величины.

Нулевой (основной) называют выдвинутую гипотезу Но, а конкурирующей (альтернативной) – гипотезу Н₁, которая противоречит нулевой.

Теперь давайте на примере рассмотрим процедуру проверки статистических гипотез.

Пример. Вычислить коэффициент корреляции между расходами на питание у и личными доходами х по данным экономики (усл. ед.) некоторой страны за 5 лет. (см. таблицу 1)

В данном случае мы сначала исследуем данные Х и У на взаимодействие друг с другом.

Потом с помощью процедуры проверки статистической гипотезы ответим на вопрос, а можно ли использовать линейную зависимость между переменными.

И уж только после этого приступим к поиску значений Ао и А1 в формуле У = Ао + А1 Х

Таблица 1

Год	Х	У	Х²	ХУ	У²
1990 1991 1992 1993 1994	2 6 10 14 18	9 10 12 19 20	4 36 100 196 324	18 60 120 266 360	81 100 144 361 400
Итого	50	70	660	823	1086
Среднее	10	14	132	164,8	217,2
Среднее	х	у	х²	ху	у²

Рассчитаем теперь значения вариации, ковариации и коэффициента корреляции.

Var(x) = x² – (x)² = 132 – 100 =32

Var(y) = y² –(y)² = 217,2 – 196 = 21,2

Cov(x,y) = xy – x y =164,8 – 140 =24,8
Cov(x,y) 24,8

r = ---------------------------- = ---------------- = 0,952

V var(x) var(y) V32 21,2
Ниже на рис.1 (а,б,в и г) показан смысл значений коэффициента корреляции r.

Y а)
r  0
X

Y б)

r  0

Y в)

r = 0
X

Y г)
r = 0

Рис.1. Влияние коэффициента корреляции r на ход функции

2. Проверка статистических гипотез.
Итак мы рассчитали коэффициент корреляции выборочной совокупности r=0,952.

А нам нужно знать коэффициент корреляции для всей генеральной совокупности . Мы его найти не можем, у наснет генеральной совокупности, но мы сейчас докажем, что наш коэффициент r близок к .

Выдвигаем гипотезу, что  = 0, т.е. линейной зависимости нет. Альтернативная ей гипотеза   0, т.е. зависимость между Х и У существует.

В качестве критерия проверки гипотезы Но ( = 0) используем параметр:

r корень( n -2) 0,952 V 3

t = ---------------------- = ------------------------- = 5,5

Корень (1 –r²) V (1 –0,952 0,952)
Этот параметр мы должны сравнить с критическим значением параметра, который характеризует так называемое распределение Стъюдента (t –статистика). Существуют специальные таблицы значений этого параметра в зависимости от числа переменных, от числа экспериментальных точек, от точности, с которой мы хотим оценить наши результаты.

Если:

t  t kp то гипотеза Ho принимается, т.е. нет линейной связи,

Если t  t kp, то гипотеза Но отвергается .Линейная связь есть.

По таблице распределения Стъюдента для точности 5 % и числе переменных, равным двум, находим значение t кр, равное 3,18.
t = 5,5  t kp = 3,18
Мы вправе использовать линейную модель.

Иногда приходится использовать и другие критерии (не только Стъюдента), но и Фишера, Пирсона и т.д.

3. Анализ вариации зависимой переменной.
Вернемся снова к методу наименьших квадратов. Как мы помним, задача состоит в том, чтобы, например, для линейной зависимости

Y = a + b X

подобрать два коэффициента а и b такие, чтобы сумма квадратичных отклонений расчетных значений функции от экспериментальных была минимальной. Математически это условие записывается так:
S = ∑ (Yi – a – b Xi)² = S min
Далее

S’a = - 2 ∑(Yi – a – b Xi) = 0

S’b = -2 ∑(Yi – a – b Xi) Xi = 0
∑ Yi = n a + b ∑ Xi
∑ Xi Yi = a ∑ Xi + b ∑ Xi²

a + b X = Y

a X + b X² = X Y

X Y – X Y cov (x, y)

b = -------------------- = -------------

X² – (X)² var (x)

a = Y – b X

Y = a + b X = Y – b X + b X

Y – Y = b (X – X)

Последняя формула означает, что точка (X, Y) лежит на расчетной прямой.

Y

ei

Y

Y^i

X X

Yi = Y^i + ei

ei – добавка, которую нельзя объяснить с помощью уравнения регрессии.
Var(y) = var(y^) + var(e)

Var(y^) var(e)

Коэффициент детерминации R² = -------------- = ------------

Var(y) var(y)

Коэффициент детерминации изменяется от 0 до 1.

Если R² = 1, то все точки лежат на регрессионной прямой.

Чем ближе R² к 1, тем точнее уравнение регрессии описывает исследуемую зависимость.

Вернемся к нашему примеру и в дополнение к таблице 1 построим таблицу 2 для расчета коэффициента детерминации R². Сначала только рассчитаем коэффициенты регрессии a и b.

Cov(x,y) 24,8

b = ---------------- = ------- = 0,775

var(x) 32
a = y – b x = 14 – 0,775 10 = 6,25
Итак уравнение регрессии y^ = 6,25 + 0,775 x.
Данные расчетов поместим в таблицу 2, взяв за основу ее таблицу 1.
Таблица 2

Год	Х	У	Y^	(Y-Y^)²	(Y^-Ycp)²	(Y-Y^)²
1990 1991 1992 1993 1994	2 6 10 14 18	9 10 12 19 20	7,8 10,9 14 17,1 20,2	25 16 4 25 36	38,44 9,61 0 9,61 38,44	1,44 0,81 4 3,61 0,04
Итого	50	70	70	106	96,1	9/9
	10	14	14	21/6	19,22	1,98
Среднее	x	y	Y^	Var(y)	Var(y^)	Var(e)

Var(y^) 19,22

R² = --------------- = ----------------- = 0,907

Var(y) 21,2

Это означает, что 90,7 % экспериментальных точек лежат достаточно близко к подобранной прямой линии y = 6,25 + 0,775 x.
Лекция 5
СЛОЖНЫЕ РЕГРЕССИОННЫЕ ЭКОНОМЕТРИЧЕСКИЕ
МОДЕЛИ

План лекции

1. Парные нелинейные регрессии

2. Модель множественной регрессии

3. Проверка моделей на адекватность

1. Парные нелинейные регрессии
Рассмотрев довольно подробно линейную парную регрессию
Y₁ = ao + a₁ x,
можно рассмотреть остальные наиболее часто встречающиеся парные регрессии:

у₂ = ao + a₁ x + a₂ x ² уравнение 2-го и выше порядка;

y₃ = ao x ^a¹ степенная функция;
y₄ = ao + a₁ ^x показательная функция;
y₅ = ao + a₁ / x гиперболическая функция.
При подборе постоянных коэффициентов для этих функций уже не всегда получается система из двух линейных уравнений, а появляющаяся нелинейность затрудняет решение системы уравнений. Существует два подхода к избавлению от нелинейности.

Первый подход заключается в том, что путем замены переменной мы можем придти к линейной системе. Например, для
y₅ = ao + a₁ / x = ao + a₁ 1 / x
достаточно ввести новую переменную
z =1 / x
и приходим к линейной регрессии: y₅ = ao + a₁ z.
Второй подход заключается в избавлении от нелинейности путем логарифмирования как зависимой переменной у, так и независимой переменной х. Например:

y₃ = ao x ^a¹

Сначала можно записать
lg y3 = lg ao + a1 lg x.
Далее, введя новые переменные u = lg e3 и z = lg x
Получим линейное уравнение u = Ao + A1 z.
А там, где можно, надо пытаться использовать стандартную процедуру применения метода наименьших квадратов. Возьмем опять гиперболическое уравнение.
y₅ = ao + a₁ / x
При поиске коэффициентов ao и a1 опять используем условие, что сумма квадратичных отклонений расчетного значения функции от заданных по всем точкам хi минимальна:
S = ∑ (Yi – ao – a1 / Xi) ²  Smin

∑ yi - ∑ ao - ∑ a1 / xi

∑ yi / xi - ∑ ao / xi - ∑ a1 / x²i
n ao + a1 ∑ 1 / xi = ∑ yi
ao ∑ 1 / xi + a1 ∑ 1 / x²i = ∑ yi / xi
Используя далее стандартный метод определителей для поиска неизвестных, имеем:
аo = Do / D a1 = D1 / D
n ∑ 1 /xi

D = = n ∑ 1 / x²i - (∑ 1 / xi) ²

∑ 1 / xi ∑ 1 / x²i

∑ yi ∑ 1 / xi

Do = = ∑ yi ∑ 1 / x²i - ∑ 1 / xi ∑ yi / xi

∑ yi / xi ∑ 1 / x²i

n ∑ yi

D1 = = n ∑ yi / xi - ∑ 1 / xi∑ yi

∑ 1 / xi ∑ yi / xi
Расчетное значение функции теперь примет вид:
Y^i = ao + a1 / xi +  i
следующая страница >>