В чем смысл параметра r2 какие значения оно принимает?

11 ответов на вопрос “В чем смысл параметра r2 какие значения оно принимает?”

  1. tiratata Ответить

    Существуют медицинская статистика, экономическая статистика, социальная статистика и другие. Математический аппарат статистики разрабатывает наука под названием математическая статистика.
    Рассмотрим пример из области медицинской статистики.
    Известно, что наиболее сильное влияние на бронхиально-легочные заболевания оказывает угарный газ — монооксид углерода. Поставив цель определить эту зависимость, специалисты по медицинской статистике проводят сбор данных. Они собирают сведения из разных городов о средней концентрации угарного газа в атмосфере и о заболеваемости астмой (число хронических больных на 1000 жителей). Полученные данные можно свести в таблицу, а также представить в виде точечной диаграммы (рис. 3.3).*

    Рис. 3.3. Табличное и графическое представление статистических данных
    Статистические данные всегда являются приближенными, усредненными. Поэтому они носят оценочный характер, но верно отражают характер зависимости величин. И еще одно важное замечание: для достоверности результатов, полученных путем анализа статистических данных, этих данных должно быть много.
    Из полученных данных можно сделать вывод, что при концентрации угарного газа до 3 мг/м3 его влияние на заболеваемость астмой несильное. С дальнейшим ростом концентрации наступает резкий рост заболеваемости.
    А как построить математическую модель данного явления? Очевидно, нужно получить формулу, отражающую зависимость количества хронических больных Р от концентрации угарного газа С. На языке математики это называется функцией зависимости Р от С: Р(С). Вид такой функции неизвестен, ее следует искать методом подбора по экспериментальным данным.
    Понятно, что график искомой функции должен проходить близко к точкам диаграммы экспериментальных данных. Строить функцию так, чтобы ее график точно проходил через все данные точки (рис. 3.4, а), не имеет смысла. Во-первых, математический вид такой функции может оказаться слишком сложным. Во-вторых, уже говорилось о том, что экспериментальные значения являются приближенными.

    Рис. 3.4. Два варианта построения графической зависимости по экспериментальным данным
    Отсюда следуют основные требования к искомой функции:
    она должна быть достаточно простой для использования ее в дальнейших вычислениях;
    график этой функции должен проходить вблизи экспериментальных точек так, чтобы отклонения этих точек от графика были минимальны и равномерны (рис. 3.4, б).
    Полученную функцию, график которой приведен на рис. 3.4, б, в статистике принято называть регрессионной моделью.
    Метод наименьших квадратов
    Получение регрессионной модели происходит в два этапа:
    подбор вида функции;
    вычисление параметров функции.
    Первая задача не имеет строгого решения. Здесь может помочь опыт и интуиция исследователя, а возможен и «слепой» перебор из конечного числа функций и выбор лучшей из них.
    Чаще всего выбор производится среди следующих функций:
    у = ах + b — линейная функция;
    у = ах2 + bх + с — квадратичная функция;
    у — а ln(х) + b — логарифмическая функция;
    у = аеbх — экспоненциальная функция;
    у — ахb — степенная функция.
    Квадратичная функция называется в математике полиномом второй степени. Иногда используются полиномы и более высоких степеней, например полином третьей степени имеет вид: у = ах3 + Ьх2 + сх + d.
    Во всех этих формулах х — аргумент, у — значение функции, а, Ь, с, d — параметры функции, ln(х) — натуральный логарифм, е — константа, основание натурального логарифма.
    Если вы выбрали (сознательно или наугад) одну из предлагаемых функций, то далее нужно подобрать параметры (а, b, с и пр.) так, чтобы функция располагалась как можно ближе к экспериментальным точкам. Что значит «располагалась как можно ближе»? Ответить на этот вопрос значит предложить метод вычисления параметров. Такой метод был предложен в XVIII веке немецким математиком К. Гауссом и называется методом наименьших квадратов (МНК). Суть его заключается в следующем: искомая функция должна быть построена так, чтобы сумма квадратов отклонений у-координат всех экспериментальных точек от у-координат графика функции была минимальной.
    Мы не будем здесь производить подробное математическое описание метода наименьших квадратов. Достаточно того, что вы теперь знаете о существовании такого метода. Он очень широко используется в статистической обработке данных и встроен во многие математические пакеты программ. Важно понимать следующее: методом наименьших квадратов по данному набору экспериментальных точек можно построить любую (в том числе и из рассмотренных выше) функцию. А вот будет ли она нас удовлетворять, это уже другой вопрос — вопрос критерия соответствия. На рис. 3.5 изображены три функции, построенные методом наименьших квадратов по приведенным экспериментальным данным.

    Рис. 3.5. Три функции, построенные по МНК
    Эти рисунки получены с помощью табличного процессора Microsoft Excel. График регрессионной модели называется трендом. Английское слово trend можно перевести как «общее направление» или «тенденция» .
    Уже с первого взгляда хочется отбраковать вариант линейного тренда. График линейной функции — это прямая. Полученная по МНК прямая отражает факт роста заболеваемости от концентрации угарного газа, но по этому графику трудно что-либо сказать о характере этого роста. А вот квадратичный и экспоненциальный тренды правдоподобны. Теперь пора обратить внимание на надписи, присутствующие на графиках. Во-первых, это записанные в явном виде искомые функции — регрессионные модели:

    На графиках присутствует еще одна величина, полученная в результате построения трендов. Она обозначена как R2. В статистике эта величина называется коэффициентом детерминированности. Именно она определяет, насколько удачной является полученная регрессионная модель. Коэффициент детерминированности всегда заключен в диапазоне от 0 до 1. Если он равен 1, то функция точно проходит через табличные значения, если 0, то выбранный вид регрессионной модели предельно неудачен. Чем R2 ближе к 1, тем удачнее регрессионная модель.
    Из трех выбранных моделей значение R2 наименьшее у линейной. Значит, она самая неудачная (нам и так это было понятно). Значения же R2 у двух других моделей достаточно близки (разница меньше 0,01). Если определить погрешность решения данной задачи как 0,01, по критерию R2 эти модели нельзя разделить. Они одинаково удачны. Здесь могут вступить в силу качественные соображения. Например, если считать, что наиболее существенно влияние концентрации угарного газа проявляется при больших величинах, то, глядя на графики, предпочтение следует отдать квадратичной модели. Она лучше отражает резкий рост заболеваемости при больших концентрациях примеси.
    Интересный факт: опыт показывает, что если человеку предложить на данной точечной диаграмме провести «на глаз» прямую так, чтобы точки были равномерно разбросаны вокруг нее, то он проведет линию, достаточно близкую к той, что дает МНК.

    Прогнозирование по регрессионной модели

    Мы получили регрессионную математическую модель и можем прогнозировать процесс путем вычислений. Теперь можно оценить уровень заболеваемости астмой не только для тех значений концентрации угарного газа, которые были получены путем измерений, но и для других значений. Это очень важно с практической точки зрения. Например, если в городе планируется построить завод, который будет выбрасывать в атмосферу угарный газ, то, рассчитав его возможную концентрацию, можно предсказать, как это отразится на заболеваемости астмой жителей города.
    Существует два способа прогнозирования по регрессионной модели. Если прогноз производится в пределах экспериментальных значений независимой переменной (в нашем случае это концентрация угарного газа С), то это называется восстановлением значения.
    Прогнозирование за пределами экспериментальных данных называется экстраполяцией.
    Имея регрессионную модель, легко прогнозировать, производя расчеты с помощью электронных таблиц. Выберем для нашего примера в качестве наиболее подходящей квадратичную зависимость. Построим следующую электронную таблицу:

    Подставляя в ячейку А2 значение концентрации угарного газа, в ячейке В2 будем получать прогноз заболеваемости. Вот пример восстановления значения:

    Заметим, что число, получаемое по формуле в ячейке В2, на самом деле является дробным. Однако не имеет смысла считать число людей, даже среднее, в дробных величинах. Дробная часть удалена — в формате вывода числа указано 0 цифр после запятой.
    Экстраполяционный прогноз выполняется аналогично.
    Табличный процессор дает возможность производить экстраполяцию графическим способом, продолжая тренд за пределы экспериментальных данных. Как это выглядит при использовании квадратичного тренда для С = 7, показано на рис. 3.6.

    Рис. 3.6. Квадратичный тренд с экстраполяцией
    В ряде случаев с экстраполяцией надо быть осторожным. Применимость всякой регрессионной модели ограничена, особенно за пределами экспериментальной области. В нашем примере при экстраполяции не следует далеко уходить от величины 5 мг/м3. Вполне возможно, что далее характер зависимости существенно меняется. Слишком сложной является система «экология — здоровье человека», в ней много различных факторов, которые связаны друг с другом. Полученная регрессионная функция является всего лишь моделью, экспериментально подтвержденной в диапазоне концентраций от 2 до 5 мг/м3. Что будет вдали от этой области, мы не знаем. Всякая экстраполяция держится на гипотезе: «предположим, что за пределами экспериментальной области закономерность сохраняется». А если не сохраняется?
    Квадратичная модель в данном примере в области малых значений концентрации, близких к 0, вообще не годится. Экстраполируя ее на С = 0 мг/м3, получим 150 человек больных, т. е. больше, чем при 4 мг/м3. Очевидно, это нелепость. В области малых значений С лучше работает экспоненциальная модель. Кстати, это довольно типичная ситуация: разным областям данных могут лучше соответствовать разные модели.
    Система основных понятий

    Вопросы и задания

    а) Что такое статистика?
    б) Являются ли результаты статистических расчетов точными?
    в) Что такое регрессионная модель?
    Какие из следующих величин можно назвать статистическими: температура вашего тела в данный момент; средняя температура в вашем регионе за последний месяц; максимальная скорость, развиваемая данной моделью автомобиля; среднее число осадков, выпадающих в вашем регионе в течение года?
    а) Для чего используется метод наименьших квадратов?
    б) Что такое тренд?
    в) Как располагается линия тренда, построенная по МНК, относительно экспериментальных точек?
    г) Может ли тренд, построенный по МНК, пройти выше всех экспериментальных точек?
    а) В чем смысл параметра R2? Какие значения он принимает?
    б) Какое значение примет параметр R2, если тренд точно проходит через экспериментальные точки?
    По данным из следующей таблицы постройте с помощью Excel линейную, квадратичную, экспоненциальную и логарифмическую регрессионные модели. Определите параметры, выберите лучшую модель.

    а) Что подразумевается под восстановлением значения по регрессионной модели ?
    б) Что такое экстраполяция?
    Соберите данные о средней дневной температуре в вашем городе за последнюю неделю (10 дней, 20 дней). Оцените (хотя бы на глаз), годится ли использование линейного тренда для описания характера изменения температуры со временем. Попробуйте путем графической экстраполяции предсказать температуру через 2-5 дней.
    Придумайте свои примеры практических задач, для которых имело бы смысл выполнение восстановления значений и экстраполяционных расчетов.
    * Приведенные в примере данные не являются официальной статистикой, однако правдоподобны.

  2. 207329 Ответить

    а) Для чего используется метод наименьших квадратов?
    б) Что такое тренд?
    в) Как располагается линия тренда, построенная по МНК, относительно экспериментальных точек?
    г) Может ли тренд, построенный по МНК, пройти выше всех экспериментальных точек?

    Ответ

    А) Обычно используется для статистической обработки результатов эксперимента, когда по заданному набору точек на плоскости (хотя можно и не только для плоскости применять) получают функцию в виде уравнения (т. е. аналитически заданную), непрерывную в области, заданной этими точками, которая максимально близко соответствует этому заданному набору точек. Такое определение функции обычно называется табличным, а полученную в результате в аналитическом виде функцию — линией регрессии. Критерий её поиска — минимизация суммы квадратов отклонений данной функции (линии регрессии) от изначально заданных точек, поэтому и называется «метод наименьших квадратов».
    Б) основная тенденция изменения чего-либо: например, в математике — временного ряда.
    В) Линия проходит через центр тяжести выборочных данных,
    то есть выполняется равенство:
    y=b1+sum(bi·xi)
    Г) Нет, не может. Потому что в этом случае параллельно опустив тренд до первой же точки , мы уже добьемся лучшего совпадения с экспериментальными данными. Все расстояния от тренда до экспериментальных точек уменьшатся, а, значит, уменьшится и сумма квадратов расстояний.

  3. ctrauc Ответить

    Главная | Информатика и информационно-коммуникационные технологии | Планирование уроков и материалы к урокам | 11 классы | План проведения занятий на учебный год (по учебнику Семакина И.Г.) 1 час в неделю | Модели статистического прогнозирования (§18)
    Уроки 21 – 32
    Модели статистического прогнозирования (§18)
    Практическая работа № 3.2. “Прогнозирование”

    Содержание урока

    Компьютерное информационное моделирование (§16)
    Моделирование зависимостей между величинами (§17)
    Модели статистического прогнозирования (§18)
    О статистике и статистических данных
    Метод наименьших квадратов
    Прогнозирование по регрессионной модели
    Вопросы и задания
    Практическая работа № 3.2 Прогнозирование
    Моделирование корреляционных зависимостей (§19)
    Модели оптимального планирования (§20)
    Проект: получение регрессионных зависимостей. Практическая работа № 3.3. Проектные задания на получение регрессионных зависимостей”
    Проект: корреляционный анализ. Практическая работа № 3.5. “Проектные задания по теме “Корреляционные зависимости””
    Проект: оптимальное планирование. Практическая работа № 3.7. “Проектные задания по теме “Оптимальное планирование””
    Итоговое тестирование по теме “Информационное моделирование”

    Модели статистического прогнозирования (§18)

    Вопросы и задания

    1.
    а) Что такое статистика?
    б) Являются ли результаты статистических расчетов точными?
    в) Что такое регрессионная модель?
    2. Какие из следующих величин можно назвать статистическими: температура вашего тела в данный момент; средняя температура в вашем регионе за последний месяц; максимальная скорость, развиваемая данной моделью автомобиля; среднее число осадков, выпадающих в вашем регионе в течение года?
    3.
    а) Для чего используется метод наименьших квадратов?
    б) Что такое тренд?
    в) Как располагается линия тренда, построенная по МНК, относительно экспериментальных точек?
    г) Может ли тренд, построенный по МНК, пройти выше всех экспериментальных точек?
    4.
    а) В чем смысл параметра R2? Какие значения он принимает?
    б) Какое значение примет параметр R2, если тренд точно проходит через экспериментальные точки?
    5. По данным из следующей таблицы постройте с помощью Excel линейную, квадратичную, экспоненциальную и логарифмическую регрессионные модели. Определите параметры, выберите лучшую модель.

    6.
    а) Что подразумевается под восстановлением значения по регрессионной модели ?
    б) Что такое экстраполяция?
    7. Соберите данные о средней дневной температуре в вахпем городе за последнюю неделю (10 дней, 20 дней). Оцените (хотя бы на глаз), годится ли использование линейного тренда для описания характера изменения температуры со временем. Попробуйте путем графической экстраполяции предсказать температуру через 2-5 дней.
    8. Придумайте свои примеры практических задач, для которых имело бы смысл выполнение восстановления значений и экстраполяционных
    Следующая страница Практическая работа № 3.2 Прогнозирование

  4. Paradoxxxik Ответить

    Главная | Информатика и информационно-коммуникационные технологии | Планирование уроков и материалы к урокам | 11 классы | Планирование уроков на учебный год (по учебнику Семакина И.Г.) 2 часа в неделю | Модели статистического прогнозирования (§18)
    Уроки 44 – 47
    Модели статистического прогнозирования (§18)
    Практическая работа № 3.2. “Прогнозирование”

    Содержание урока

    Модели статистического прогнозирования (§18)
    О статистике и статистических данных
    Метод наименьших квадратов
    Прогнозирование по регрессионной модели
    Вопросы и задания
    Практическая работа № 3.2 Прогнозирование

    Модели статистического прогнозирования (§18)

    Вопросы и задания

    1.
    а) Что такое статистика?
    б) Являются ли результаты статистических расчетов точными?
    в) Что такое регрессионная модель?
    2. Какие из следующих величин можно назвать статистическими: температура вашего тела в данный момент; средняя температура в вашем регионе за последний месяц; максимальная скорость, развиваемая данной моделью автомобиля; среднее число осадков, выпадающих в вашем регионе в течение года?
    3.
    а) Для чего используется метод наименьших квадратов?
    б) Что такое тренд?
    в) Как располагается линия тренда, построенная по МНК, относительно экспериментальных точек?
    г) Может ли тренд, построенный по МНК, пройти выше всех экспериментальных точек?
    4.
    а) В чем смысл параметра R2? Какие значения он принимает?
    б) Какое значение примет параметр R2, если тренд точно проходит через экспериментальные точки?
    5. По данным из следующей таблицы постройте с помощью Excel линейную, квадратичную, экспоненциальную и логарифмическую регрессионные модели. Определите параметры, выберите лучшую модель.

    6.
    а) Что подразумевается под восстановлением значения по регрессионной модели ?
    б) Что такое экстраполяция?
    7. Соберите данные о средней дневной температуре в вахпем городе за последнюю неделю (10 дней, 20 дней). Оцените (хотя бы на глаз), годится ли использование линейного тренда для описания характера изменения температуры со временем. Попробуйте путем графической экстраполяции предсказать температуру через 2-5 дней.
    8. Придумайте свои примеры практических задач, для которых имело бы смысл выполнение восстановления значений и экстраполяционных
    Следующая страница Практическая работа № 3.2 Прогнозирование

  5. cage2000 Ответить


    Рисунок 2.Табличное и графическое представление статистических данных.
    Статистические данные всегда являются приближенными, усредненными. Поэтому они носят оценочный характер. Однако, они верно отражают характер зависимости величин. И еще одно важное замечание: для достоверности результатов, полученных путем анализа статистических данных, этих данных должно быть много.
    Из полученных данных можно сделать вывод, что при концентрации угарного газа до 3 мг/куб.м его влияние на заболеваемость астмой несильное. С дальнейшим ростом концентрации наступает резкий рост заболеваемости.
    Нужно получить формулу, отражающую зависимость числа хронических больных P от концентрации угарного газа С. На языке математики это называется функцией зависимости Р от С: Р(С). Вид такой функции неизвестен, её следует искать методом подбора по экспериментальным данным. Понятно, что график искомой функции должен проходить близко к точкам диаграммы экспериментальных данных. Строить функцию так, чтобы ёе график точно проходил через все данные точки (рисунок 2), не имеет смысла. Во-первых, математический вид такой функции может оказаться слишком сложным. Во-вторых, уже говорилось о том, что экспериментальные значения являются приближенными.
    Отсюда следуют основные требования к искомой функции:
    она должна быть достаточно простой для использования её в дальнейших вычислениях;
    график этой функции должен проходить вблизи экспериментальных точек так, чтобы отклонения этих точек от графика были минимальны и равномерны (рисунок 3).
    а)

    б)

    Рисунок 3.  Два варианта построения графической зависимости по экспериментальным данным.
    Полученную функцию, график которой приведен на рисунке 3(б), принято называть в статистике регрессионной моделью. Регрессионная модель – это функция, описывающая зависимость между количественными характеристиками сложных систем. Получение регрессионной модели происходит в два этапа:
    подбор вида функции;
    вычисление параметров функции.
    Чаще всего выбор производится среди следующих функций:
    y=ax+b – линейная функция;
    y=ax2+bx+c – квадратичная функция;
    y=aln(x)+b – логарифмическая функция;
    y=aebx – экспоненциальная функция;
    y=axb – степенная функция.
    Если Вы выбрали (сознательно или наугад) одну из предлагаемых функций, то следующим шагом нужно подобрать параметры (a,b,c и пр.) так, чтобы функция располагалась как можно ближе к экспериментальным точкам. Для этого подходит метод наименьших квадратов (МНК). Суть его заключается в следующем: искомая функция должна быть построена так, чтобы сумма квадратов отклонений у – координат всех экспериментальных точек от у – координат графика функции была бы минимальной.
    Важно понимать следующее: методом наименьших квадратов по данному набору экспериментальных точек можно построить любую функцию. А вот будет ли она нас удовлетворять, это уже другой вопрос – вопрос критерия соответствия. На рисунке 4 изображены 3 функции, построенные методом наименьших квадратов.



    Рисунок 4.
    Данные рисунки получены с помощью Ms Excel. График регрессионной модели называется трендом (trend – направление, тенденция).
    График линейной функции – это прямая. Полученная по методу МНК прямая отражает факт роста заболеваемости от концентрации угарного газа, но по этому графику трудно что – либо сказать о характере этого роста. А вот квадратичный и экспоненциальный тренды – ведут себя очень правдоподобно.
    На графиках присутствует ещё одна величина, полученная в результате построения трендов. Она обозначена как R2. В статистике эта величина называется коэффициентом детерминированности. Именно она определяет, насколько удачной получится регрессионная модель. Коэффициент детерминированности всегда заключен в диапазоне от 0 до 1. Если он равен 1, то функция точно проходит через табличные значения, если 0, то выбранный вид регрессионной модели неудачен. Чем R2 ближе к 1, тем удачнее регрессионная модель.
    Метод наименьших квадратов используется для вычисления параметров регрессионной модели. Этот метод содержится в математическом арсенале электронных таблиц.
    Получив регрессионную математическую модель мы можем прогнозировать процесс путем вычислений. Теперь можно оценить уровень заболеваемости астмой не только для тех значений концентрации угарного газа, которые были получены путем измерений, но и для других значений. Это очень важно с практической точки зрения. Например, если в городе планируется построить завод, который будет выбрасывать в атмосфере угарный газ, то, рассчитав возможную концентрацию газа, можно предсказать, как это отразится на заболеваемости астмой жителей города.
    Существуют два способа прогнозов по регрессионной модели. Если прогноз производится в пределах экспериментальных значений независимой переменной (в нашем случае это значение концентрации угарного газа – С), то это называется восстановлением значения.
    Прогнозирование за пределами экспериментальных данных называется экстраполяцией.
    Имея регрессионную модель, легко прогнозировать, производя расчеты с помощью электронной таблицы.
    Табличный процессор дает возможность производить экстраполяцию графическим способом, продолжая тренд за пределы экспериментальных данных. Как это выглядит при использовании квадратичного тренда для С=7 показано на рисунке 5.

    Рисунок 5.
    В ряде случаев с экстраполяцией надо быть осторожным. Применимость всякой регрессионной модели ограничена, особенно за пределами экспериментальной области. В нашем примере при экстраполяции не следует далеко уходить от величины 5 мг/куб.м. Вполне возможно, что далее характер зависимости существенно меняется. Слишком сложной является система “экология – здоровье человека”, в ней много различных факторов, которые связаны друг с другом. Полученная регрессионная функция является всего лишь моделью, экспериментально подтвержденной в диапазоне концентраций от 2 до 5 мг/куб.м. Что будет вдали от этой области, мы не знаем. Всякая экстраполяция держится на гипотезе: “предположим, что за пределами экспериментальной области закономерность сохраняется”.
    Квадратичная модель в данном примере в области малых значений концентрации, близких к 0,вообще не годится. Экстраполируя её на С=0 мг/куб.м, получим 150 человек больных, то есть больше, чем при 5 мг/куб.м. Очевидно, это нелепость. В области малых значений С лучше работает экспоненциальная модель. Кстати, это довольно типичная ситуация: разным областям данных могут лучше соответствовать разные модели.

  6. Schokc Ответить

    Множественный R – коэффициент корреляции
    R-квадрат – это коэффициент линейной детерминации. Коэффициент является одной из наиболее эффективных оценок адекватности регрессионной R2модели, мерой качества уравнения регрессии в целом (или, как говорят, мерой качества подгонки регрессионной модели к наблюденным значениям.
    Если R-квадрат > 0,95, говорят о высокой точности аппроксимации (модель хорошо описывает явление). Если R-квадрат лежит в диапазоне от 0,8 до 0,95, говорят об удовлетворительной аппроксимации (модель в целом адекватна описываемому явлению). Если R-квадрат < 0,6, принято считать, что точность аппроксимации недостаточна и модель требует улучшения (введения новых независимых переменных, учета нелинейностей и т. д.). Нормированный R-квадрат – скорректированный (адаптированный, поправленный) коэффициент детерминации. Недостатком коэффициента детерминации R-квадратявляется то, что он увеличивается при добавлении новых объясняющих переменных, хотя это и не обязательно означает улучшение качества регрессионной модели. В этом смысле предпочтительнее использовать нормированный, который в отличие от R-квадрат может уменьшаться при введении в модель новых объясняющих переменных, не оказывающих существенное влияние на зависимую переменную. Наблюдения – число наблюдений (в нашем случае 10 стран). Df– число степеней свободы связано с числом единиц совокупности и с числом определяемых по ней констант. F и Значимость F позволяют проверить значимость уравнения регрессии, т.е. установить, соответствует ли математическая модель, выражающая зависимость между переменными, экспериментальным данным и достаточно ли включенных в уравнение объясняющих переменных (одной или нескольких) для описания зависимой переменной. SS – Сумма квадратов отклонений значений признака Y. MS – Дисперсия на одну степень свободы. F – Наблюдаемое (эмпирическое) значение статистики F, по которой проверяется гипотеза равенства нулю одновременно всех коэффициентов модели. Значимость F – теоретическая вероятность того, что при гипотезе равенства нулю одновременно всех коэффициентов модели F-статистика больше эмпирического значения F. На уровне значимости α=0,05 гипотеза H0:b1=0отвергается, если Значимость F<0.05, и принимается, если Значимость F Значения коэффициентов регрессии находятся в столбце Коэффициенты и соответствуют: У-пересечение – a; переменная XI – b1; переменная Х2 – b2 и т. Д. Таким образом, получена следующая модель регрессии: Y=1.2247X1+0.00108X2+19.9776 t-статистика соответствующего коэффициента. P-Значение – вероятность, позволяющая определить значимость коэффициента регрессии. В случаях, когда Р-Значение>0,05, коэффициент может считаться нулевым, что означает, что соответствующая независимая переменная практически не влияет на зависимую переменную.
    В нашем случае оба коэффициента оказались «нулевыми», а значит обе независимые переменные не влияют на модель.
    Нижние 95% – Верхние 95% – доверительный интервал для параметра , т.е. с надежностью 0.95 этот коэффициент лежит в данном интервале. Поскольку коэффициент регрессии в исследованиях имеют четкую интерпретацию, то границы доверительного интервала для коэффициента регрессии не должны содержать противоречивых результатов. Так, например, «Доля городского населения, в %» не может лежать в интервале -0,25≥b1≥2,7. Такого рода запись указывает, что истинное значение коэффициента регрессии одновременно содержит положительные и отрицательные величины и даже ноль, чего не может быть.
    Предсказанное Y – теоретические (расчетные) значения результативного признака.
    Остатки – остатки по модели регрессии.
    На основе данных об остатках модели регрессии был построен график остатков (рис. 4) и график подбора – поле корреляции фактических и теоретических (расчетных) значений результативной переменной (рис.5).

  7. eduard24081963 Ответить

    1. Преобразование Фурье и спектр сигнала

    Во многих случаях задача получения (вычисления) спектра сигнала выглядит следующим образом. Имеется АЦП, который с частотой дискретизации Fd преобразует непрерывный сигнал, поступающий на его вход в течение времени Т, в цифровые отсчеты — N штук. Далее массив отсчетов подается в некую программку, которая выдает N/2 каких-то числовых значений (программист, который утянул из инета написал программку, уверяет, что она делает преобразование Фурье).
    Чтобы проверить, правильно ли работает программа, сформируем массив отсчетов как сумму двух синусоид sin(10*2*pi*x)+0,5*sin(5*2*pi*x) и подсунем программке. Программа нарисовала следующее:

    рис.1 График временной функции сигнала

    рис.2 График спектра сигнала
    На графике спектра имеется две палки (гармоники) 5 Гц с амплитудой 0.5 В и 10 Гц — с амплитудой 1 В, все как в формуле исходного сигнала. Все отлично, программист молодец! Программа работает правильно.
    Это значит, что если мы подадим на вход АЦП реальный сигнал из смеси двух синусоид, то мы получим аналогичный спектр, состоящий из двух гармоник.
    Итого, наш реальный измеренный сигнал, длительностью 5 сек, оцифрованный АЦП, то есть представленный дискретными отсчетами, имеет дискретный непериодический спектр.
    С математической точки зрения — сколько ошибок в этой фразе?
    Теперь начальство решило мы решили, что 5 секунд — это слишком долго, давай измерять сигнал за 0.5 сек.

    рис.3 График функции sin(10*2*pi*x)+0,5*sin(5*2*pi*x) на периоде измерения 0.5 сек

    рис.4 Спектр функции
    Что-то как бы не то! Гармоника 10 Гц рисуется нормально, а вместо палки на 5 Гц появилось несколько каких-то непонятных гармоник. Смотрим в интернетах, что да как…
    Во, говорят, что в конец выборки надо добавить нули и спектр будет рисоваться нормальный.

    рис.5 Добили нулей до 5 сек

    рис.6 Получили спектр
    Все равно не то, что было на 5 секундах. Придется разбираться с теорией. Идем в Википедию — источник знаний.

    2. Непрерывная функция и представление её рядом Фурье

    Математически наш сигнал длительностью T секунд является некоторой функцией f(x), заданной на отрезке {0, T} (X в данном случае — время). Такую функцию всегда можно представить в виде суммы гармонических функций (синусоид или косинусоид) вида:
    (1), где:
    k — номер тригонометрической функции ( номер гармонической составляющей, номер гармоники)
    T — отрезок, где функция определена (длительность сигнала)
    Ak — амплитуда k-ой гармонической составляющей,
    θk- начальная фаза k-ой гармонической составляющей
    Что значит «представить функцию в виде суммы ряда»? Это значит, что, сложив в каждой точке значения гармонических составляющих ряда Фурье, мы получим значение нашей функции в этой точке.
    (Более строго, среднеквадратичное отклонение ряда от функции f(x) будет стремиться к нулю, но несмотря на среднеквадратичную сходимость, ряд Фурье функции, вообще говоря, не обязан сходиться к ней поточечно. См. https://ru.wikipedia.org/wiki/Ряд_Фурье.)
    Этот ряд может быть также записан в виде:
    (2),
    где , k-я комплексная амплитуда.
    или
    (3)
    Связь между коэффициентами (1) и (3) выражается следующими формулами:

    и

    Отметим, что все эти три представления ряда Фурье совершенно равнозначны. Иногда при работе с рядами Фурье бывает удобнее использовать вместо синусов и косинусов экспоненты мнимого аргумента, то есть использовать преобразование Фурье в комплексной форме. Но нам удобно использовать формулу (1), где ряд Фурье представлен в виде суммы косинусоид с соответствующими амплитудами и фазами. В любом случае неправильно говорить, что результатом преобразования Фурье действительного сигнала будут комплексные амплитуды гармоник. Как правильно говорится в Вики «Преобразование Фурье (ℱ) — операция, сопоставляющая одной функции вещественной переменной другую функцию, также вещественной переменной.»
    Итого:
    Математической основой спектрального анализа сигналов является преобразование Фурье.
    Преобразование Фурье позволяет представить непрерывную функцию f(x) (сигнал), определенную на отрезке {0, T} в виде суммы бесконечного числа (бесконечного ряда) тригонометрических функций (синусоид и\или косинусоид) с определёнными амплитудами и фазами, также рассматриваемых на отрезке {0, T}. Такой ряд называется рядом Фурье.

    Отметим еще некоторые моменты, понимание которых требуется для правильного применения преобразования Фурье к анализу сигналов. Если рассмотреть ряд Фурье (сумму синусоид) на всей оси Х, то можно увидеть, что вне отрезка {0, T} функция представленная рядом Фурье будет будет периодически повторять нашу функцию.
    Например, на графике рис.7 исходная функция определена на отрезке {-T\2, +T\2}, а ряд Фурье представляет периодическую функцию, определенную на всей оси х.
    Это происходит потому, что синусоиды сами являются периодическими функциями, соответственно и их сумма будет периодической функцией.

    рис.7 Представление непериодической исходной функции рядом Фурье
    Таким образом:
    Наша исходная функция — непрерывная, непериодическая, определена на некотором отрезке длиной T.
    Спектр этой функции — дискретный, то есть представлен в виде бесконечного ряда гармонических составляющих — ряда Фурье.
    По факту, рядом Фурье определяется некоторая периодическая функция, совпадающая с нашей на отрезке {0, T}, но для нас эта периодичность не существенна.
    Далее.
    Периоды гармонических составляющих кратны величине отрезка {0, T}, на котором определена исходная функция f(x). Другими словами, периоды гармоник кратны длительности измерения сигнала. Например, период первой гармоники ряда Фурье равен интервалу Т, на котором определена функция f(x). Период второй гармоники ряда Фурье равен интервалу Т/2. И так далее (см. рис. 8).

    рис.8 Периоды (частоты) гармонических составляющих ряда Фурье (здесь Т=2π)
    Соответственно, частоты гармонических составляющих кратны величине 1/Т. То есть частоты гармонических составляющих Fk равны Fk= к\Т, где к пробегает значения от 0 до ∞, например к=0 F0=0; к=1 F1=1\T; к=2 F2=2\T; к=3 F3=3\T;… Fk= к\Т (при нулевой частоте — постоянная составляющая).
    Пусть наша исходная функция, представляет собой сигнал, записанный в течение Т=1 сек. Тогда период первой гармоники будет равен длительности нашего сигнала Т1=Т=1 сек и частота гармоники равна 1 Гц. Период второй гармоники будет равен длительности сигнала, деленной на 2 (Т2=Т/2=0,5 сек) и частота равна 2 Гц. Для третьей гармоники Т3=Т/3 сек и частота равна 3 Гц. И так далее.
    Шаг между гармониками в этом случае равен 1 Гц.
    Таким образом сигнал длительностью 1 сек можно разложить на гармонические составляющие (получить спектр) с разрешением по частоте 1 Гц.
    Чтобы увеличить разрешение в 2 раза до 0,5 Гц — надо увеличить длительность измерения в 2 раза — до 2 сек. Сигнал длительностью 10 сек можно разложить на гармонические составляющие (получить спектр) с разрешением по частоте 0,1 Гц. Других способов увеличить разрешение по частоте нет.
    Существует способ искусственного увеличения длительности сигнала путем добавления нулей к массиву отсчетов. Но реальную разрешающую способность по частоте он не увеличивает.

    3. Дискретные сигналы и дискретное преобразование Фурье

    С развитием цифровой техники изменились и способы хранения данных измерений (сигналов). Если раньше сигнал мог записываться на магнитофон и храниться на ленте в аналоговом виде, то сейчас сигналы оцифровываются и хранятся в файлах в памяти компьютера в виде набора чисел (отсчетов).
    Обычная схема измерения и оцифровки сигнала выглядит следующим образом.

    рис.9 Схема измерительного канала
    Сигнал с измерительного преобразователя поступает на АЦП в течение периода времени Т. Полученные за время Т отсчеты сигнала (выборка) передаются в компьютер и сохраняются в памяти.

    рис.10 Оцифрованный сигнал — N отсчетов полученных за время Т
    Какие требования выдвигаются к параметрам оцифровки сигнала? Устройство, преобразующее входной аналоговый сигнал в дискретный код (цифровой сигнал) называется аналого-цифровой преобразователь (АЦП, англ. Analog-to-digital converter, ADC) ( Wiki).
    Одним из основных параметров АЦП является максимальная частота дискретизации (или частота семплирования, англ. sample rate) — частота взятия отсчетов непрерывного во времени сигнала при его дискретизации. Измеряется в герцах. (( Wiki))
    Согласно теореме Котельникова, если непрерывный сигнал имеет спектр, ограниченный частотой Fмакс, то он может быть полностью и однозначно восстановлен по его дискретным отсчетам, взятым через интервалы времени , т.е. с частотой Fd ≥ 2*Fмакс, где Fd — частота дискретизации; Fмакс — максимальная частота спектра сигнала. Другими слова частота оцифровки сигнала (частота дискретизации АЦП) должна как минимум в 2 раза превышать максимальную частоту сигнала, который мы хотим измерить.
    А что будет, если мы будем брать отсчеты с меньшей частотой, чем требуется по теореме Котельникова?
    В этом случае возникает эффект «алиасинга» (он же стробоскопический эффект, муаровый эффект), при котором сигнал высокой частоты после оцифровки превращается в сигнал низкой частоты, которого на самом деле не существует. На рис. 11 красная синусоида высокой частоты — это реальный сигнал. Синяя синусоида более низкой частоты — фиктивный сигнал, возникающий вследствие того, за время взятия отсчета успевает пройти больше, чем пол-периода высокочастотного сигнала.

    Рис. 11. Появление ложного сигнала низкой частоты при недостаточно высокой частоте дискретизации
    Чтобы избежать эффекта алиасинга перед АЦП ставят специальный антиалиасинговый фильтр — ФНЧ (фильтр нижних частот), который пропускает частоты ниже половины частоты дискретизации АЦП, а более высокие частоты зарезает.
    Для того, чтобы вычислить спектр сигнала по его дискретным отсчетам используется дискретное преобразование Фурье (ДПФ). Отметим еще раз, что спектр дискретного сигнала «по определению» ограничен частотой Fмакс, меньшей половине частоты дискретизации Fd. Поэтому спектр дискретного сигнала может быть представлен суммой конечного числа гармоник, в отличие от бесконечной суммы для ряда Фурье непрерывного сигнала, спектр которого может быть неограничен. Согласно теореме Котельникова максимальная частота гармоники должна быть такой, чтобы на нее приходилось как минимум два отсчета, поэтому число гармоник равно половине числа отсчетов дискретного сигнала. То есть если в выборке имеется N отсчетов, то число гармоник в спектре будет равно N/2.
    Рассмотрим теперь дискретное преобразование Фурье (ДПФ).

    Сравнивая с рядом Фурье

    видим, что они совпадают, за исключением того, что время в ДПФ имеет дискретный характер и число гармоник ограничено величиной N/2 — половиной числа отсчетов.
    Формулы ДПФ записываются в безразмерных целых переменных k, s, где k – номера отсчетов сигнала, s – номера спектральных составляющих.
    Величина s показывает количество полных колебаний гармоники на периоде Т (длительности измерения сигнала). Дискретное преобразование Фурье используется для нахождения амплитуд и фаз гармоник численным методом, т.е. «на компьютере»
    Возвращаясь к результатам, полученным в начале. Как уже было сказано выше, при разложении в ряд Фурье непериодической функции (нашего сигнала), полученный ряд Фурье фактически соответствует периодической функции с периодом Т. (рис.12).

    рис.12 Периодическая функция f(x) с периодом Т0, с периодом измерения Т>T0
    Как видно на рис.12 функция f(x) периодическая с периодом Т0. Однако из-за того, что длительность измерительной выборки Т не совпадает с периодом функции Т0, функция, получаемая как ряд Фурье, имеет разрыв в точке Т. В результате спектр данной функции будет содержать большое количество высокочастотных гармоник. Если бы длительность измерительной выборки Т совпадала с периодом функции Т0, то в полученном после преобразования Фурье спектре присутствовала бы только первая гармоника (синусоида с периодом равным длительности выборки), поскольку функция f(x) представляет собой синусоиду.
    Другими словами, программа ДПФ «не знает», что наш сигнал представляет собой «кусок синусоиды», а пытается представить в виде ряда периодическую функцию, которая имеет разрыв из-за нестыковки отдельных кусков синусоиды.
    В результате в спектре появляются гармоники, которые должны в сумме изобразить форму функции, включая этот разрыв.
    Таким образом, чтобы получить «правильный» спектр сигнала, являющегося суммой нескольких синусоид с разными периодами, необходимо чтобы на периоде измерения сигнала укладывалось целое число периодов каждой синусоиды. На практике это условие можно выполнить при достаточно большой длительности измерения сигнала.

    Рис.13 Пример функции и спектра сигнала кинематической погрешности редуктора
    При меньшей длительности картина будет выглядеть «хуже»:

    Рис.14 Пример функции и спектра сигнала вибрации ротора
    На практике бывает сложно понять, где «реальные составляющие», а где «артефакты», вызванные некратностью периодов составляющих и длительности выборки сигнала или «скачками и разрывами» формы сигнала. Конечно слова «реальные составляющие» и «артефакты» не зря взяты в кавычки. Наличие на графике спектра множества гармоник не означает, что наш сигнал в реальности из них «состоит». Это все равно что считать, будто число 7 «состоит» из чисел 3 и 4. Число 7 можно представить в виде суммы чисел 3 и 4 — это правильно.
    Так и наш сигнал… а вернее даже не «наш сигнал», а периодическую функцию, составленную путем повторения нашего сигнала (выборки) можно представить в виде суммы гармоник (синусоид) с определенными амплитудами и фазами. Но во многих важных для практики случаях (см. рисунки выше) действительно можно связать полученные в спектре гармоники и с реальными процессами, имеющими циклический характер и вносящими значительный вклад в форму сигнала.

    Некоторые итоги

    1. Реальный измеренный сигнал, длительностью T сек, оцифрованный АЦП, то есть представленный набором дискретных отсчетов (N штук), имеет дискретный непериодический спектр, представленный набором гармоник (N/2 штук).
    2. Сигнал представлен набором действительных значений и его спектр представлен набором действительных значений. Частоты гармоник положительны. То, что математикам бывает удобнее представить спектр в комплексной форме с использованием отрицательных частот не значит, что «так правильно» и «так всегда надо делать».
    3. Сигнал, измеренный на отрезке времени Т определен только на отрезке времени Т. Что было до того, как мы начали измерять сигнал, и что будет после того — науке это неизвестно. И в нашем случае — неинтересно. ДПФ ограниченного во времени сигнала дает его «настоящий» спектр, в том смысле, что при определенных условиях позволяет вычислить амплитуду и частоту его составляющих.
    Использованные материалы и другие полезные материалы.
    FourierScope — программа для построения радио сигналов и их спектрального анализа.
    Graph — программа с открытым кодом, предназначенная для построения математических графиков.
    ДИСКРЕТНОЕ ПРЕОБРАЗОВАНИЕ ФУРЬЕ – КАК ЭТО ДЕЛАЕТСЯ
    Дискретное преобразование Фурье (ДПФ)

  8. tipokkk Ответить

    Часто при составлении любого прогноза — забывают про способы оценки его результатов. Потому как часто бывает, прогноз есть, а сравнение его с фактом отсутствует. Еще больше ошибок случается, когда существуют две (или больше) модели и не всегда очевидно — какая из них лучше, точнее. Как правило одной цифрой (R2) сложно обойтись. Как если бы вам сказали — этот парень ходит в синей футболке. И вам сразу все стало про него ясно )
    В статьях о методах прогнозирования при оценке полученной модели я постоянно использовал такие аббревиатуры или обозначения.
    R2
    MSE
    MAPE
    MAD
    Bias
    Попробую объяснить, что я имел в виду.

    Остатки

    Итак, по порядку. Основная величина, через которую оценивается точность прогноза это остатки (иногда: ошибки, error, e). В общем виде это разность между спрогнозированными значениями и исходными данными (либо фактическими значениями). Естественно, что чем больше остатки тем сильнее мы ошиблись. Для вычисления сравнительных коэффициентов остатки преобразуют: либо берут по модулю, либо возводят в квадрат (см. таблицу, колонки 4,5,6). В сыром виде почти не используют, так как сумма отрицательных и положительных остатков может свести суммарную ошибку в ноль. А это глупо, сами понимаете.

    Суровые MSE и R2

    Когда нам требуется подогнать кривую под наши данные, то точность этой подгонки будет оцениваться программой по среднеквадратической ошибке (mean squared error, MSE). Рассчитывается по незамысловатой формуле

    где n-количество наблюдений.
    Соотвественно, программа, рассчитывая кривую подгонки, стремится минимизировать этот коэффициент. Квадраты остатков в числителе взяты именно по той причине, чтобы плюсы и минусы не взаимоуничтожились. Физического смысла MSE не имеет, но чем ближе к нулю, тем модель лучше.
    Вторая абстрактная величина это R2 — коэффициент детерминации. Характеризует степень сходства исходных данных и предсказанных. В отличии от MSE не зависит от единиц измерения данных, поэтому поддается сравнению. Рассчитывается коэффициент по следующей формуле:

    где Var(Y) — дисперсия исходных данных.
    Безусловно коэффициент детерминации — важный критерий выбора модели. И если модель плохо коррелирует с исходными данными, она вряд ли будет иметь высокую предсказательную силу.

    MAPE и MAD для сравнения моделей

    Статистические методы оценки моделей вроде MSE и R2, к сожалению, трудно интерпретировать, поэтому светлые головы придумали облегченные, но удобные для сравнения коэффициенты.
    Среднее абсолютное отклонение (mean absolute deviation, MAD) определяется как частное от суммы остатков по модулю к числу наблюдений. То есть, средний остаток по модулю. Удобно? Вроде да, а вроде и не очень. В моем примере MAD=43. Выраженный в абсолютных единицах MAD показывает насколько единиц в среднем будет ошибаться прогноз.
    MAPE призван придать модели еще более наглядный смысл. Расшифровывается выражение как средняя абсолютная ошибка в процентах (mean percentage absolute error, MAPE).

    где Y — значение исходного ряда.
    Выражается MAPE в процентах, и в моем случае означает, что в модель может ошибаться в среднем на 16%. Что, согласитесь, вполне допустимо.
    Наконец, последняя абсолютно синтетическая величина — это Bias, или просто смещение. Дело в том, что в реальном мире отклонения в одну сторону зачастую гораздо болезненнее, чем в другую. К примеру, при условно неограниченных складских помещениях, важнее учитывать скачки реального спроса вверх от спрогнозированных значений. Поэтому случаи, где остатки положительные относятся к общему числу наблюдений. В моем случае 44% спрогнозированных значений оказались ниже исходных. И можно пожертвовать другими критериями оценки, чтобы минимизировать этот Bias.
    Можете попробовать это сами в Excel и Numbers
    Интересно узнать — какие методы оценки качества прогнозирования вы используете в своей работе?
    Подробности на блоге

Добавить ответ

Ваш e-mail не будет опубликован. Обязательные поля помечены *