Измерение и шкалы

Любая система содержит очень много различной информации. Конечно же, не вся она нам нужна, но ту, которая нам нужна, надо как-то измерить и преобразовать. Для этого информации нужно предать какую-нибудь форму, то есть перевести её в данные. Например, общую информацию о том, что потребителям нравится наша продукция, и они согласны покупать её в большем количестве, можно формализовать, проведя исследования и дав оценку удовлетворённости покупателей. В результате этого мы получим данные, с которыми можно уже работать и на основе которых можно принимать решение.

Во время такого преобразования исследователь явно или неявно выбирает шкалу, в которой он будет измерять данные. Существует много различных классификаций шкал, и даже есть специальный раздел математики, изучающий шкалы и операции с ними — теория измерений. Не вдаваясь в детали это дисциплины, рассмотрим то, что может нам пригодиться в прогнозировании.

Принято считать, что любая шкала может обладать следующими характеристиками:

  • описание,
  • порядок,
  • расстояние,
  • естественная точка отсчёта,
  • естественная единица измерения.

Последняя характеристика обычно опускается, так как для целей исследования особо полезной информации не несёт. С точки зрения прогнозирования выделение следующих четырёх видов шкал (упорядоченных по уровню) на основе первых четырёх характеристик вполне достаточно для использования по максимуму различных математических и не математических методов:

1. Номинальная шкала

Шкала, в которой есть только характеристика «описание». В ней нет естественного упорядочения, нет расстояния между элементами и тем более нет естественной точки отсчёта. С данными, измеренными в номинальной шкале возможна только одна операция — сравнение в форме «равно» или «неравно». То есть обладает ли объект указанным свойством или нет.

Пример (шутливый). Туристы бывают:

  • белые,
  • китайцы,
  • русские,
  • женщины,
  • другие.

Из-за ограниченности номинальной шкалы, практически всё, что можно сделать с данными, измеренными в ней — это посмотреть на количество объектов, имеющих указанные признаки. Например, мы можем понять, сколько в нашем распоряжении оказалось китайских туристов, какой процент от всех туристов они составляют. Если в нашем распоряжении несколько величин, измеренных в номинальной шкале, мы можем, например, использовать коэффициент сопряжённости, для того, чтобы оценить, есть ли связь в выборе признака в одной шкале с выбором признака в другой.

Для целей анализа номинальную шкалу бывает удобно трансформировать в бинарную, в которой «1» соответствует наличию, а «0» — отсутствию свойства. В случае с нашими туристами мы получим соответственно 5 новых переменных, измеренных в такой бинарной шкале.

2. Порядковая (ранговая) шкала

Это уже более сложная шкала, в ней появляется вторая характеристика — «порядок». Данные, измеренные в этой шкале можно сравнить и упорядочить, однако сказать насколько (и уж тем более во сколько раз) одна величина больше другой нельзя. То есть к операциям с данными, в этой шкале добавляется «больше» и «меньше».

Пример. Туристы бывают:

  • грустные,
  • нейтральные,
  • весёлые.

В этом примере, как видим, туристы упорядочены по настроению, но при этом нет возможности сказать, насколько один может быть веселее другого. К порядковой шкале будет относиться даже шкала, которая на первый взгляд не выглядит как порядковая.

Пример. Туристы бывают:

  • от 10 до 15 килограмм,
  • от 15 до 20 килограмм,
  • от 20 до 100 килограмм,
  • больше 100 килограмм.

Измерить расстояние между элементами в такой шкале не представляется возможным, поэтому она порядковая.

Точно так же оценки за экзамен измеряются в порядковой шкале: разница между 5 и 3 формально равна двум, но при этом не имеет смысла, так как в этой шкале двойка — это просто ещё одна оценка. Если по курсу вначале получить 3,а потом — 2, то пятёрки не получится.

В порядковой шкале можно уже использовать некоторые базовые статистические инструменты. Например, можно оценить моду, для того, чтобы понять, туристы какого веса чаще встречаются в выборке. Можно так же рассчитать ранговый коэффициент корреляции (Спирмена либо Кендалла), который может показать, есть ли статистическая линейная связь между весом туристов и их настроением. Расчёт средней величины (а так же медианы и стандартного отклонения) в порядковой шкале возможен, но в этом случае получаемое значение будет просто добавлять в нашу шкалу новые значения, но не более того. Например, если в шкале оценок за экзамены появилась «4.5» (как средняя между «4» и «5»), то это значение просто расширяет нашу шкалу, которая теперь будет содержать: «2», «3», «4», «4.5» и «5». Расстояние между «4» и «4.5», а так же «4.5» и «5» всё так же невозможно адекватно измерить.

3. Интервальная шкала

В интервальной шкале добавляется ещё одна характеристика — расстояние, но в ней всё так же отсутствует естественная точка отсчёта. Приемлемые операции в этой шкале (плюс к тем, которые уже были) — сложение и вычитание. Однако операции деления и умножения в этой шкале бессмысленны.

Пример. Температура туриста.

Если температура одного туриста — 36.6ºC, а другого — 18.3ºC, то мы можем сказать, что второй турист холоднее первого на 18.3ºC, но сказать, что первый турист горячее второго в два раза нельзя — это не имеет смысла. А всё потому что 0ºC — это не естественная точка отсчёта, а искусственная, привязанная к температуре замерзания воды. Если в качестве точки отсчёта в этой шкале взять, например, абсолютный ноль, то этот бессмысленный эффект «первый в два раза горячее второго» пропадёт.

В интервальной шкале имеют смысл и средняя величина, и медиана, и стандартное отклонение, и квантили распределения. Если очень хочется, то можно рассчитать и коэффициент корреляции Пирсона, который покажет, есть ли линейная связь между показателями.

4. Абсолютная шкала.

Это последний тип шкалы, и он имеет все рассмотренные нами характеристики. Наличие естественной точки отсчёта означает, что когда показатель принимает значение «0», то это говорит о том, что исследуемое свойство у объекта просто отсутствует. В этой шкале возможны все математические операции.

Пример. Количество туристов в комнате.

Думаю, комментарии к этому примеру излишни.

У шкал есть одно удобное свойство: любые данные, измеренные в шкале более высокого уровня, можно легко преобразовать в данные, измеренные в шкале более низкого уровня.
Например, количество туристов в комнате можно перевести в интервальную шкалу, если это количество центрировать относительно какой-нибудь величины (то есть фактически избавиться от естественной точки отсчёта). В таком случае положительное число будет означать превышение установленного лимита, а отрицательные — занижение. Ноль в таком случае будет соответствовать искусственной точке, в которой количество соответствует выбранному нами эталону.

Если провести ещё одну свёртку данных и избавиться от расстояний между значениями, то можно получить порядковую шкалу, например, следующего вида:

  • менее 5 туристов,
  • от 5 до 10 туристов,
  • более 10 туристов.

Продолжая упрощения, избавляясь от порядка, можно предложить простейшую номинальную шкалу:

  • 5 туристов,
  • не 5 туристов.

Очевидно, что обратное преобразование невозможно. Если мы изначально собирали данные в номинальной шкале, то получить из них данные, измеренные в шкале более высокого уровня, в принципе невозможно.

И последнее. В случае, если оказывается нужно оценить связь между показателями, измеренными в разных шкалах, нужно использовать коэффициенты, предназначенные для шкал более низкого уровня. Например, для определения связи настроения туриста с его температурой стоит обратиться к ранговому коэффициенту корреляции.

Добавить комментарий

Ваш e-mail не будет опубликован. Обязательные поля помечены *