Используются для сравнения нескольких величин. Метод сравнения. Построение, редактирование, форматирование диаграмм»

19.11.2021 Новости 

В предыдущих заметках были описаны процедуры проверки гипотез о числовых и категорийных данных: , несколько , а также , позволяющего изучать один или . В настоящей заметке мы рассмотрим методы проверки гипотез о различиях между долями признака в генеральных совокупностях на основе нескольких независимых выборок.

Для иллюстрации применяемых методов используется сценарий, в котором оценивается степень удовлетворенности постояльцев отелей, принадлежащих компании Т. С. Resort Properties. Представьте себе, что вы - менеджер компании, владеющей пятью отелями, расположенными на двух курортных островах. Если гости удовлетворены обслуживанием, велика вероятность, что они вернутся на следующий год и порекомендуют своим друзьям остановиться именно в вашем отеле. Чтобы оценить качество обслуживания, постояльцев просят заполнить анкету и указать, довольны ли они гостеприимством. Вам необходимо проанализировать данные опроса, определить общую степень удовлетворенности запросов постояльцев, оценить вероятность того, что гости приедут вновь в следующем году, а также установить причины возможного недовольства некоторых клиентов. Например, на одном из островов компании принадлежат отели Beachcomber и Windsurfer. Одинаково ли обслуживание в этих отелях? Если нет, как эту информацию можно использовать для улучшения качества работы компании? Более того, если некоторые постояльцы заявили, что больше к вам не приедут, какие причины они указывают чаще других? Можно ли утверждать, что эти причины касаются лишь конкретной гостиницы и не относятся ко всей компании в целом?

Здесь использованы следующие обозначения: X 1 - количество успехов в первой группе, X 2 - количество успехов во второй группе, n 1 X 1 - количество неудач в первой группе, n 2 X 2 - количество неудач во второй группе, X = X 1 + X 2 - общее количество успехов, n X = (n 1 X 1 ) + (n 2 X 2 ) - общее количество неудач, n 1 - объем первой выборки, n 2 - объем второй выборки, n = n 1 + n 2 - суммарный объем выборок. Представленная таблица имеет две строки и два столбца, поэтому она называется факторной таблицей 2×2. Ячейки, образованные пересечением каждой строки и столбца, содержат количество успехов или неудач.

Проиллюстрируем применение таблицы сопряженности признаков на примере сценария, описанного выше. Предположим, что на вопрос «Вернетесь ли вы в следующем году?» утвердительно ответили 163 из 227 постояльцев отеля Beachcomber, и 154 из 262 постояльцев отеля Windsurfer. Существует ли статистически значимая разность между степенью удовлетворенности постояльцев отелей (представляющая собой вероятность того, что постояльцы вернутся в следующем году), если уровень значимости равен 0,05?

Рис. 2. Факторная таблица 2х2 для оценки качества обслуживания постояльцев

В первой строке указывается количество постояльцев каждого отеля, заявивших о своем желании вернуться в следующем году (успех); во второй строке – количество постояльцев, выразивших недовольство (неудача). Ячейки, расположенные в столбце «Итого», содержат общее количество гостей, планирующих вернуться в отель в следующем году, а также общее количество гостей, недовольных обслуживанием. Ячейки, расположенные в строке «Всего», содержат общее количество опрошенных постояльцев каждого отеля. Доля постояльцев, планирующих вернуться, вычисляется путем деления количества постояльцев, заявивших об этом, на общее количество опрошенных гостей данного отеля. Затем для сравнения вычисленных долей применяется χ 2 -критерий.

Чтобы проверить нулевую и альтернативные гипотезы Н 0: р 1 = р 2 ; Н 1: р 1 ≠ р 2 используем тестовую χ 2 -статистику.

Критерий «хи-квадрат» для сравнения двух долей. Тестовая χ 2 -статистика равна сумме квадратов разностей между наблюдаемым и ожидаемым количеством успехов, деленных на ожидаемое количество успехов в каждой ячейке таблицы:

где f 0 - наблюдаемое количество успехов или неудач в конкретной ячейке таблицы сопряженности признаков, f e

Тестовая χ 2 -статистика аппроксимируется χ 2 -распределением с одной степенью свободы.

Или неудач в каждой ячейке таблицы сопряженности признаков, необходимо понимать их смысл. Если нулевая гипотеза является истинной, т.е. доли успехов в двух генеральных совокупностях равны, выборочные доли, вычисленные для каждой из двух групп, могут отличаться друг от друга лишь по случайным причинам, причем обе доли являются оценкой общего параметра генеральной совокупности р . В этой ситуации статистика, объединяющая обе доли в одной общей (средней) оценке параметра р , представляет собой общую долю успехов в объединенных группах (т.е. равна общему количеству успехов, деленному на суммарный объем выборок). Ее дополнение, 1 – , представляет собой общую долю неудач в объединенных группах. Используя обозначения, смысл которых описан в таблице на рис. 1. можно вывести формулу (2) для вычисления параметра :

где – средняя доля признака.

Чтобы вычислить ожидаемое количество успехов f e (т.е. содержимое первой строки таблицы сопряженности признаков), необходимо умножить объем выборки на параметр . Чтобы вычислить ожидаемое количество неудач f e (т.е. содержимое второй строки таблицы сопряженности признаков), необходимо умножить объем выборки на параметр 1 – .

Тестовая статистика, вычисленная по формуле (1), аппроксимируется χ 2 -распределением с одной степенью свободы. При заданном уровне значимости α нулевая гипотеза отклоняется, если вычисленная χ 2 -статистика больше χ U 2 , верхнего критического значения χ 2 -распределения с одной степенью свободы. Таким образом, решающее правило выглядит следующим образом: гипотеза H 0 отклоняется, если χ 2 > χ U 2 , в противном случае гипотеза Н 0 не отклоняется (рис. 3).

Рис. 3. Критическая область χ 2 -критерия для сравнения долей при уровне значимости α

Если нулевая гипотеза является истинной, вычисленная χ 2 -статистика близка к нулю, поскольку квадрат разности между наблюдаемой f 0 и ожидаемой f е величинами в каждой ячейке очень мал. С другой стороны, если нулевая гипотеза Н 0 является ложной и между долями успехов в генеральных совокупностях существует значимая разница, вычисленная χ 2 -статистика должна быть большой. Это объясняется разностью между наблюдаемым и ожидаемым количеством успехов или неудач в каждой ячейке, которая увеличивается при возведении в квадрат. Однако вклады разностей между ожидаемыми и наблюдаемыми величинами в общую χ 2 -статистику могут быть неодинаковыми. Одна и та же фактическая разность между f 0 и f e может оказать большее влияние на χ 2 -статистику, если в ячейке содержатся результаты небольшого количества наблюдений, чем разность, соответствующая большему количеству наблюдений.

Для того чтобы проиллюстрировать χ 2 -критерий для проверки гипотезы о равенстве двух долей, вернемся к сценарию, описанному в ранее, результаты которого приведены на рис. 2. Нулевая гипотеза (Н 0: р 1 = р 2) утверждает, что при сравнении качества обслуживания в двух отелях доли постояльцев, планирующих вернуться в следующем году, практически одинаковы. Для оценки параметра р , представляющего собой долю гостей, планирующих вернуться в отель, если нулевая гипотеза является истинной, используется величина , которая вычисляется по формуле

Доля гостей, оставшихся недовольными обслуживанием = 1 – 0,6483 = 0,3517. Умножая эти две доли на количество опрошенных постояльцев отеля Beachcomber, получаем ожидаемое количество гостей, планирующих вернуться в следующем сезоне, а также число отдыхающих, которые больше не остановятся в этом отеле. Аналогично вычисляются ожидаемые доли постояльцев отеля Windsurfer:

Да - Beachcomber: = 0,6483, n 1 = 227, следовательно, f e = 147,16.
Да - Windsurfer: = 0,6483, n 2 = 262, следовательно, f e = 169,84.
Нет - Beachcomber: 1 – = 0,3517, n 1 = 227, следовательно, f e = 79,84.
Нет - Windsurfer: 1 – = 0,3517, n 2 = 262, следовательно, f e = 92,16.

Расчеты представлены на рис. 4.

Рис. 4. χ 2 -статистика для отелей: (а) исходные данные; (б) факторная таблица 2х2 для сравнения наблюдаемого (f 0 ) и ожидаемого (f e ) количества постояльцев, удовлетворенных и не удовлетворенных обслуживанием; (в) вычисление χ 2 -статистики при сравнении доли постояльцев, удовлетворенных обслуживанием; (г) расчет критического значения тестовой χ 2 -статистики

Для расчета критического значения тестовой χ 2 -статистики применяется функция Excel =ХИ2.ОБР(). Если уровень значимости α = 0,05 (вероятность, подставляемая в функцию ХИ2.ОБР есть 1 –α), а χ 2 -распределение для факторной таблицы 2×2 имеет одну степень свободы, критическое значение χ 2 -статистики равно 3,841. Поскольку вычисленное значение χ 2 -статистики, равное 9,053 (рис. 4в), превышает число 3,841, нулевая гипотеза отклоняется (рис. 5).

Рис. 5. Определение критического значения тестовой χ 2 -статистики с одной степенью свободы при уровне значимости α = 0,05

Вероятность р того, что нулевая гипотеза верна при χ 2 -статистикие равной 9,053 (и одной степени свободы) рассчитывается в Excel с помощью функции =1 – ХИ2.РАСП(9,053;1;ИСТИНА) = 0,0026. р -значение, равное 0,0026, - это вероятность того, что разность между выборочными долями постояльцев, удовлетворенных обслуживанием в отелях Beachcomber и Windsurfer, равна или больше 0,718 – 0,588 = 0,13, если на самом деле их доли в обеих генеральных совокупностях одинаковы. Таким образом, существуют веские основания утверждать, что между двумя отелями есть статистически значимая разница в обслуживании постояльцев. Исследования показывают, что количество гостей, удовлетворенных обслуживанием в отеле Beachcomber, больше количества постояльцев, планирующих снова остановиться в гостинице Windsurfer.

Проверка предположений, касающихся факторной таблицы 2×2. Для получения точных результатов на основе данных, приведенных в таблице 2×2, необходимо, чтобы количество успехов или неудач превышало число 5. Если это условие не выполняется, следует применять точный критерий Фишера .

При сравнении процента клиентов, удовлетворенных качеством обслуживания в двух отелях, критерии Z и χ 2 приводят к одинаковым результатам. Это можно объяснить существованием тесной связи между стандартизованным нормальным распределением и χ 2 -распределением с одной степенью свободы. В этом случае χ 2 -статистика всегда является квадратом Z-статистики. Например, при оценке степени удовлетворенности гостей мы обнаружили, что Z -статистика равна +3,01, а χ 2 -статистика - 9,05. Пренебрегая ошибками округления, легко убедиться, что вторая величина является квадратом первой (т.е. 3,01 2 = 9,05). Кроме того, сравнивая критические значения обеих статистик при уровне значимости α = 0,05, можно обнаружить, что величина χ 1 2 равная 3,841, является квадратом верхнего критического значения Z-статистики, равного +1,96 (т.е. χ 1 2 = Z 2). Более того, р -значения обоих критериев одинаковы.

Таким образом, можно утверждать, что при проверке нулевой и альтернативной гипотез Н 0: р 1 = р 2 ; Н 1: р 1 ≠ р 2 критерии Z и χ 2 являются эквивалентными. Однако, если необходимо не просто обнаружить различия, но и определить, какая доля больше (р 1 > р 2), следует применять Z-критерий с одной критической областью, ограниченной хвостом стандартизованного нормального распределения. Далее будет описано применение критерия χ 2 для сравнения долей признака в нескольких группах. Необходимо отметить, что Z-критерий в этой ситуации применять невозможно.

Применение χ 2 -критерия для проверки гипотезы о равенстве нескольких долей

Критерий «хи-квадрат» можно распространить на более общий случай и применять для проверки гипотезы о равенстве нескольких долей признака. Обозначим количество анализируемых независимых генеральных совокупностей буквой с . Теперь таблица сопряженности признаков состоит из двух строк и с столбцов. Чтобы проверить нулевую и альтернативные гипотезы Н 0: р 1 = р 2 = … = р 2 , Н 1: не все р j равны между собой (j = 1, 2, …, c ), используется тестовая χ 2 -статистика:

где f 0 - наблюдаемое количество успехов или неудач в конкретной ячейке факторной таблицы 2*с , f e - теоретическое, или ожидаемое, количество успехов или неудач в конкретной ячейке таблицы сопряженности признаков при условии, что нулевая гипотеза является истинной.

Чтобы вычислить ожидаемое количество успехов или неудач в каждой ячейке таблицы сопряженности признаков, необходимо иметь в виду следующее. Если нулевая гипотеза является истинной и доли успехов во всех с генеральных совокупностях равны, соответствующие выборочные доли могут отличаться друг от друга лишь по случайным причинам, поскольку все доли представляют собой оценки доли признака р в общей генеральной совокупности. В этой ситуации статистика, объединяющая все доли в одной общей (или средней) оценке параметра р , содержит больше информации, чем каждая из них в отдельности. Эта статистика, обозначаемая символом , представляет собой общую (или среднюю) долю успехов в объединенной выборке.

Вычисление средней доли:

Чтобы вычислить ожидаемое количество успехов f e в первой строке таблицы сопряженности признаков, необходимо умножить объем каждой выборки на параметр . Чтобы вычислить ожидаемое количество неудач f e во второй строке таблицы сопряженности признаков, необходимо умножить объем каждой выборки на параметр 1 – . Тестовая статистика, вычисленная по формуле (1), аппроксимируется χ 2 -распределением. Количество степеней свободы этого распределения задается величиной (r – 1)(c – 1) , где r - количество строк в факторной таблице, с - количество столбцов в таблице. Для факторной таблицы 2*с количество степеней свободы равно (2 – 1)(с – 1) = с – 1 . При заданном уровне значимости α нулевая гипотеза отклоняется, если вычисленная χ 2 -статистика больше верхнего критического значения χ U 2 , присущего χ 2 -распределению с с – 1 степенями свободы. Таким образом, решающее правило выглядит следующим образом: гипотеза Н 0 отклоняется, если χ 2 > χ U 2 (рис. 6), в противном случае гипотеза отклоняется.

Рис. 6. Критическая область χ 2 -критерия для сравнения с долей при уровне значимости α

Проверка предположений, касающихся факторной таблицы 2*с. Для получения точных результатов на основе данных, приведенных в факторной таблице 2*с , необходимо, чтобы количество успехов или неудач было достаточно большим. Некоторые статистики полагают, что критерий дает точные результаты, если ожидаемые частоты превышают 0,5. Более консервативные исследователи требуют, чтобы не более 20% ячеек таблицы сопряженности признаков содержали ожидаемые величины, которые меньше 5, причем ни одна ячейка не должна содержать ожидаемую величину меньше единицы. Последнее условие нам представляется разумным компромиссом между этими крайностями. Чтобы удовлетворить это условие, категории, содержащие небольшие ожидаемые величины, следует объединить в одну. После этого критерий становится более точным. Если по каким-либо причинам объединение нескольких категорий невозможно, следует применять альтернативные процедуры.

Для того чтобы проиллюстрировать χ 2 -критерий для проверки гипотезы о равенстве долей в нескольких группах, вернемся к сценарию, описанному в начале главы. Рассмотрим аналогичный опрос, в котором принимают участие постояльцы трех отелей, принадлежащих компании Т. С. Resort Resources (рис. 7а).

Рис. 7. Факторная таблица 2×3 для сравнения количества постояльцев, удовлетворенных и не удовлетворенных обслуживанием: (а) наблюдаемое количество успехов или неудач – f 0 ; (б) ожидаемое количество успехов или неудач – f e ; (в) вычисление χ 2 -статистики при сравнении долей постояльцев, удовлетворенных обслуживанием

Нулевая гипотеза утверждает, что доли клиентов, планирующих вернуться в следующем году, во всех отелях практически одинаковы. Для оценки параметра р , представляющего собой долю гостей, планирующих вернуться в отель, используется величина р̅ = Х / n = 513 / 700 = 0,733. Доля гостей, оставшихся недовольными обслуживанием, равна 1 – 0,733 = 0,267. Умножая три доли на количество опрошенных постояльцев в каждом из отелей, получаем ожидаемое количество гостей, планирующих вернуться в следующем сезоне, а также число клиентов, которые больше не остановятся в этом отеле (рис. 7б).

Чтобы проверить нулевую и альтернативные гипотезы используют тестовую χ 2 -статистику, вычисленную с помощью ожидаемых и наблюдаемых величин по формуле (1) (рис. 7в).

Критическое значение тестовой χ 2 -статистики определяется по формуле =ХИ2.ОБР(). Поскольку в опросе принимают участие постояльцы трех отелей, χ 2 -статистика имеет (2 – 1)(3 – 1) = 2 степени свободы. При уровне значимости α = 0,05 критическое значение χ 2 -статистики равно 5,991 (рис. 7г). Так как вычисленная χ 2 -статистика, равная 40,236, превышает критическое значение, нулевая гипотеза отклоняется (рис. 8). С другой стороны, вероятность р того, что нулевая гипотеза верна при χ 2 -статистикие равной 40,236 (и двух степенях свободы) рассчитывается в Excel с помощью функции =1-ХИ2.РАСП() = 0,000 (рис. 7г). р -значение равно 0,000 и меньше уровня значимости α = 0,05. Следовательно, нулевая гипотеза отклоняется.

Рис. 8. Области принятия и отклонения гипотезы о равенстве трех долей при уровне значимости, равном 0,05, и двух степенях свободы

Отклоняя нулевую гипотезу при сравнении долей, указанных в факторной таблице 2*с , мы можем утверждать лишь, что доли постояльцев, удовлетворенных обслуживанием в трех отелях, не совпадают. Для того чтобы выяснить, какие доли отличаются от других, необходимо применять иные методы, например процедуру Мараскуило.

Процедура Мараскуило позволяет сравнивать все группы попарно. На первом этапе процедуры вычисляются разности p s j – p s j ’ (где j j ) между с(с – 1)/2 парами долей. Соответствующие критические размахи вычисляются по формуле:


При общем уровне значимости α, величина представляет собой квадратный корень из верхнего критического значения распределения «хи-квадрат», имеющего с – 1 степеней свободы. Для каждой пары выборочных долей необходимо вычислить отдельный критический размах. На последнем этапе каждая из с(с – 1)/2 пар долей сравнивается с соответствующим критическим размахом. Доли, образующие конкретную пару, считаются статистически значимо разными, если абсолютная разность выборочных долей |p s j – p s j | превышает критический размах.

Проиллюстрируем процедуру Мараскуило на примере опроса постояльцев трех отелей (рис 9а). Применяя критерий «хи-квадрат», мы убедились, что между долями постояльцев разных отелей, собирающихся вернуться в следующем году, существует статистически значимая разница. Поскольку в опросе участвуют постояльцы трех отелей, необходимо выполнить 3(3 – 1)/2 = 3 попарных сравнений и вычислить три критических размаха. Для начала вычислим три выборочных доли (рис. 9б). При общем уровне значимости, равном 0,05, верхнее критическое значение тестовой χ 2 -статистики для распределения «хи-квадрат», имеющего (с – 1) = 2 степени свободы определяется по формуле =ХИ2.ОБР(0,95;2) = 5,991. Итак, = 2,448 (рис. 9в). Далее, вычислим три пары абсолютных разностей и соответствующие критические размахи. Если абсолютная разность больше ее критического размаха, то соответствующие доли считаются значимо разными (рис. 9г).

Рис. 9. Результаты выполнения процедуры Мараскуило для проверки гипотезы о равенстве долей удовлетворенных постояльцев трех отелей: (а) данные опроса; (б) выборочных доли; (в) верхнее критическое значение тестовой χ 2 -статистики для распределения «хи-квадрат»; (г) три пары абсолютных разностей и соответствующие критические размахи

Как видим, при уровне значимости, равном 0,05, степень удовлетворенности постояльцев отеля Palm Royal (p s2 = 0,858) выше, чем у постояльцев отелей Golden Palm (p s1 = 0,593) и Palm Princess (p s3 =0,738). Кроме того, степень удовлетворенности постояльцев отеля Palm Princess выше, чем у постояльцев отеля Golden Palm. Эти результаты должны заставить руководство проанализировать причины таких различий и попытаться определить, почему степень удовлетворенности постояльцев отеля Golden Palm значительно ниже, чем у постояльцев других отелей.

Используются материалы книги Левин и др. Статистика для менеджеров. – М.: Вильямс, 2004. – с. 708–730

Анализ данных начинается с группировки и вычисления описательных статистик в группах, например, вычисления средних и стандартных отклонений.

Если у вас имеется две группы данных, то естественно сравнить средние в этих группах. Такого рода задачи во множестве возникают на практике, например, вы можете захотеть сравнить средний доход двух групп людей: имеющих высшее образование и не имеющих высшего образования.

В данной главе мы будем иметь дело с переменными, измеренными в непрерывной шкале, такими переменными являются, например, доход или артериальное давление. Переменные, измеренные в бедных шкалах, исследуются с помощью специальных методов. В частности, категориальные переменные исследуются с помощью таблиц сопряженности (см. главу Анализ и построение таблиц). Переменные, измеренные в порядковых шкалах, исследуются методами непараметрической статистики (см. главу Непараметрическая статистика).

Рассмотрим типичную задачу. Предположим, при производстве бетона вы придумали добавлять в него некоторую новую компоненту и полагаете, что она увеличит прочность бетона. Чтобы проверить свои предположения и доказать их потребителю, вы взяли несколько образцов бетона с добавкой и несколько образцов без добавки и измерили прочность каждого образца.

Таким образом, получили два столбца (две группы) цифр: прочность образцов с добавкой и прочность образцов без добавки. Как разумно сравнить эти группы?

Очевидный подход состоит в том, чтобы сравнить описательные статистики, например, средние двух групп. Конечно, можно было бы сравнивать медианы или другие описательные статистики, но естественно начать со сравнения средних значений. Итак, вы имеете два средних: среднее для первой группы и среднее для второй группы.

Можно формально вычесть одно среднее из другого и по величине разности сделать вывод о наличии эффекта. Однако целесообразно принять во внимание разброс данных относительно средних, то есть вариацию (см. главу Элементарные понятия). Очевидно, разумная процедура должна принимать во внимание вариацию. Первое, что приходит в голову, - подходящим образом нормировать разность средних двух выборок (групп данных), поделив ее, например, на стандартное отклонение (корень квадратный из вариации).

Именно так и рассуждал В. Госсет - английский статистик, известный под псевдонимом Стьюдент, придумавший t-критерий для сравнения средних двух выборок.

Допустим, мы проверяем гипотезу о том, что добавка неэффективна (или как говорят на сленге анализа данных: нет эффекта обработки), иными словами, средние в двух группах равны. Этому положению соответствует альтернатива, согласно которой имеется эффект - прочность бетона увеличивается при добавлении в него новой компоненты.

Обратим внимание, альтернатива может быть выражена и по-другому, например, средние не равны или средняя прочность образцов увеличилось (добавка привела к увеличению прочности бетона).

Если вы случайным образом разбили выборку на две части и сравниваете показатели в первой и второй группе, то, скорее всего, вы имеете дело с независимыми группами.

В STATISTICA t-критерий доступен в обоих вариантах организации данных.

Естественным развитием сюжета сравнения средних является обобщение t-критерия на три и более групп данных, что приводит к дисперсионному анализу (в английской терминологии ANOVA - сокращение от Analysis of Variation - Дисперсионный анализ), а также на многомерный отклик. Если мы имеем дело с многомерным откликом, то используем методы MANOVA. Итак, методы дисперсионного анализа позволяют разумным образом сравнить групповые средние, если количество групп больше двух. Например, если вы хотите сравнить доход жителей нескольких регионов, то можно использовать дисперсионный анализ. Если вы исследуете два региона, то применяйте t-критерий.

Опишем один случай, не укладывающийся в общую схему. Представьте, вы изучаете категориальную переменную, принимающую два значения 0 и 1, и хотите сравнить различие частот появления единиц в двух группах. Например, вы желаете сравнить относительное число голосов, поданных за кандидата в двух избирательных округах. Термин относительное число означает число голосов, поданных за кандидата, деленное на общее число голосовавших. Статистический критерий для сравнения частот (долей, пропорций...) реализован в модуле Основные статистики и таблицы в диалоге Другие критерии значимости.


Т-критерий для независимых выборок

t-критерий является наиболее часто используемым методом, позволяющим выявить различие между средними двух выборок. Еще раз напомним, переменные должны быть измерены в достаточно богатой шкале, например, количественной.

Конечно, применение t-критерия имеет некоторые ограничения, впрочем, очень слабые.

Теоретически t-критерий может применяться, даже если размер выборки очень небольшой (например, 10; некоторые исследователи утверждают, что можно исследовать и меньшие выборки) и если переменные нормально распределены (внутри групп), а дисперсии наблюдений в группах не слишком различны. Известно, что t-критерий устойчив к отклонениям от нормальности.

Предположение о нормальности можно проверить, исследуя распределение (например, визуально с помощью гистограмм) или применяя критерий нормальности. Следует заметить, что эффективно проверить гипотезу о нормальности можно для достаточно большого объема данных (см. замечание Фишера о проверке нормальности, цитированное нами в главе Элементарные понятия анализа данных).

Более осторожно нужно подходить к различию дисперсий сравниваемых групп. Равенство дисперсий в двух группах, а это одно из предположений F-критерия, можно проверить с помощью F-критерия (который включен в таблицу вывода t-критерия в STATISTICA). Также можно воспользоваться более устойчивым критерием Левена.

При сравнении средних, как и всегда в анализе данных, чрезвычайно полезны визуальные методы. Например, на приведенной ниже категоризованной диаграмме размаха видно существенное различие средних значений для мужчин и женщин. На диаграмме точками показаны средние значения, а также стандартные отклонения (прямоугольники) и стандартные ошибки (отрезки прямых линий), вычисленные отдельно для мужчин и женщин.


На графике заметно различие дисперсий в группах - высота прямоугольника FEMALE больше высоты прямоугольника MALE.

Если условия применимости t-критерия не выполнены, то можно оценить различие между двумя группами данных, с помощью подходящей непараметрической альтернативы ^-критерию (см. главу Непараметрическая статистика, где обсуждается вопрос применения альтернативных процедур,).

Р-уровень значимости f-критерия равен вероятности ошибочно отвергнуть гипотезу об отсутствии различия между средними выборок, когда она верна (то есть когда средние в действительности равны).

Некоторые исследователи предлагают в случае, когда рассматриваются отличия только в одном направлении (например, переменная X больше (меньше) в первой группе, чем во второй), рассматривать одностороннее t-распределение и делить полученный для двухстороннего t-критерия р-уровень пополам. Другие предлагают всегда работать со стандартным двухсторонним t-критерием.

Чтобы применить t-критерий для независимых выборок, требуется, по крайней мере, одна независимая (группирующая) переменная и одна зависимая переменная (например, тестовое значение некоторого показателя, которое сравнивается в двух группах).

Вначале с помощью значений группирующей переменной, например, мужчина и женщина, если группирующей переменной является Пол, или Имеет высшее образование и Не имеет высшего образования, если группирующей переменной является Образование, данные разбиваются на две группы. Далее в каждой группе вычисляется среднее значение зависимой переменной, например, артериальное давление или доход. Эти выборочные средние сравниваются между собой.

Конечно, при применении t-критерия, как и при применении любого другого критерия в анализе данных, нужно сохранять здравый смысл. Применение t-критерия мало оправданно, если значения двух переменных несопоставимы. Например, если вы сравниваете среднее значение некоторого показателя в выборке пациентов до и после лечения, но используете различные методы вычисления

количественного показателя или другие единицы во втором измерении, то высокозначимые значения t-критерия могут быть получены искусственно, за счет изменения единиц измерения. Аналогично, не имеет смысла сравнивать доходы, выраженные в рублях, при многократной девальвации или высокой инфляции.

В следующем разделе даются формулы вычисления статистики критерия Стьюдента для проверки равенства средних двух выборок. Если вас интересует только практическое применение, вы можете пропустить этот раздел.

Формальное определение t-критерия

Формально в случае двух групп (k = 2) статистика t-критерия имеет вид:

где х¯ 1 (n 1)м x¯ 2 (n 2) - выборочные средние первой и второй выборки, s ~2 -оценка дисперсии, составленная из оценок дисперсий для каждой группы данных:

Если гипотеза: «средние в двух группах равны» - верна, то статистика t^(n 1 +n 2 -2) имеет распределение Стьюдента с (n 1 +n 2 -2) степенями свободы (см. например, справочное издание Айвазян С. А., Енюков И. С., Мешалкин Л. Д., Прикладная статистика., М.: Финансы и статистика, 1983. С. 395-397).

Большие по абсолютной величине значения статистики t^(n 1 + n 2 - 2) свидетельствуют против гипотезы о равенстве средних значений.

С помощью вероятностного калькулятора STATISTICA найдем 100a/2%-ю точку распределения Стьюдента с (n 1 + n 2 - 2) степенями свободы.

Обозначим найденную точку через ×

Если | t^(n 1 +n 2 -2)| > t(a /2), то гипотеза отвергается.

Заметим, что большие абсолютные значения статистики Стьюдента t^(n 1 +n 2 -2)могут возникнуть как из-за значимого различия средних, так и из-за значимого различия дисперсий сравниваемых групп.

Статистический критерий равенства или однородности дисперсии двух нормальных выборок основан на статистике:

которая при гипотезе: «дисперсии в двух группах равны» имеет распределение F(n 1 -1,n 2 -1).

Зададимся уровнем значимости a.

С помощью вероятностного калькулятора вычислим 100(1 - a/2)% и 100(a/2)% точки распределения F(n 1 -1, n 2 -1).

Если F 1-a/2 (n 1 -1, n 2 -1) < F(n 1 -1, n 2 -1) < F a/2 (n 1 -1, n 2 -1), то гипотеза об однородности дисперсии не отвергается.

Т-критерий для зависимых выборок

Степень различия между средними в двух группах зависит от внутригрупповой вариации (дисперсии) переменных.

В зависимости от того, насколько различны эти значения для каждой группы, «грубая разность» между групповыми средними показывает более сильную или более слабую степень зависимости между независимой (группирующей) и зависимой переменными.

Например, если при исследовании среднее значение WCC (число лейкоцитов) равнялось 102 для мужчин и 104 для женщин, то разность только на величину 2 между внутригрупповыми средними будет чрезвычайно важной в том случае, если все значения WCC мужчин лежат в интервале от 101 до 103, а все значения WCC женщин - в интервале 103-105. Тогда можно довольно хорошо предсказать WCC (значение зависимой переменной) исходя из пола субъекта (независимой переменной). Однако если та же разность 2 получена из сильно разбросанных данных (например, изменяющихся в пределах от 0 до 200), то разностью вполне можно пренебречь.

Таким образом, понятно, что уменьшение внутригрупповой вариации увеличивает чувствительность критерия.

Т-критерий для зависимых выборок дает преимущество в том случае, когда важный источник внутригрупповой вариации (или ошибки) может быть легко определен и исключен из анализа. В частности, это относится к экспериментам, в которых две сравниваемые группы наблюдений основываются на одной и той же выборке наблюдений (субъектов), которые тестировались дважды (например, пациенты до и после лечения).

В таких экспериментах значительная часть внутригрупповой изменчивости (вариации) в обеих группах может быть объяснена индивидуальными различиями субъектов. Заметим, что на самом деле такая ситуация не слишком отличается от той, когда сравниваемые группы совершенно независимы (см. t-критерий для независимых выборок), где индивидуальные отличия также вносят вклад в дисперсию ошибки. Однако в случае независимых выборок вы ничего не сможете поделать с этим, т. к. не сможете определить (или «удалить») часть вариации, связанную с индивидуальными различиями субъектов. Если та же самая выборка тестируется дважды, то можно легко исключить эту часть вариации.

Вместо исследования каждой группы отдельно и анализа исходных значений можно рассматривать просто разности между двумя измерениями (например, «до теста» и «после теста») для каждого субъекта. Вычитая первые значения из вторых (для каждого субъекта) и анализируя затем только эти «чистые (парные) разности», вы исключите ту часть вариации, которая является результатом различия в исходных уровнях индивидуумов.

В сравнении с t-критерием для независимых выборок, такой подход дает всегда «лучший» результат, так как критерий становится более чувствительным.

Теоретические предположения ^-критерия для независимых выборок также применимы к критерию зависимых выборок. Это означает, что парные разности должны быть нормально распределены. Если это не выполняется, то можно воспользоваться одним из альтернативных непараметрических критериев (см. главу Непараметрическая статистика).

В системе STATISTICA ^-критерий для зависимых выборок может быть вычислен для списков переменных и просмотрен далее как матрица. Пропущенные данные при этом обрабатываются либо попарным, либо построчным способом.

При этом возможно возникновение «чисто случайно» значимых результатов. Если вы имеете много независимых экспериментов, то «чисто случайно» можете найти один или несколько экспериментов, результаты которых значимы.

Как уже говорилось, сравнение средних в более чем двух группах проводится с помощью дисперсионного анализа (английское сокращение - ANOVA).

Если имеется более двух «зависимых выборок» (например, до лечения, после лечения-1 и послелечения-2), то можно использовать дисперсионный анализ с повторными измерениями. Повторные измерения в дисперсионном анализе можно рассматривать как обобщение f-критерия для зависимых выборок, позволяющее увеличить чувствительность анализа.

Например, дисперсионный анализ позволяет одновременно контролировать не только базовый уровень зависимой переменной, но и другие факторы и включать в план эксперимента более одной зависимой переменной.

Интересен следующий прием объединения результатов нескольких t-критери-ев. Этот прием можно использовать также для объединения результатов других критериев (см.: Справочник по прикладной статистике/Под редакцией Э. Ллойда и У. Ледермана, т. 1. М.: Финансы и статистика, 1989. С. 274). Для нас этот пример также интересен тем, что мы можем продемонстрировать новые возможности STATISTICA.

Пример 1

Предположим, используя независимые эксперименты, вы получили уровни значимости а(1), а(2) ... а(m). Предположим, эти уровни недостаточно убедительны. Если уровни значимости неубедительны, то, возможно, имеет смысл объединить данные и рассмотреть их как результат одного целого эксперимента.

При нулевой гипотезе уровни значимости, рассматриваемые как случайные величины, имеют равномерное распределение. Следовательно, величина

L = -2× (Ln(a(l)) + Ln(a(2)) + ... + Ln(a(m))

имеет хи-квадрат распределение с числом степеней свободы 2m.

Например, если в испытаниях на прочность бетона были получены недостаточно убедительные уровни 0,047, 0,054, 0,042, то уровень значимости объединенного эксперимента равен 0,005547 и гипотеза о неэффективности добавки явно отвергается.

Для того чтобы понять это, воспользуемся средствами системы STATISTICA. Сначала вычислим величину L, например, задав формулу в электронной таблице.

Создайте файл и в первой строке введите запись:

Переменная var7 содержит значение L, вычисленное по формуле.


Затем откройте вероятностный калькулятор системы STATISTICA, выберите в нем распределение хи-квадрат, введите число степеней свободы б, а в поле хи-квадрат введите величину 18,29.


В результате в поле р мы получили 0,005547.

Таким образом, получен объединенный уровень значимости трех t-критериев (сравните с результатами, приведенными в Справочнике по прикладной статистике, под редакцией Э. Ллойда и У. Ледермана, т. 1. М.: Финансы и статистика, 1989. С. 275). Это явно высокий уровень значимости, поэтому нулевая гипотеза отвергается.

Пример 2

Здесь мы будем работать с файлом intemet2000.sta. Можно также использовать файл ad.study.sta из папки Examples.

В файле intemet2000.sta собраны результаты опроса нескольких пользователей относительно их восприятия сайтов ENNUI и POURRITURE.

Такого рода данные несложно получить с помощью Интернет. Вы можете, например, вывесить на сайт анкету, которая будет заполняться посетителями.

В этом модельном примере пользователи оценивали сайты в разных шкалах (полнота, технологичность решения, информативность, дизайн и др.) В каждой из шкал респонденты давали оценку сайту по десятибалльной шкале, от 0 до 9 баллов.

Интересен вопрос: различается восприятие сайтов мужчинами и женщинами?

Мужчины могут в некоторых шкалах давать более высокие или низкие оценки по сравнению с женщинами.

Для решения этой задачи можно использовать t-критерий для независимых выборок. Группирующая переменная пол разбивает данные на две группы. Выборки мужчин и женщин будут сравнены относительно среднего их оценок по каждой шкале. Вернитесь к стартовой панели и щелкните на процедуре t-критерий для независимых выборок, чтобы открыть диалоговое окно Т-критерий для независимых выборок (групп).


Щелкните по кнопке Переменные , чтобы открыть стандартное диалоговое окно для выбора переменных. Здесь вы можете выбрать и независимые (группирующие), и зависимые переменные.

Для нашего примера выберите переменную GENDER как независимую переменную и переменные от 3 до 25 (содержащие ответы) в качестве зависимых переменных.


Щелкните ОК в этом диалоговом окне, чтобы вернуться в диалоговое окно , где отобразится ваш выбор.


Из диалогового окна Т-критерий для независимых выборок (групп) доступно также много других процедур.

Щелкните ОК для вывода таблицы результатов.


Самым быстрым способом изучения таблицы является просмотр пятого столбца (со держащего р-уровни) и определение того, какие из р-значений меньше установленного уровня значимости 0,05.

Для большинства зависимых переменных средние по двум группам (МУЖЧИНЫ - MALES и ЖЕНЩИНЫ - FEMALES) очень близки.

Единственная переменная, для которой f-критерий соответствует установленному уровню значимости 0,05, - это Measur 7, для нее р-уровенъ равен 0,0087. Как показывают столбцы, содержащие средние значения (см. две первые колонки), для мужчин эта переменная принимает в среднем существенно большие значения - в выбранной шкале измерений для мужчин она равна 5,46, а для женщин - 3,63. При этом нельзя исключить вероятность того, что пол ученная разница на самом деле отсутствует и получилась лишь в результате случайного совпадения (см. ниже), хотя это выглядит маловероятным.

Графиком по умолчанию для этих таблиц результатов является диаграмма размаха. Для построения этой диаграммы щелкните правой кнопкой мыши в любом месте строки, соответствующей зависимой переменной (например, на среднем для Measur 7).

В открывшемся контекстном меню выберите построение графика Диаграмма размаха из подменю Быстрые статистические графики . Далее выберите опцию Среднее/ст.ош./ст.откл . окна. Диаграмма размаха и нажмите OK для построения графика.

Разность средних на графике выглядит более значительной и не может быть объяснена только на основании изменчивости исходных данных.

Однако на графике заметно еще одно неожиданное отличие. Дисперсия для группы женщин намного больше дисперсии для группы мужчин (посмотрите на прямоугольники, которые изображают стандартные отклонения, равные корню квадратному из вариации).

Если дисперсии в двух группах существенно отличаются, то нарушается одно из требований для использования г-критерия, и разность средних должна рассматриваться особенно внимательно.

Кроме того, дисперсия обычно коррелирована со средним значением, то есть чем больше среднее, тем больше дисперсия.


Однако в данном случае наблюдается нечто противоположное. В такой ситуации опытный исследователь предположил бы, что распределение переменной Measur 7, возможно, не является нормальным (для мужчин, женщин или для тех и других).

Поэтому рассмотрим критерий разности дисперсий для того, чтобы проверить, является ли наблюдаемое на графике отличие действительно заслуживающим внимания.

Вернемся к таблице результатов и прокрутим ее вправо, увидим результаты F-критерия. Значение F-критерия действительно соответствует указанному уровню значимости 0,05, что означает существенную разность дисперсий переменной Measur 7 в группах МУЖЧИНЫ - MALES и ЖЕНЩИНЫ - FEMALES.

Однако значимость наблюдаемой разности дисперсий близка к граничному уровню значимости (ее р-уровенъ равен 0,029).


Большинство исследователей посчитало бы один этот факт недостаточным для признания недействительным t-критерия разности средних, дающего высокий уровень значимости для этой разности (р - 0,0087).

Множественные сравнения

При проведении сравнений средних в трех и более группах можно использовать процедуры множественных сравнений. Сам термин множественные сравнения означает просто многократные сравнения.

Проблема состоит в следующем: мы имеем n > 2 независимых групп данных и хотим разумным образом сравнить их средние. Предположим, мы применили F-критерий и отклонили гипотезу: «средние всех групп равны». Наше естественное желание - найти однородные группы, средние которых равны между собой.

Конечно, мы можем сравнить группы с помощью t-критерия и найти путем многократных сравнений однородные группы. Но, оказывается, трудно вычислить ошибку выполненной процедуры или, как говорят, составного критерия, отправляясь от заданного уровня значимости каждого t-критерия.

Тонкость состоит в том, что сравнивая с помощью t-критерия много групп, вы чисто случайно можете обнаружить эффект. Представьте, что в 1000 клиник вы провели испытание нового лекарства, сравнивая в каждой клинике группу больных, принимающих препарат, с группой больных, принимающих плацебо. Конечно, чисто случайно может найтись клиника, где вы найдете эффект. Однако с высокой степенью вероятности, это может быть арт-эффект.

Чтобы обезопасить себя от подобного рода случайностей, используются специальные критерии для множественных или многократных сравнений.

В системе STATISTICA процедуры множественного сравнения реализованы в модуле Основные статистики и таблицы в диалоге


Описание процедур множественного сравнения можно найти, например, в книге: Кендаял М. Дж. и Стьюарт А. Статистические выводы и связи. М.: Наука, 1973. С. 71-79.

Заметим, что самые общие методы сравнения нескольких групп реализованы в модуле Общий дисперсионный анализ.

Однофакторный дисперсионный анализ можно провести в модулеОсновные статистики и таблицы.


Однофакторный дисперсионный анализ и апостериорные сравнения средних

Итак, если вы хотите продвинуться в исследовании различий нескольких групп, то дальнейший анализ следует вести в диалоге группировка и однофакторный дисперсионный анализ (ANOVA). Мы работаем с данными, которые находятся в файле adstudy.sta (папка Examples).

Сделайте вслед за нами следующие установки.

Вначале стандартным образом выберите группирующие и зависимые переменные в файле данных.

Затем выберите коды для группирующих переменных. С помощью этих кодов наблюдения в файле разбиваются на несколько групп, сравнение которых мы будем проводить.


После того как выбраны переменные для анализа и определены коды группирующих переменных, нажмите кнопку ОК и запустите вычислительную процедуру.

В появившемся окне вы можете всесторонне просмотреть результаты анализа.


Посмотрите внимательно на диалоговое окно. Результаты можно отобразить в виде таблиц и графиков. Например, можно проверить значимость различий в средних с помощью процедуры Дисперсионный анализ.

Щелкните на кнопкеДисперсионный анализ , и вы увидите результаты однофакторного дисперсионного анализа для каждой зависимой переменной.


Заметьте, что в таблице дисперсионного анализа мы имеем уже дело с F-критперием.

Как следует из результатов, для переменных Measur 5, Measur 7 и Measur 9 процедура однофакторного Дисперсионного анализа дала статистически значимые результаты на уровне р<0,05.

Эти результаты показывают, что различие средних значимо. Итак, с помощью F-критерия (этот критерий обобщает t-критерий на число групп больше двух) мы отвергаем гипотезу об однородности сравниваемых групп.

Возвратитесь в диалоговое окно результатов и нажмите кнопку Апостериорные сравнения средних для того, чтобы оценить значимость различий между средними конкретных групп. Прежде всего нужно выбрать зависимую переменную. В данном примере выберем переменную Measur 7.

После того как вы нажмете ОК в окне выбора переменной, на экране появится диалоговое окно Апостериорные сравнения средних.


В этом окне можно выбрать несколько апостериорных критериев.

Выберем, например, Критерий наименьшей значимой разности (НЗР).

Критерий НЗР эквивалентен t-критерию для независимых выборок, основанному на N сравниваемых группах.

t-критерий для независимых выборок показывает (проверьте на STATISTIC А!), что имеется значимое различие между ответами МУЖЧИН - MALES и ответами ЖЕНЩИН - FEMALES для переменной Measur 7.


Используя процедуруГруппировка и однофакторная ANOVA, мы видим (см. таблицу результатов), что значимое различие средних имеется только для лиц, выбравших СОКЕ.

Графическое представление результатов . Различия средних можно увидеть на графиках, доступных в диалоговом окне Внутригрупповые описательные статистики и корреляции - Результаты.

Например, для того чтобы сравнить распределения выбранных переменных внутри групп, щелкните по кнопке Категоризованные диаграммы размаха и выберите опцию Медиана/кварт./размах из диалогового окна Диаграмма размаха.

После того как вы нажмете OK , STATISTICA построит каскад диаграмм размаха.


Из графика видно, -что между группой FEMALE - СОКЕ и группой MALE - СОКЕ имеется явное различие.

Такого рода анализ с последовательно усложняющейся группировкой и сравнением средних в получающихся группах, особенно часто применяемый в массовых обследованиях, может быть с успехом выполнен в STATISTICA.

Взгляните на рисунок. Вы видите две мензурки, в каждой из которых налито некоторое количество жидкости. Скажите, в какой из мензурок жидкости больше? Если вы считаете, что в правой – вы ошибаетесь! Правильный ответ такой: погрешность, возникающая при измерении объема жидкости этими мензурками, не позволяет сказать, в какой мензурке налито больше жидкости.

Как же это следует понимать? Давайте вспомним, что использование любого измерительного прибора обязательно сопровождается погрешностью измерения. Она зависит от цены деления шкалы этого прибора. Поскольку на правой мензурке деления более крупные, значит, погрешность измерения объема будет больше. Измерим объемы жидкостей в мензурках с учетом погрешностей.

Изобразим на двух числовых прямых измеренные значения объемов (отмечены желтыми точками) и интервалы между границами погрешностей измерений:



В отличие от измеренных значений, истинные значения объемов жидкостей находятся в неизвестном месте внутри интервалов. Истинный объем жидкости в левой мензурке может быть равен, например, 270 мл, а истинный объем жидкости в правой мензурке, например, 250 мл (отмечены красными точками).



Мы специально выбрали второе «красное» число меньше первого (ведь такая ситуация тоже может быть). А это значит, что правая мензурка может содержать меньший объем жидкости, чем левая, несмотря на то, что уровень жидкости в правой мензурке выше. Невероятно, но факт!

С самых давних пор людей серьезно интересовал вопрос о том, как удобнее всего сравнить величины, выраженные в разных значениях. И дело здесь не только в природной любознательности. Человек древнейших земных цивилизаций придавал этому довольно непростому делу сугубо прикладное значение. Корректно измерить землю, определить вес продукта на рынке, рассчитать необходимое соотношение товаров при бартере, определить верную норму винограда при заготовке вина - вот лишь малая толика задач, которые часто всплывали в и без того нелёгкой жизни наших предков. Поэтому малообразованные и неграмотные люди при необходимости сравнить величины шли за советом к своим более опытным товарищам, а те нередко брали за такую услугу соответствующую мзду, и довольно неплохую, кстати.

Что можно сравнивать

В наше время этому занятию также отводится немалая роль в процессе изучения точных наук. Всем, конечно, известно, что сравнивать необходимо однородные величины, то есть яблоки - с яблоками, а свеклу - со свеклой. Никому и в голову не придет попробовать выразить градусы Цельсия в километрах или килограммы в децибелах, зато длину удава в попугаях мы знаем с самого детства (для тех, кто не помнит: в одном удаве - 38 попугаев). Хотя попугаи тоже бывают разные, и на самом деле длина удава будет различаться в зависимости от подвида попугая, но это уже детали, в которых мы и попробуем разобраться.

Размерности

Когда в задании указано: "Сравни значения величин", необходимо эти самые величины привести к одному знаменателю, то есть выразить в одних и тех же значениях для удобства сравнения. Понятное дело, что сравнить значение, выраженное в килограммах, со значением, выраженным в центнерах или в тоннах, для многих из нас не составит особого труда. Однако существуют однородные величины, выразить которые можно в разных размерностях и, более того, в разных системах измерения. Попробуйте, например, сравнить величины кинематической вязкости и определить, какая из жидкостей является более вязкой в сантистоксах и квадратных метрах в секунду. Не получается? И не получится. Для этого нужно оба значения отразить в одних и тех же величинах, а уже по числовому значению определить, какое из них превосходит соперника.

Система измерения

Для того чтобы понять, какие величины можно сравнивать, попытаемся вспомнить существующие системы измерения. Для оптимизации и ускорения расчетных процессов в 1875 году семнадцатью странами (в том числе Россией, США, Германией и др.) была подписана метрическая конвенция и определена метрическая система мер. Для разработки и закрепления эталонов метра и килограмма был основан Международный комитет мер и весов, а в Париже обустроено Международное бюро мер и весов. Эта система со временем эволюционировала в Международную систему единиц, СИ. В настоящее время эта система принята большинством стран в области технических расчетов, в том числе и теми странами, где традиционно в повседневной жизни используются национальные (например, США и Англия).

СГС

Однако параллельно с общепринятым стандартом эталонов развивалась и другая, менее удобная система СГС (сантиметр-грамм-секунда). Она была предложена в 1832 году немецким физиком Гауссом, а в 1874 году модернизирована Максвеллом и Томпсоном, в основном в области электродинамики. В 1889 году была предложена более удобная система МКС (метр-килограмм-секунда). Сравнение предметов по величине эталонных значений метра и килограмма для инженеров гораздо более удобно, нежели использование их производных (санти-, милли-, деци- и др.). Однако данная концепция также не нашла массовый отклик в сердцах тех, для кого она предназначалась. Во всём мире активно развивалась и использовалась поэтому расчеты в СГС проводили всё реже, а после 1960 года, с введением системы СИ, СГС и вовсе практически вышла из употребления. В настоящее время СГС реально применяют на практике лишь при расчетах в теоретической механике и астрофизике, и то из-за более простого вида записи законов электромагнетизма.

Пошаговая инструкция

Разберём подробно пример. Допустим, задача звучит так: "Сравните величины 25 т и 19570 кг. Какая из величин больше?" Что нужно сделать перво-наперво, это определить, в каких величинах у нас заданы значения. Итак, первая величина у нас задана в тоннах, а вторая - в килограммах. На втором шаге мы проверяем, не пытаются ли нас ввести в заблуждение составители задачи, пытаясь заставить сравнивать разнородные величины. Бывают и такие задания-ловушки, особенно в быстрых тестах, где на ответ к каждому вопросу дается 20-30 секунд. Как мы видим, значения однородны: и в килограммах, и в тоннах у нас измеряется масса и вес тела, поэтому вторая проверка пройдена с положительным результатом. Третий шаг, переводим килограммы в тонны или, наоборот, тонны - в килограммы для удобства сравнения. В первом варианте получается 25 и 19,57 тонн, а во втором: 25 000 и 19 570 килограмм. И вот теперь можно со спокойной душой сравнить величины этих значений. Как наглядно видно, первое значение (25 т) в обоих случаях больше, чем второе (19 570 кг).

Ловушки

Как уже упоминалось выше, современные тесты содержат очень много заданий-обманок. Это необязательно разобранные нами задачи, ловушкой может оказаться довольно безобидный с виду вопрос, особенно такой, где напрашивается вполне логичный ответ. Однако коварство, как правило, кроется в деталях или в маленьком нюансе, которые составители задания пытаются всячески замаскировать. Например, вместо уже знакомого вам по разобранным задачам с постановкой вопроса: "Сравни величины там, где это возможно" - составители теста могут просто попросить вас сравнить указанные величины, а сами величины выбрать поразительно похожие друг на друга. Например, кг*м/с 2 и м/с 2 . В первом случае это сила, действующая на объект (ньютоны), а во втором - ускорение тела, или м/с 2 и м/с, где вас просят сравнить ускорение со скоростью тела, то есть абсолютно разнородные величины.

Сложные сравнения

Однако очень часто в заданиях приводят два значения, выраженные не только в разных единицах измерения и в разных системах исчисления, но и отличные друг от друга по специфике физического смысла. Например, в постановке задачи сказано: "Сравни значения величин динамической и кинематической вязкостей и определи, какая жидкость более вязкая". При этом значения указаны в единицах СИ, то есть в м 2 /с, а динамической - в СГС, то есть в пуазах. Как поступить в этом случае?

Для решения таких задач можно воспользоваться представленной выше инструкцией с небольшим её дополнением. Определяемся, в какой из систем будем работать: пусть это будет общепринятая среди инженеров. Вторым шагом мы также проверяем, а не ловушка ли это? Но в данном примере тоже всё чисто. Мы сравниваем две жидкости по параметру внутреннего трения (вязкости), поэтому обе величины однородны. Третьим шагом переводим из пуазов в паскаль-секунду, то есть в общепринятые единицы системы СИ. Далее переводим кинематическую вязкость в динамическую, умножая её на соответствующее значение плотности жидкости (табличное значение), и сравниваем полученные результаты.

Вне системы

Существуют также внесистемные единицы измерения, то есть единицы, не вошедшие в СИ, но согласно результатам решений созыва Генеральных конференций по мерам и весам (ГКВМ), допустимые для совместного использования с СИ. Сравнивать такие величины между собой можно только при их приведении к общему виду в стандарте СИ. К внесистемным относятся такие единицы, как минута, час, сутки, литр, электрон-вольт, узел, гектар, бар, ангстрем и многие другие.

Однако, круговая диаграмма не всегда обеспечивает необходимую наглядность представления информации. Во-первых, на одном круге может оказаться слишком много секторов. Во-вторых, все сектора могут быть примерно одинакового размера. Вместе эти две причины делают круговую диаграмму малополезной.

2.Столбчатая диаграмма (гистограмма)- Служит для сравнения нескольких величин в нескольких точках.

Столбчатые диаграммы (как и следует из названия) состоят из столбиков. Высота столбика определяется значениями сравниваемых величин . Каждый столбик привязан к опорной точке .

3.Линейная диаграмма (график)- Служит для того, чтобы проследить за изменениями нескольких величин при переходе от одной точки к другой.

Построение линейной диаграммы аналогично построению столбчатой. Но вместо столбиков просто отмечается их высота (точками, черточками, крестиками) и полученные отметки соединяются прямыми линиями. Вместо разной штриховки (закраски столбиков) используются разные отметки (ромбики, треугольники, крестики и т.д.), разная толщина и тип линий (сплошная, пунктирная и пр.), разный цвет.

4. Ярусная диаграмма (гистограмма с накоплением)- Позволяет наглядно сравнить суммы нескольких величин в нескольких точках, и при этом показать вклад каждой величины в общую сумму.

Порядок построения ярусной диаграммы очень напоминает порядок построения диаграммы столбчатой. Разница в том, что столбики в ярусной диаграмме ставятся не рядом друг с другом, а один на другой. Соответственно меняются правила расчета вертикального и горизонтального размера диаграммы.

5. Областная диаграмма (диаграмма площадей)- Гибрид ярусной диаграммы с линейной позволяет одновременно проследить изменение каждой из нескольких величин и изменение их суммы в нескольких точках.

Отдельные столбики сливаются, образуя непрерывные области. Отсюда и название – диаграмма областей или диаграмма площадей. Каждая область соответствует какой-то одной величине, для указания на которую используется различная штриховка (раскраска). Раньше ярусами располагались столбики, теперь – линии (и очерченные ими площади).

    Форматирование ячеек. Формат чисел в Microsoft Excel.

Форматирование в Excel применяется для облегчения восприятия данных, что играет немаловажную роль в производительности труда.

Для того чтобы назначить формат нужно выполнить следующее:

2. Выберать команду "Формат"-"Ячейки" (Ctrl+1).

3. В появившемся окне диалога ввести нужные параметры форматирования.

4. Нажать кнопку "Ок".

Форматированная ячейка сохраняет свой формат, пока к ней не будет применен новый формат или не удален старый. При вводе значения в ячейку к нему применяется уже используемый в ячейке формат.

Для того чтобы удалить формат нужно выполнить следующее:

1. Выделить ячейку (диапазон ячеек).

2. Выберать команду "Правка"-"Очистить"-"Форматы".

3. Для удаления значений в ячейках надо выбрать команду "Все" подменю "Очистить".

Следует учитывать, что при копировании ячейки наряду с ее содержимым копируется и формат ячейки. Таким образом, можно сберечь время, форматируя исходную ячейку до использования команд копирования и вставки

Форматирование можно также производить с помощью панелей инструментов. Наиболее часто используемые команды форматирования вынесены на панель инструментов "Форматирование". Чтобы применить формат с помощью кнопки панели инструментов, выделите ячейку или диапазон ячеек и затем нажмите кнопку мышью. Для удаления формата надо нажать кнопку повторно .

Для быстрого копирования форматов из выделенных ячеек в другие ячейки можно использовать кнопку "Формат по образцу" панели "Форматирование"

Форматирование можно применять к отдельным символам текстового значения в ячейке так же, как и ко всей ячейке. Для этого необходимо выделить нужные символы и затем в меню "Формат" выберать команду "Ячейки". Далее установить нужные атрибуты и нажать кнопку "Ок". Нажать клавишу Enter, чтобы увидеть результаты своего труда.

Настройка формата чисел в Excel

Так как программа Excel предназначена для обработки чисел, важную роль играет правильная настройка их формата. Для человека число 10 - это просто единица и ноль. С точки зрения Excel эти две цифры могут нести совершенно разную информацию в зависимости от того, обозначают ли они количество работников компании, денежную величину, процентную часть целого или фрагмент заголовка «10 ведущих фирм». Во всех четырех ситуациях это число должно отображаться и обрабатываться по-разному. Excel поддерживает следующие форматы данных:

* Общий - текст и числовые значения произвольного типа; * Числовой - наиболее общий способ представления чисел; * Денежный - денежные величины; * Финансовый - денежные величины с выравниванием по разделителю целой и дробной частей; * Дата - дата или дата и время; * Время - время или дата и время; * Процентный - значение ячейки, умноженное на 100 с символом «%» в конце; * Дробный - рациональные дроби с числителем и знаменателем; * Экспоненциальный - десятичные дробные числа; * Текстовый - текстовые данные отображаются точно так же, как вводятся и обрабатываются строки, вне зависимости от их содержимого; * Дополнительный - форматы для работы с базами данных и списками адресов; * Заказной - формат, настраиваемый пользователем.

Наиболее распространенные варианты формата данных можно назначать с помощью панели инструментов Форматирование.

1. Щелкните на ячейке С4, а затем на кнопке Процентный формат . Величина клетки С4 будет умножена на 100, и к ней добавится знак «%».

Рис. 9.14. Вкладка выбора формата данных

2. Нажмите клавишу вниз и щелкните на кнопке Денежный формат .

3. Щелкните на ячейке Сб, а затем на кнопке Формат с разделителями . Эта кнопка заставляет числа выравниваться в столбце по разделителю целой и дробной частей.

4. Выделите ячейку С7 и щелкните на кнопке Увеличить разрядность . Эта кнопка не изменяет основной формат, но добавляет один знак в дробной части числа.

5. Нажмите клавишу Enter и щелкните на кнопке Уменьшить разрядность . Эта операция убирает один знак дробной части и округляет число. Теперь ячейки с С4 по С9 выглядят совершенно по-разному, хотя исходно в них были введены совершенно одинаковые числа. Другие форматы назначаются с помощью следующих действий.

6. Щелкните на ячейке С10 и выберите команду Формат > Ячейки .

7. В открывшемся окне диалога раскройте вкладку Число (рис. 9.14).

8. В списке Числовые форматы щелкните на пункте Дата .

9. В появившемся списке Тип щелкните на строке 14 мар 01 (14-Mar-01). Затем щелкните на кнопке ОК .

Рис. 9.15. Различные форматы чисел

10. Аналогичным образом назначьте ячейке С11 формат Экспоненциальный, а ячейке С12 - формат Числовой. Теперь таблица будет выглядеть так (рис. 9.15). Обратите внимание, что среднее значение таблицы не изменилось, то есть при смене формата изменяется только способ отображения, а сами числовые значения остаются неизменными. Для проверки этого факта выполните следующие шаги.

11. Дважды щелкните на ячейке С11 и измените величину 03.01.1900 на 03.02.1900.

12. Нажмите клавишу Enter. Среднее значение таблицы (которое выводится в денежном формате) моментально изменится на 15.41р. Как войдите, можно суммировать даты с процентами и в результате получать рубли. Это типичный пример неверного назначения форматов данных.

    Защита листа. Защита ячеек в Microsoft Excel.

    Автоформаты и стили в Microsoft Excel.

    Использование условного форматирования в Microsoft Excel.

    Создание списка и формы данных в Microsoft Excel. Требования к оформлению списка.

    Сортировка и фильтрация данных в Microsoft Excel (автофильтр, расширенный фильтр).

    Группирование и структуирование данных в Microsoft Excel.

    Автоматические итоги: создание итоговой таблицы, отражение на экране итогов в разрезе одной или нескольких групп записей.

    Создание сводной таблицы в Microsoft Excel.(в тетради)

    Связывание и консолидация данных. (в тетради)

    Понятия теории баз данных. Принципы организации данных.

    Иерархическая и сетевая модели организации данных.

    Реляционная модель организации данных. Нормальные формы.

    Понятия систем управления БД (СУБД) и их назначение.

    Профессиональные системы управления базами данных (СУБД).

    Назначение, порядок работы, создание баз данных СУБД MS Access.

    Таблицы БД MS Access: назначение, структура, варианты создания.

    Типы данных и свойства полей СУБД MS Access.

    Понятие домена, атрибута, ключа реляционной базы данных.

    Создание структуры связей между таблицами БД.

    Виды отношений и ограничения в СУБД MS Access.

    Понятия, назначение и свойства форм.

    Варианты создания форм. Использование мастера форм.

    Работа с конструктором форм. Разделы формы.

    Использование выражений и вычисляемых полей.

    Типы элементов управления формами.

    Назначение, виды и варианты создания запросов.

    Порядок работы с конструктором запросов.

    Фильтрация и сортировка данных в запросах.

    Использование операторов и условий в запросах.

    Создание вычисляемых полей, объединений в запросах.

    Порядок работы с многотабличными запросами.

    Итоговые запросы. Групповые операции в MS Access.

    Изменение информации при помощи модифицирующих запросов.

    Назначение и способы создания отчетов MS Access.

    Использование мастера для создания отчета.

    Работа с конструктором отчетов.

    Группировка данных и промежуточные результаты в отчетах.

    Макросы в Access и их конструирование.

    Защита информации в базах данных.

    Классификация компьютерных сетей. Понятие сервера, рабочих станций.

    Программное обеспечение для работы в локальных сетях и в Интернете.

    Обмен данными в сетях, протоколы. Сетевое оборудование. Связи между сетями. Беспроводные сети.

    Интернет, структура сети, основные понятия. Сервисы Интернета.

    Принципы информационного поиска.

    Индексирование и механизм поиска.

    Схема информационно-поисковой системы. Стратегии поиска. Интерфейс.

    Антивирусные программы и их классификация.

    Основы защиты информации и сведений, составляющих государственную тайну.

    Способы защиты программ и данных.

    Аппаратное обеспечение средств защиты.