0
 

 

 

 

 

1 0 1
 

Медицинская статистика, биостатистика, биоинформатика, доказательная медицина.

 
Моя цель – стать профессиональным биостатистиком!

Обзор проекта / Навыки биостатистики / Онлайн курсы / Стататьи / Программы / Книги / Онлайн ресурсы / Видео / Новости / Канал на ютубе / livejournal / ФБ / ВК


Краткий реферат к курсу «Основы статистики». Модуль первый. Введение.


Краткий реферат к курсу «Основы статистики» на https://stepic.org/. Модуль первый. Введение. Внизу приведено дополнение к курсу, часть из которого взято по ссылкам их комментариев в курсе.

Генеральная совокупность / Формирование выборки / Типы переменных / Меры центральной тенденции / Мера изменчивости / Box Plot / Нормальное распределение / Стандартизация данных / Центральная предельная теорема / Статистическая проверка гипотез /


Генеральная совокупность – все объекты, относительно которых мы  хотим обобщить выводы в рамках нашего исследования. Так как всю генеральную совокупность исследовать проблематично, формируется  выборка, которая должна обладать свойствами генеральной совокупности, т.е. быть репрезентативной.  

Подходы к формированию выборок

Простая случайная выборка

Стратифицированная выборка

Групповая выборка (cluster sample).

Простая случайная выборка (simple random sample) – элементы генеральной совокупности выбираются случайным образом из всей совокупности.

Стратифицированная выборка (stratified (расслоённая) sample). Генеральная совокупность сначала разбивается на несколько обособленных и различных по своей природе страт (групп). Потом, из каждой группы, случайным образом выбрать элементы. Смысл деления, так, чтобы  из каждой группы элементы попали в выборку. Пример групп,  - мужчины и  - женщины.

Групповая выборка (cluster sample). Генеральная совокупность делится на несколько групп, - кластеров. Но эти группы будут очень похожи. Затем выбирается несколько групп из общего количества групп, а дальше, случайным образом выбрать элементы из выбранных групп ).

Типы переменных.
- Количественные переменные – измеренное значение некоторого признака. Они могут быть непрерывные (рост, вес) и дискретные (число детей в семье).
- Номинативные (качественные) переменные – используются для разделения элементов выборки на группы. Цифры в них, это лейблы или имена групп, и не содержат математического смысла.
- Ранговые переменные. Промежуточные между номинативными и количественными. Ранговые переменные  можно сравнивать между собой, но нельзя определить во сколько раз одна ранговая переменная больше другой.
Перевод количественной переменной в номинативную.
Измеряем рост испытуемых (количественная переменная) -> Ранжируем в зависимости от роста (ранговая переменная) –> делим на две группы, выше среднего и ниже среднего (порядковая переменная).

ОПИСАТЕЛЬНАЯ СТАТИСТИКА.
Распределение переменных. Для описания распределений используются меры центральной тенденции и меры изменчивости.
Меры центральной тенденции, - позволяют ответить на вопрос, насколько высокие  значения принимает наша переменная.

- Мода (Mode) – значение измеряемого признака, которое встречается максимально часто.  Можно определить с помощью графика Dot Plot.  Может быть несколько мод.

Мода (Mode)

- Медиана (Me), - значение признака, которое делит упорядоченное множество данных пополам

Медиана (Me),

- Среднее (mean, среднее арифметическое) генеральной совокупности, - «µ». Среднее выборки, -«Х».

Среднее выборки

Для описания несимметричных распределений и распределений имеющих заметные выбросы, лучше использовать моду и медиану.


Свойства среднего

Мх+с=Мх+с

Если к каждому значению выборки прибавить некоторое число, то и среднее увеличится на это число.

Мх*с=Мх*с

Если  каждое значение в выборке умножить на  некоторое число, то и среднее  выборки увеличится в это число раз.

0=∑(хi-Мх)

Сумма всех отклонений от среднего арифметического равна нулю.

Мера изменчивости
- Размах (Range, R) – Разность максимального и минимального значения.


- Дисперсия (variance) Средний квадрат отклонений индивидуальных значений признака, от их средней величины. Насколько в среднем наши значения отклоняются от среднего значения по выборке? 

Дисперсия (variance)

Дисперсия (variance) Выборки

Генеральной совокупности

Выборки

- Среднеквадратическое отклонение σ (сигма) – квадратный корень из дисперсии. Реальное среднее значение отклонений, от среднего значения по выборке.

- σ (сигма) – генеральной совокупности.
- sd (стандартное отклонение) используете при расчете для выборки.

sd=3,5 означает, что в среднем, каждый элемент в выборке отклоняется от среднего по выборке на 3,5.

Свойства дисперсии

Dx+c= Dx  / Sdx+c= Sdx

Если к каждому значению выборки прибавить некоторое число, то дисперсия и стандартное отклонение не изменятся. 

Dx*c= Dx*с2  / Sdx*c= Sdx*с

Если  каждое значение в выборке умножить на  некоторое число, то дисперсия выборки увеличатся в это число раз в квадрате, а стандартное отклонение выборки увеличатся в это число раз.

Квантиль, - это такие значения признака, которые делят упорядоченные данные на некоторое число равных частей. Медиана, - делит данные на две равные части.
Децили – значения признака, делящие упорядоченную совокупность на десять равных частей. Перцентели - значения признака, делящие упорядоченную совокупность на сто равных частей. Квартилей насчитывается три, децилей – девять, а перцентилей – девяносто девять.

Квартили распределения, - три точки, делящие упорядоченную совокупность на четыре равные части. Второй квартиль – это медиана (Ме=Q2).

Квантили

Box Plot (часто используется для сравнение выборок)

- Центр - медиана соответствующая второму квартилю (Q2=Ме). Верхняя граница, - 3 квартиль (Q3) и нижняя граница, - 1 квартиль (Q1).

Box Plot (часто используется для сравнение выборок)

- Межквартильный размах - разность между первым и третьим квартилем. Чем больше межквартильный  размах, тем больше вариативность признака.

- Границы «усов» на графике соответствуют последнему значению выборки, которое попадает в отрезок равный 1,5 межквартильного размаха, отложенного от первого или третьего квартиля, соответственно.

Точки со значением, превышающим 1,5 межквартильного размаха, указываются отдельно.

Нормальное распределение.

Унимодальное, симметричное и отклонение от среднего подчиняется определённому вероятностному  закону, -  правилу трёх сигм.
В диапазоне от среднего до  1 сигмы будет находиться 34,1% (68,2%) значений выборки. От 1 до 2 сигм, - 13,6% (27,2%). От 2 до 3 сигм, - 2,1 % (4,2).

Стандартизация данных (Z-преобразование) – преобразование полученных данных в стандартную Z шкалу [Z scores], со средним Mz=0 и  Dz=1.


Для Z-преобразования необходимо выполнить следующие  шаги, из каждого значения выборки вычесть среднее, и результат умножить на единицу, деленную на стандартное отклонение.

Стандартизация данных (Z-преобразование)

Позволяет отвечать на следующий вопрос:
- Какой процент наблюдений лежит в интересующем нас диапазоне?
Х=150, sd = 8. Какой % наблюдений превосходит значение 154?
1.  Получаем  Z значение. Zi=(154-150)/8 = 0,5
2. В специальной таблице находи результат.
Итог. Вероятность получить значение 0,5 в z  шкале, составляет 0,31.
Чтобы определить, какой процент наблюдений превышает интересующее нас значение z-значение, используются специальные таблицы. Будьте аккуратны при использовании этих таблиц: часто для интересующего нас z-значения указывается процент наблюдений, который не превосходит указанное z-значение.
Для решения следующих заданий используйте таблицы z-значений.
http://www.stat.ufl.edu/~athienit/Tables/Ztable.pdf  (процент наблюдений, не превышающий указанное z-значение)
http://www.normaltable.com/ztable-righttailed.html  (процент наблюдений, превышающий указанное z-значение)
Вы также можете воспользоваться специальным сайтом, позволяющим вычислить процент наблюдений в интересующем нас диапазоне:
https://gallery.shinyapps.io/dist_calc/  (по умолчанию выставлено стандартное нормальное распределение  M=0, sd=1)

Стандартизация данных (Z-преобразование)

Центральная предельная теорема.
Из вики. Центра́льные преде́льные теоре́мы (Ц. П. Т.) — класс теорем в теории вероятностей, утверждающих, что сумма достаточно большого количества слабо зависимых случайных величин, имеющих примерно одинаковые масштабы (ни одно из слагаемых не доминирует, не вносит в сумму определяющего вклада), имеет распределение, близкое к нормальному.
Лежит в основе идеи статистической проверки гипотез.  Ссылка на сайт с симуляцией данных для центральной предельной теоремы. https://gallery.shinyapps.io/CLT_mean/
Стандартная ошибка среднего, показывает, на сколько в среднем, выборочные средние отклоняются от среднего генеральной совокупности.  Стандартная ошибка среднего (SEM, Se) - теоретическое стандартное отклонение всех средних выборок размера n, извлекаемых из совокупности.

Где n – число наблюдений в выборке, a σ – среднеквадратичное отклонение генеральной совокупности. Если n˃30 и выборка репрезентативная, то σ можно заменить на   sd - стандартное отклонение выборки.

Стандартная ошибка среднего

Таким образом, мы можем построить доверительные интервалы для средних значений, т.е. понять, с какой вероятностью среднее генеральной совокупности попадет в интервал, отсчитанный от среднего по выборке.
- 95% средних выборок лежать в диапазоне ẍ ±1,96*σ (sd). 99% в диапазоне ẍ ±2,58*σ (sd).

Статистическая проверка гипотез.
Рассматриваются две гипотезы, нулевая (Н0), по которой нет нужного эффекта, и альтернативная ей,  первая (Н1), по которой эффект есть.
Идея статистического вывода.
Сначала допускается, что верна нулевая гипотеза, затем рассчитывается вероятность получения нашего результата в соответствии с принятой гипотезой, эта вероятность называется уровень значимости – p. Чем меньше р, тем больше у исследователя оснований отклонить нулевую гипотезу и принять альтернативную Н1. Обычно нулевая гипотеза отклоняется при p меньше 0,05. Говорится, что получен статистически значимый результат. Если р больше 0,05 то вывод заключается в том, что нет статистически значимых оснований отклонить нулевую гипотезу.
Интерпретация смысла уровня значимости (р). Это вероятность получить наш результат при условии,  что верная нулевая гипотеза (в рамках  модели исследования).
Ошибки статистического вывода первого и второго рода. Ошибка первого рода, - отклонение верной нулевой гипотезы. Ошибка второго рода, неотклонение неверной нулевой гипотезы.

Ошибки статистического вывода первого и второго рода.

 



 

 

Клуб "Омоложение"

описание / новости / ютуб / ФБ / LJ / ВК

ЗАХОДИ

Биостатистика

описание / новости / ютуб / ФБ / LJ / ВК

Клан "Молодость"

описание / новости / ютуб / LJ

ЗАХОДИ

 

 

 

 

 

 

 

 

 

 

© Доброхотов Игорь Владимирович - hum.d@narod.ru