Как проверить выборку на нормальность распределения в Python

Для проверки нормальности распределения в Python начните с визуализации данных. Используйте гистограмму и график плотности, чтобы оценить форму распределения. В библиотеке seaborn вызовите функцию sns.histplot() с параметром kde=True. Это позволит увидеть, насколько данные близки к нормальной кривой.

Дополните визуальный анализ статистическими тестами. В Python доступны несколько методов, включая тест Шапиро-Уилка и тест Колмогорова-Смирнова. Для выполнения теста Шапиро-Уилка используйте функцию scipy.stats.shapiro(). Если p-значение меньше 0.05, гипотеза о нормальности отклоняется.

Не забывайте о QQ-plot. Этот график сравнивает квантили ваших данных с квантилями нормального распределения. В библиотеке statsmodels используйте функцию qqplot(). Если точки на графике лежат близко к прямой линии, распределение можно считать нормальным.

Сочетайте визуальные и статистические методы для более точного анализа. Это поможет избежать ошибок и получить достоверные результаты.

Методы проверки нормальности распределения

Для проверки нормальности распределения в Python применяйте несколько подходов, чтобы получить точные результаты. Начните с визуальных методов, таких как гистограмма и Q-Q график. Гистограмма покажет форму распределения, а Q-Q график сравнит ваши данные с нормальным распределением. Используйте библиотеку matplotlib для построения графиков.

Дополните визуальный анализ статистическими тестами. Воспользуйтесь тестом Шапиро-Уилка для небольших выборок (до 5000 элементов) и тестом Колмогорова-Смирнова для больших наборов данных. Эти тесты доступны в библиотеке scipy.stats.

Рассмотрите также расчет асимметрии и эксцесса. Нормальное распределение имеет значения, близкие к нулю. Проверьте эти параметры с помощью функций skew и kurtosis из библиотеки scipy.stats.

Метод	Описание	Библиотека
Гистограмма	Визуализация формы распределения	matplotlib
Q-Q график	Сравнение с нормальным распределением	matplotlib, scipy
Тест Шапиро-Уилка	Проверка нормальности для малых выборок	scipy.stats
Тест Колмогорова-Смирнова	Проверка нормальности для больших выборок	scipy.stats
Асимметрия и эксцесс	Оценка отклонения от нормальности	scipy.stats

Статистический тест Шапиро-Уилка

Для проверки нормальности распределения в Python используйте тест Шапиро-Уилка. Этот тест подходит для выборок небольшого размера (до 5000 элементов). В библиотеке SciPy функция shapiro позволяет легко выполнить проверку. Например, для массива данных data вызовите shapiro(data). Результат вернёт статистику и p-value.

Если p-value меньше уровня значимости (обычно 0.05), отвергайте гипотезу о нормальности распределения. В противном случае данные можно считать нормально распределёнными. Учтите, что тест чувствителен к большим объёмам данных: даже незначительные отклонения от нормальности могут привести к низкому p-value.

Для интерпретации результатов учитывайте размер выборки. При малых объёмах данных тест может не выявить отклонения от нормальности, а при больших – наоборот, показать отклонения, которые не имеют практического значения. Если данные не проходят тест, рассмотрите другие методы анализа, не требующие нормальности.

Для работы с большими выборками (более 5000 элементов) используйте тест Колмогорова-Смирнова или визуальные методы, такие как Q-Q график. Тест Шапиро-Уилка остаётся одним из самых популярных инструментов для проверки нормальности благодаря своей простоте и точности.

Тест Колмогорова-Смирнова

Для проверки нормальности распределения с помощью теста Колмогорова-Смирнова в Python используйте функцию kstest из библиотеки scipy.stats. Этот тест сравнивает эмпирическое распределение выборки с теоретическим нормальным распределением.

Импортируйте необходимые модули:

from scipy.stats import kstest, norm
import numpy as np

Создайте выборку данных. Например, сгенерируйте случайные числа:

data = np.random.normal(loc=0, scale=1, size=100)

Выполните тест, указав выборку и функцию нормального распределения:

statistic, p_value = kstest(data, 'norm')

Интерпретируйте результаты. Если p-значение меньше уровня значимости (например, 0.05), отвергните гипотезу о нормальности:

if p_value < 0.05:
print("Распределение не является нормальным")
else:
print("Распределение соответствует нормальному")

Тест Колмогорова-Смирнова чувствителен к различиям в хвостах распределения, поэтому он особенно полезен для больших выборок. Однако для малых выборок рекомендуется дополнять его другими методами, например, визуализацией или тестом Шапиро-Уилка.

Тест Андерсона-Дарлинга

Для проверки нормальности распределения с помощью теста Андерсона-Дарлинга используйте функцию anderson из библиотеки scipy.stats. Этот тест эффективен для анализа выборок, особенно когда требуется высокая точность. Импортируйте библиотеку и примените функцию к вашим данным:

from scipy.stats import anderson result = anderson(ваши_данные)

Функция возвращает статистику теста и критические значения для разных уровней значимости. Сравните полученную статистику с критическими значениями. Если статистика превышает критическое значение для выбранного уровня значимости, отвергайте гипотезу о нормальности распределения.

Пример интерпретации результатов:

print(f"Статистика теста: {result.statistic}") for i in range(len(result.critical_values)): sl, cv = result.significance_level[i], result.critical_values[i] if result.statistic < cv: print(f"На уровне значимости {sl}% данные соответствуют нормальному распределению.") else: print(f"На уровне значимости {sl}% данные не соответствуют нормальному распределению.")

Тест Андерсона-Дарлинга особенно полезен для больших выборок, где другие методы могут быть менее чувствительными. Убедитесь, что данные не содержат выбросов, так как это может повлиять на результаты теста.

Графический анализ: Q-Q графики

Используйте Q-Q график для визуальной проверки нормальности распределения. Этот метод сравнивает квантили вашей выборки с квантилями теоретического нормального распределения. Если точки на графике лежат близко к прямой линии, это говорит о нормальности данных.

Для построения Q-Q графика в Python воспользуйтесь функцией probplot из библиотеки scipy.stats. Импортируйте её и передайте вашу выборку в качестве аргумента. Например:

from scipy.stats import probplot import matplotlib.pyplot as plt probplot(data, plot=plt) plt.show()

Обратите внимание на отклонения точек от прямой линии. Если они значительны, особенно в хвостах распределения, это указывает на отклонение от нормальности. Для более точного анализа используйте Q-Q график совместно с другими методами, например, тестом Шапиро-Уилка.

Если данные не соответствуют нормальному распределению, рассмотрите возможность их преобразования. Например, логарифмирование или квадратный корень могут улучшить нормальность. После преобразования повторите построение Q-Q графика для проверки.

Практическое применение в Python

Для проверки нормальности распределения в Python используйте библиотеку scipy.stats. Начните с импорта необходимых модулей:

import numpy as np
import scipy.stats as stats
import matplotlib.pyplot as plt

Создайте выборку данных, например, с помощью np.random.normal:

data = np.random.normal(loc=0, scale=1, size=100)

Примените тест Шапиро-Уилка для проверки нормальности:

stat, p = stats.shapiro(data)
print(f"Статистика: {stat}, p-значение: {p}")

Если p-значение больше 0.05, распределение можно считать нормальным. Для визуализации используйте гистограмму и график Q-Q:

plt.hist(data, bins=10, density=True, alpha=0.6, color='g')
stats.probplot(data, dist="norm", plot=plt)
plt.show()

Для больших выборок (n > 50) используйте тест Колмогорова-Смирнова:

stat, p = stats.kstest(data, 'norm')
print(f"Статистика: {stat}, p-значение: {p}")

Дополнительно можно применить тест Андерсона-Дарлинга, который чувствителен к отклонениям в хвостах распределения:

result = stats.anderson(data, dist='norm')
print(f"Статистика: {result.statistic}, критические значения: {result.critical_values}")

Сравните статистику с критическими значениями на выбранном уровне значимости. Если она превышает критическое значение, распределение не является нормальным.

Для анализа данных в реальных проектах сочетайте статистические тесты с визуализацией. Это поможет точнее интерпретировать результаты и избежать ошибок.

Установка необходимых библиотек

Для проверки нормальности распределения в Python потребуются библиотеки NumPy, SciPy, Matplotlib и Pandas. Установите их с помощью команды pip:

pip install numpy scipy matplotlib pandas

Если вы планируете использовать визуализацию данных, добавьте библиотеку Seaborn, которая упрощает создание графиков:

pip install seaborn

Для проверки нормальности часто применяют тесты Шапиро-Уилка и Колмогорова-Смирнова, которые доступны в SciPy. Убедитесь, что эта библиотека установлена корректно, так как она предоставляет необходимые статистические функции.

Если вы работаете в среде Jupyter Notebook, установите IPython для удобного отображения графиков и результатов:

pip install ipython

После установки всех библиотек импортируйте их в ваш скрипт:

import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
from scipy import stats

Теперь вы готовы к работе с данными и проверке их на нормальность распределения.

Пример использования теста Шапиро-Уилка

Для проверки нормальности распределения данных в Python примените тест Шапиро-Уилка с помощью функции shapiro из библиотеки scipy.stats. Создайте массив данных, например, сгенерированный случайным образом с использованием numpy.random.normal, и передайте его в функцию. Пример кода:

import numpy as np
from scipy.stats import shapiro
# Генерация случайных данных с нормальным распределением
data = np.random.normal(0, 1, 100)
# Проведение теста Шапиро-Уилка
stat, p = shapiro(data)
print(f"Статистика: {stat}, p-значение: {p}")

Если p-значение больше 0.05, гипотеза о нормальности распределения не отвергается. В противном случае данные не соответствуют нормальному распределению. Убедитесь, что размер выборки не превышает 5000 элементов, так как тест Шапиро-Уилка теряет точность на больших объемах данных.

Для визуализации данных используйте гистограмму или график Q-Q, чтобы дополнительно оценить их распределение. Это поможет подтвердить результаты теста и лучше понять структуру данных.

Визуализация результатов

Используйте гистограмму с наложенной кривой плотности для визуальной оценки формы распределения. В библиотеке Seaborn вызовите функцию sns.histplot с параметром kde=True. Это покажет, насколько данные близки к нормальному распределению. Например: sns.histplot(data, kde=True).

Добавьте график Q-Q (квантиль-квантиль) для более точной проверки. С помощью stats.probplot из SciPy постройте график, где сравниваются квантили выборки с квантилями нормального распределения. Если точки лежат близко к прямой линии, распределение можно считать нормальным. Пример: stats.probplot(data, plot=plt).

Для удобства объедините оба графика в одной фигуре с помощью plt.subplots. Это позволит сравнить результаты на одном экране. Используйте plt.subplot(1, 2, 1) для гистограммы и plt.subplot(1, 2, 2) для Q-Q графика.

Если данные содержат выбросы, добавьте boxplot для их визуализации. Вызовите sns.boxplot(data), чтобы увидеть аномальные значения, которые могут повлиять на нормальность распределения.

При работе с большими наборами данных используйте sns.kdeplot для построения кривой плотности без гистограммы. Это упростит анализ формы распределения, особенно если данных много.

Сравнение нескольких тестов на одном наборе данных

Для проверки нормальности распределения используйте несколько тестов одновременно, чтобы получить более точный результат. Например, примените тест Шапиро-Уилка, критерий Колмогорова-Смирнова и анализ гистограммы с линией плотности на одном и том же наборе данных.

Загрузите данные и проведите тест Шапиро-Уилка с помощью функции shapiro из библиотеки scipy.stats. Если p-значение больше 0.05, данные можно считать нормально распределёнными. Затем выполните тест Колмогорова-Смирнова с функцией kstest, указав нормальное распределение в качестве эталона. Сравните результаты обоих тестов.

Дополните анализ визуализацией. Постройте гистограмму с помощью matplotlib и добавьте линию плотности нормального распределения. Это поможет оценить форму данных и выявить отклонения.

Если результаты тестов противоречат друг другу, изучите размер выборки. Тест Шапиро-Уилка чувствителен к большим объёмам данных, а критерий Колмогорова-Смирнова может быть менее точным для малых выборок. В таких случаях ориентируйтесь на визуальный анализ и дополнительные метрики, например, асимметрию и эксцесс.