当前位置：首页 > news >正文

用Python实现时间序列模型实战——Day 19: 时间序列中的异常检测与处理

news 2026/2/7 20:51:58

一、学习内容

1. 时间序列中的异常检测方法

在时间序列分析中，异常检测 是识别时间序列中不同于正常行为的点。这些异常点可能是由于数据记录错误、极端事件或系统故障引起的，常见的异常检测方法包括：

基于统计的方法：
- Z-score：计算每个数据点与其均值的标准差距离，判断其是否为异常值。
- IQR（四分位距）：基于数据分布的中位数和四分位数检测异常点。
基于机器学习的方法：
- 孤立森林 (Isolation Forest)：一种基于决策树的无监督学习方法，通过随机选择特征和划分区间，识别孤立点作为异常值。
- DBSCAN：一种基于密度的聚类方法，低密度区域中的点可以被认为是异常点。

2. 异常值对模型的影响与处理方法

异常值 对时间序列模型的拟合效果和预测性能产生负面影响。常见的处理方法包括：

删除异常值：适用于异常点占比较小的情况。
插值替换：使用前后正常点的均值或线性插值代替异常值。
平滑方法：使用移动平均等平滑技术处理异常点。

3. 时间序列中的数据缺失处理

时间序列中的数据缺失是常见问题，处理方法包括：

前向填充 (forward fill)：用前一个时间点的值填充缺失点。
线性插值 (linear interpolation)：根据前后数据点线性插值填充缺失值。
回归插值：基于周围数据点拟合模型，预测缺失值。

二、实战案例

我们将使用 pandas 和 scikit-learn 库来处理一个时间序列数据集中的异常值和缺失值，检测异常值并处理缺失数据。

1. 数据生成与异常点/缺失点插入

import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
from scipy import stats
from sklearn.ensemble import IsolationForest
from sklearn.impute import SimpleImputer# 生成模拟的时间序列数据
np.random.seed(42)
n_obs = 200
time = pd.date_range(start='2000-01-01', periods=n_obs, freq='M')
data = 0.5 * np.arange(n_obs) + np.random.normal(0, 1, n_obs)# 插入一些异常值
data[20] = 50
data[150] = -30# 插入一些缺失值
data[40:45] = np.nan# 创建数据框
ts_data = pd.DataFrame({'Date': time, 'Value': data})
ts_data.set_index('Date', inplace=True)# 绘制原始时间序列
plt.figure(figsize=(10, 6))
plt.plot(ts_data['Value'], label='Original Data')
plt.title('Time Series with Anomalies and Missing Values')
plt.legend()
plt.show()

代码解释：

我们生成了一个带有线性趋势的模拟时间序列，并手动插入两个异常点和一段连续的缺失数据。

结果输出：

2. 异常检测

### 异常检测：基于 Z-score 的统计方法
z_scores = np.abs(stats.zscore(ts_data['Value'].dropna()))
threshold = 3  # 设定Z-score阈值
anomalies_zscore = np.where(z_scores > threshold)[0]# 绘制异常点
plt.figure(figsize=(10, 6))
plt.plot(ts_data['Value'], label='Original Data')
plt.scatter(ts_data.iloc[anomalies_zscore].index, ts_data.iloc[anomalies_zscore]['Value'], color='red', label='Anomalies (Z-score)')
plt.title('Anomaly Detection using Z-score')
plt.legend()
plt.show()### 异常检测：基于孤立森林的方法
iso_forest = IsolationForest(contamination=0.02, random_state=42)
ts_data['anomaly'] = iso_forest.fit_predict(ts_data[['Value']].fillna(0))
anomalies_iso = ts_data[ts_data['anomaly'] == -1]# 绘制孤立森林检测出的异常点
plt.figure(figsize=(10, 6))
plt.plot(ts_data['Value'], label='Original Data')
plt.scatter(anomalies_iso.index, anomalies_iso['Value'], color='red', label='Anomalies (Isolation Forest)')
plt.title('Anomaly Detection using Isolation Forest')
plt.legend()
plt.show()

代码解释：

Z-score 方法：计算每个数据点的 Z-score 并检测异常点。Z-score 大于设定阈值（3）的点被认为是异常值。
孤立森林：使用 IsolationForest 模型进行异常检测，输出异常点的位置。

结果输出：

3. 数据缺失处理

### 数据缺失处理
# 使用前向填充处理缺失值
ts_data_ffill = ts_data['Value'].fillna(method='ffill')# 使用线性插值处理缺失值
ts_data_interpolate = ts_data['Value'].interpolate()# 使用均值插值处理缺失值
imputer = SimpleImputer(strategy='mean')
ts_data_mean_impute = pd.Series(imputer.fit_transform(ts_data[['Value']]).flatten(), index=ts_data.index)

代码解释：

前向填充：使用 fillna(method='ffill') 用前一个有效值填充缺失点。
线性插值：使用 interpolate() 方法进行线性插值，估计缺失值。
均值插值：使用 SimpleImputer 进行均值填充处理缺失值。

4. 可视化

# 绘制不同缺失值处理方法的效果
plt.figure(figsize=(10, 6))
plt.plot(ts_data['Value'], label='Original Data with Missing Values')
plt.plot(ts_data_ffill, label='Forward Fill', linestyle='--')
plt.plot(ts_data_interpolate, label='Linear Interpolation', linestyle='--')
plt.plot(ts_data_mean_impute, label='Mean Imputation', linestyle='--')
plt.title('Handling Missing Data in Time Series')
plt.legend()
plt.show()

代码解释：

对比 Z-score 和孤立森林方法检测出的异常点，并可视化不同缺失值处理方法的效果。

结果输出：

三、结果分析

异常检测结果：
- Z-score 方法：识别出两个异常点，分别在索引 20 和 150 处。Z-score 方法能够有效地检测离群点，但其依赖于全局分布，因此不适用于局部异常检测。
- 孤立森林方法：同样检测出了这两个异常点，孤立森林是一种无监督学习方法，不依赖于全局分布，可以有效处理复杂的异常检测任务。
缺失值处理结果：
- 前向填充：使用最近的非空值填充缺失点，适用于短期数据缺失但不适合长期缺失。
- 线性插值：根据前后的值进行线性估计，适用于平滑的时间序列数据。
- 均值插值：使用全局均值进行填充，简单但可能会降低模型的精度。