update

2025-12-13 08:26:43 +00:00 · 2020-05-02 10:17:38 +08:00
parent edf61d117d
commit 4bd70489c5
2 changed files with 69 additions and 60 deletions
--- a/train.py
+++ b/train.py
@@ -2,7 +2,6 @@ from pandas import DataFrame
 from pandas import Series
 from pandas import concat
 from pandas import read_csv
-from pandas import datetime
 from sklearn.metrics import mean_squared_error
 from sklearn.preprocessing import MinMaxScaler
 from keras.models import Sequential
@@ -12,18 +11,13 @@ from math import sqrt
 import numpy


-# date-time parsing function for loading the dataset
-def parser(x):
-	return datetime.strptime('190' + x, '%Y-%m')
-
-
 # frame a sequence as a supervised learning problem
 def timeseries_to_supervised(data, lag=1):
 	df = DataFrame(data)
 	columns = [df.shift(i) for i in range(1, lag + 1)]
 	columns.append(df)
 	df = concat(columns, axis=1)
-	df.fillna(0, inplace=True)
+	df = df.drop(0)
 	return df


@@ -56,8 +50,8 @@ def scale(train, test):


 # inverse scaling for a forecasted value
-def invert_scale(scaler, X, value):
-	new_row = [x for x in X] + [value]
+def invert_scale(scaler, X, yhat):
+	new_row = [x for x in X] + [yhat]
 	array = numpy.array(new_row)
 	array = array.reshape(1, len(array))
 	inverted = scaler.inverse_transform(array)
@@ -73,7 +67,6 @@ def fit_lstm(train, batch_size, nb_epoch, neurons):
 	model.add(Dense(1))
 	model.compile(loss='mean_squared_error', optimizer='adam')
 	for i in range(nb_epoch):
-		print("Epoch {}/{}".format(i, nb_epoch))
 		model.fit(X, y, epochs=1, batch_size=batch_size, verbose=0, shuffle=False)
 		model.reset_states()
 	return model
@@ -86,44 +79,62 @@ def forecast_lstm(model, batch_size, X):
 	return yhat[0, 0]


+# run a repeated experiment
+def experiment(repeats, series, seed):
+	# transform data to be stationary
+	raw_values = series.values
+	diff_values = difference(raw_values, 1)
+	# transform data to be supervised learning
+	supervised = timeseries_to_supervised(diff_values, 1)
+	supervised_values = supervised.values
+	# split data into train and test-sets
+	train, test = supervised_values[0:-12], supervised_values[-12:]
+	# transform the scale of the data
+	scaler, train_scaled, test_scaled = scale(train, test)
+	# run experiment
+	error_scores = list()
+	for r in range(repeats):
+		# fit the model
+		batch_size = 4
+		train_trimmed = train_scaled[2:, :]
+		lstm_model = fit_lstm(train_trimmed, batch_size, 3000, 4)
+		# forecast the entire training dataset to build up state for forecasting
+		if seed:
+			train_reshaped = train_trimmed[:, 0].reshape(len(train_trimmed), 1, 1)
+			lstm_model.predict(train_reshaped, batch_size=batch_size)
+		# forecast test dataset
+		test_reshaped = test_scaled[:, 0:-1]
+		test_reshaped = test_reshaped.reshape(len(test_reshaped), 1, 1)
+		output = lstm_model.predict(test_reshaped, batch_size=batch_size)
+		predictions = list()
+		for i in range(len(output)):
+			yhat = output[i, 0]
+			X = test_scaled[i, 0:-1]
+			# invert scaling
+			yhat = invert_scale(scaler, X, yhat)
+			# invert differencing
+			yhat = inverse_difference(raw_values, yhat, len(test_scaled) + 1 - i)
+			# store forecast
+			predictions.append(yhat)
+		# report performance
+		rmse = sqrt(mean_squared_error(raw_values[-12:], predictions))
+		print('%d) Test RMSE: %.3f' % (r + 1, rmse))
+		error_scores.append(rmse)
+	return error_scores
+
+
 # load dataset
 series = read_csv('data.csv', header=0, index_col=0, squeeze=True)
-
-# transform data to be stationary
-raw_values = series.values
-diff_values = difference(raw_values, 1)
-
-# transform data to be supervised learning
-supervised = timeseries_to_supervised(diff_values, 1)
-supervised_values = supervised.values
-
-# split data into train and test-sets
-train, test = supervised_values[0:-12], supervised_values[-12:]
-
-# transform the scale of the data
-scaler, train_scaled, test_scaled = scale(train, test)
-
-# fit the model
-lstm_model = fit_lstm(train_scaled, 1, 30, 4)
-# forecast the entire training dataset to build up state for forecasting
-train_reshaped = train_scaled[:, 0].reshape(len(train_scaled), 1, 1)
-lstm_model.predict(train_reshaped, batch_size=1)
-
-# walk-forward validation on the test data
-predictions = list()
-for j in range(len(test_scaled)):
-	# make one-step forecast
-	X, y = test_scaled[j, 0:-1], test_scaled[j, -1]
-	yhat = forecast_lstm(lstm_model, 1, X)
-	# invert scaling
-	yhat = invert_scale(scaler, X, yhat)
-	# invert differencing
-	yhat = inverse_difference(raw_values, yhat, len(test_scaled) + 1 - j)
-	# store forecast
-	predictions.append(yhat)
-	expected = raw_values[len(train) + j + 1]
-	print('Month=%d, Predicted=%f, Expected=%f' % (j + 1, yhat, expected))
-
-# report performance
-rmse = sqrt(mean_squared_error(raw_values[-12:], predictions))
-print('Test RMSE: %.3f' % rmse)
+# experiment
+repeats = 30
+results = DataFrame()
+# with seeding
+with_seed = experiment(repeats, series, True)
+results['with-seed'] = with_seed
+# without seeding
+without_seed = experiment(repeats, series, False)
+results['without-seed'] = without_seed
+# summarize results
+print(results.describe())
+# save boxplot
+results.boxplot()