update, add random forest

2026-05-07 09:25:07 +00:00 · 2020-06-24 22:55:42 +08:00
parent 0c6f6eec11
commit bf46dae01e
4 changed files with 633 additions and 283 deletions
--- a/.idea/workspace.xml
+++ b/.idea/workspace.xml
@@ -3,7 +3,6 @@
  <component name="ChangeListManager">
    <list default="true" id="0aedafd8-e57e-462a-beda-65af0b91f3df" name="Default Changelist" comment="">
      <change beforePath="$PROJECT_DIR$/.idea/workspace.xml" beforeDir="false" afterPath="$PROJECT_DIR$/.idea/workspace.xml" afterDir="false" />
-      <change beforePath="$PROJECT_DIR$/README.md" beforeDir="false" afterPath="$PROJECT_DIR$/README.md" afterDir="false" />
    </list>
    <ignored path="$PROJECT_DIR$/out/" />
    <option name="EXCLUDED_CONVERTED_TO_IGNORED" value="true" />
@@ -16,10 +15,11 @@
    <session id="570274097">
      <usages-collector id="statistics.lifecycle.project">
        <counts>
-          <entry key="project.closed" value="2" />
+          <entry key="project.closed" value="3" />
          <entry key="project.open.time.1" value="3" />
+          <entry key="project.open.time.2" value="1" />
          <entry key="project.open.time.3" value="1" />
-          <entry key="project.opened" value="4" />
+          <entry key="project.opened" value="5" />
        </counts>
      </usages-collector>
      <usages-collector id="statistics.file.extensions.open">
@@ -30,7 +30,7 @@
          <entry key="iml" value="1" />
          <entry key="md" value="2" />
          <entry key="png" value="7" />
-          <entry key="py" value="7" />
+          <entry key="py" value="11" />
          <entry key="sh" value="3" />
          <entry key="txt" value="2" />
        </counts>
@@ -43,7 +43,7 @@
          <entry key="Image" value="7" />
          <entry key="Markdown" value="2" />
          <entry key="PLAIN_TEXT" value="8" />
-          <entry key="Python" value="7" />
+          <entry key="Python" value="11" />
        </counts>
      </usages-collector>
      <usages-collector id="statistics.file.extensions.edit">
@@ -51,8 +51,8 @@
          <entry key="Dockerfile" value="81" />
          <entry key="csv" value="9" />
          <entry key="gitignore" value="12" />
-          <entry key="md" value="232" />
-          <entry key="py" value="4400" />
+          <entry key="md" value="234" />
+          <entry key="py" value="5489" />
          <entry key="sh" value="5" />
        </counts>
      </usages-collector>
@@ -60,100 +60,29 @@
        <counts>
          <entry key="Bash" value="5" />
          <entry key="Dockerfile" value="81" />
-          <entry key="Markdown" value="232" />
+          <entry key="Markdown" value="234" />
          <entry key="PLAIN_TEXT" value="21" />
-          <entry key="Python" value="4400" />
+          <entry key="Python" value="5489" />
        </counts>
      </usages-collector>
    </session>
  </component>
  <component name="FileEditorManager">
    <leaf SIDE_TABS_SIZE_LIMIT_KEY="300">
+      <file pinned="false" current-in-tab="true">
+        <entry file="file://$PROJECT_DIR$/serve_rf.py">
+          <provider selected="true" editor-type-id="text-editor">
+            <state relative-caret-position="165">
+              <caret line="11" column="16" lean-forward="true" selection-start-line="11" selection-start-column="16" selection-end-line="11" selection-end-column="16" />
+            </state>
+          </provider>
+        </entry>
+      </file>
      <file pinned="false" current-in-tab="false">
-        <entry file="file://$PROJECT_DIR$/main.py">
+        <entry file="file://$PROJECT_DIR$/rf.py">
          <provider selected="true" editor-type-id="text-editor">
            <state relative-caret-position="90">
-              <caret line="6" selection-start-line="6" selection-end-line="6" />
-              <folding>
-                <element signature="e#0#19#0" expanded="true" />
-              </folding>
-            </state>
-          </provider>
-        </entry>
-      </file>
-      <file pinned="false" current-in-tab="false">
-        <entry file="file://$PROJECT_DIR$/.gitignore">
-          <provider selected="true" editor-type-id="text-editor">
-            <state relative-caret-position="30">
-              <caret line="2" selection-start-line="2" selection-end-line="2" />
-            </state>
-          </provider>
-        </entry>
-      </file>
-      <file pinned="false" current-in-tab="false">
-        <entry file="file://$PROJECT_DIR$/serve.py">
-          <provider selected="true" editor-type-id="text-editor">
-            <state relative-caret-position="414">
-              <caret line="211" column="31" selection-start-line="211" selection-start-column="31" selection-end-line="211" selection-end-column="31" />
-              <folding>
-                <element signature="e#18#46#0" expanded="true" />
-                <marker date="1588426314177" expanded="true" signature="1271:1274" ph="..." />
-                <marker date="1588426314177" expanded="true" signature="3519:3521" ph="..." />
-              </folding>
-            </state>
-          </provider>
-        </entry>
-      </file>
-      <file pinned="false" current-in-tab="false">
-        <entry file="file://$PROJECT_DIR$/Dockerfile">
-          <provider selected="true" editor-type-id="text-editor">
-            <state relative-caret-position="255">
-              <caret line="17" column="7" selection-start-line="17" selection-start-column="7" selection-end-line="17" selection-end-column="7" />
-            </state>
-          </provider>
-        </entry>
-      </file>
-      <file pinned="false" current-in-tab="false">
-        <entry file="file://$PROJECT_DIR$/train.py">
-          <provider selected="true" editor-type-id="text-editor">
-            <state relative-caret-position="960">
-              <caret line="64" column="22" selection-start-line="64" selection-start-column="12" selection-end-line="64" selection-end-column="22" />
-              <folding>
-                <element signature="e#0#28#0" expanded="true" />
-              </folding>
-            </state>
-          </provider>
-        </entry>
-      </file>
-      <file pinned="false" current-in-tab="true">
-        <entry file="file://$PROJECT_DIR$/README.md">
-          <provider selected="true" editor-type-id="split-provider[text-editor;markdown-preview-editor]">
-            <state split_layout="SPLIT">
-              <first_editor relative-caret-position="336">
-                <caret line="31" column="26" selection-start-line="31" selection-start-column="26" selection-end-line="31" selection-end-column="26" />
-              </first_editor>
-              <second_editor />
-            </state>
-          </provider>
-        </entry>
-      </file>
-      <file pinned="false" current-in-tab="false">
-        <entry file="file://$PROJECT_DIR$/bootstrap.sh">
-          <provider selected="true" editor-type-id="text-editor">
-            <state relative-caret-position="30">
-              <caret line="2" column="22" selection-start-line="2" selection-start-column="22" selection-end-line="2" selection-end-column="22" />
-            </state>
-          </provider>
-        </entry>
-      </file>
-      <file pinned="false" current-in-tab="false">
-        <entry file="file://$PROJECT_DIR$/model_tensorflow.py">
-          <provider selected="true" editor-type-id="text-editor">
-            <state relative-caret-position="480">
-              <caret line="32" column="58" selection-start-line="32" selection-start-column="58" selection-end-line="32" selection-end-column="58" />
-              <folding>
-                <element signature="e#0#23#0" expanded="true" />
-              </folding>
+              <caret line="7" column="36" lean-forward="true" selection-start-line="7" selection-start-column="36" selection-end-line="7" selection-end-column="36" />
            </state>
          </provider>
        </entry>
@@ -185,6 +114,10 @@
      <find>12</find>
      <find>32</find>
      <find>forecast_lstm</find>
+      <find>csv</find>
+      <find>joblib</find>
+      <find>traceback</find>
+      <find>models[job]</find>
    </findStrings>
  </component>
  <component name="Git.Settings">
@@ -204,8 +137,10 @@
        <option value="$PROJECT_DIR$/data/data2.csv" />
        <option value="$PROJECT_DIR$/data/data3.csv" />
        <option value="$PROJECT_DIR$/train.py" />
-        <option value="$PROJECT_DIR$/serve.py" />
        <option value="$PROJECT_DIR$/README.md" />
+        <option value="$PROJECT_DIR$/rf.py" />
+        <option value="$PROJECT_DIR$/serve.py" />
+        <option value="$PROJECT_DIR$/serve_rf.py" />
      </list>
    </option>
  </component>
@@ -225,6 +160,7 @@
    </navigator>
    <panes>
      <pane id="Scope" />
+      <pane id="PackagesPane" />
      <pane id="AndroidView" />
      <pane id="ProjectPane">
        <subPane>
@@ -242,13 +178,12 @@
          <select />
        </subPane>
      </pane>
-      <pane id="PackagesPane" />
    </panes>
  </component>
  <component name="PropertiesComponent">
    <property name="WebServerToolWindowFactoryState" value="false" />
    <property name="aspect.path.notification.shown" value="true" />
-    <property name="com.android.tools.idea.instantapp.provision.ProvisionBeforeRunTaskProvider.myTimeStamp" value="1588422524280" />
+    <property name="com.android.tools.idea.instantapp.provision.ProvisionBeforeRunTaskProvider.myTimeStamp" value="1593010427833" />
    <property name="go.gopath.indexing.explicitly.defined" value="true" />
    <property name="nodejs_interpreter_path.stuck_in_default_project" value="undefined stuck path" />
    <property name="nodejs_npm_path_reset_for_default_project" value="true" />
@@ -259,13 +194,13 @@
    <property name="settings.editor.selected.configurable" value="http.proxy" />
  </component>
  <component name="RecentsManager">
+    <key name="CopyFile.RECENT_KEYS">
+      <recent name="$PROJECT_DIR$" />
+    </key>
    <key name="MoveFile.RECENT_KEYS">
      <recent name="$PROJECT_DIR$" />
      <recent name="$PROJECT_DIR$/model" />
    </key>
-    <key name="CopyFile.RECENT_KEYS">
-      <recent name="$PROJECT_DIR$" />
-    </key>
  </component>
  <component name="RunDashboard">
    <option name="ruleStates">
@@ -292,12 +227,13 @@
      <workItem from="1588152880522" duration="16973000" />
      <workItem from="1588319878551" duration="41219000" />
      <workItem from="1588426002721" duration="336000" />
-      <workItem from="1588427782140" duration="237000" />
+      <workItem from="1588427782140" duration="326000" />
+      <workItem from="1592809729651" duration="9303000" />
    </task>
    <servers />
  </component>
  <component name="TimeTrackingManager">
-    <option name="totallyTimeSpent" value="58765000" />
+    <option name="totallyTimeSpent" value="68157000" />
  </component>
  <component name="ToolWindowManager">
    <frame x="0" y="0" width="1280" height="800" extended-state="0" />
@@ -308,10 +244,10 @@
      <window_info id="Capture Tool" order="2" />
      <window_info id="Favorites" order="3" side_tool="true" />
      <window_info id="Image Layers" order="4" />
-      <window_info content_ui="combo" id="Project" order="5" sideWeight="0.49898168" visible="true" weight="0.26171243" />
+      <window_info active="true" content_ui="combo" id="Project" order="5" sideWeight="0.49898168" visible="true" weight="0.2657512" />
      <window_info id="Structure" order="6" sideWeight="0.50101835" side_tool="true" weight="0.24959612" />
      <window_info anchor="bottom" id="Version Control" order="0" />
-      <window_info active="true" anchor="bottom" id="Terminal" order="1" visible="true" weight="0.32739726" />
+      <window_info anchor="bottom" id="Terminal" order="1" visible="true" weight="0.32739726" />
      <window_info anchor="bottom" id="Event Log" order="2" side_tool="true" />
      <window_info anchor="bottom" id="Database Changes" order="3" show_stripe_button="false" />
      <window_info anchor="bottom" id="Docker" order="4" show_stripe_button="false" />
@@ -382,7 +318,7 @@
    </entry>
    <entry file="file://$PROJECT_DIR$/main.py">
      <provider selected="true" editor-type-id="text-editor">
-        <state relative-caret-position="90">
+        <state relative-caret-position="30">
          <caret line="6" selection-start-line="6" selection-end-line="6" />
          <folding>
            <element signature="e#0#19#0" expanded="true" />
@@ -406,7 +342,7 @@
    </entry>
    <entry file="file://$PROJECT_DIR$/train.py">
      <provider selected="true" editor-type-id="text-editor">
-        <state relative-caret-position="960">
+        <state relative-caret-position="810">
          <caret line="64" column="22" selection-start-line="64" selection-start-column="12" selection-end-line="64" selection-end-column="22" />
          <folding>
            <element signature="e#0#28#0" expanded="true" />
@@ -423,7 +359,7 @@
    </entry>
    <entry file="file://$PROJECT_DIR$/model_tensorflow.py">
      <provider selected="true" editor-type-id="text-editor">
-        <state relative-caret-position="480">
+        <state relative-caret-position="465">
          <caret line="32" column="58" selection-start-line="32" selection-start-column="58" selection-end-line="32" selection-end-column="58" />
          <folding>
            <element signature="e#0#23#0" expanded="true" />
@@ -431,25 +367,38 @@
        </state>
      </provider>
    </entry>
+    <entry file="file://$PROJECT_DIR$/README.md">
+      <provider selected="true" editor-type-id="split-provider[text-editor;markdown-preview-editor]">
+        <state split_layout="SPLIT">
+          <first_editor relative-caret-position="480">
+            <caret line="32" selection-start-line="32" selection-end-line="32" />
+          </first_editor>
+          <second_editor />
+        </state>
+      </provider>
+    </entry>
    <entry file="file://$PROJECT_DIR$/serve.py">
      <provider selected="true" editor-type-id="text-editor">
-        <state relative-caret-position="414">
-          <caret line="211" column="31" selection-start-line="211" selection-start-column="31" selection-end-line="211" selection-end-column="31" />
+        <state relative-caret-position="210">
+          <caret line="14" column="27" lean-forward="true" selection-start-line="14" selection-start-column="27" selection-end-line="14" selection-end-column="27" />
          <folding>
-            <element signature="e#18#46#0" expanded="true" />
            <marker date="1588426314177" expanded="true" signature="1271:1274" ph="..." />
            <marker date="1588426314177" expanded="true" signature="3519:3521" ph="..." />
          </folding>
        </state>
      </provider>
    </entry>
-    <entry file="file://$PROJECT_DIR$/README.md">
-      <provider selected="true" editor-type-id="split-provider[text-editor;markdown-preview-editor]">
-        <state split_layout="SPLIT">
-          <first_editor relative-caret-position="336">
-            <caret line="31" column="26" selection-start-line="31" selection-start-column="26" selection-end-line="31" selection-end-column="26" />
-          </first_editor>
-          <second_editor />
+    <entry file="file://$PROJECT_DIR$/rf.py">
+      <provider selected="true" editor-type-id="text-editor">
+        <state relative-caret-position="90">
+          <caret line="7" column="36" lean-forward="true" selection-start-line="7" selection-start-column="36" selection-end-line="7" selection-end-column="36" />
+        </state>
+      </provider>
+    </entry>
+    <entry file="file://$PROJECT_DIR$/serve_rf.py">
+      <provider selected="true" editor-type-id="text-editor">
+        <state relative-caret-position="165">
+          <caret line="11" column="16" lean-forward="true" selection-start-line="11" selection-start-column="16" selection-end-line="11" selection-end-column="16" />
        </state>
      </provider>
    </entry>
--- a/rf.py
+++ b/rf.py
@@ -0,0 +1,149 @@
+# _*_coding:utf-8_*_
+import numpy as np
+import pandas as pd
+
+
+def load_data(trainfile, testfile):
+	traindata = pd.read_csv(trainfile)
+	testdata = pd.read_csv(testfile)
+	feature_data = traindata.iloc[:, 1:-1]
+	label_data = traindata.iloc[:, -1]
+	test_feature = testdata.iloc[:, 1:]
+	return feature_data, label_data, test_feature
+
+
+def random_forest_train(feature_data, label_data, test_feature, submitfile):
+	from sklearn.ensemble import RandomForestRegressor
+	from sklearn.model_selection import train_test_split
+	from sklearn.metrics import mean_squared_error
+
+	X_train, X_test, y_train, y_test = train_test_split(feature_data, label_data, test_size=0.01)
+	params = {
+		'n_estimators': 70,
+		'max_depth': 13,
+		'min_samples_split': 10,
+		'min_samples_leaf': 5,  # 10
+		'max_features': 7
+	}
+	print(X_test)
+	model = RandomForestRegressor(**params)
+	model.fit(X_train, y_train)
+	# 对测试集进行预测
+	y_pred = model.predict(X_test)
+	# 计算准确率
+	MSE = mean_squared_error(y_test, y_pred)
+	RMSE = np.sqrt(MSE)
+	print(RMSE)
+
+	submit = pd.read_csv(submitfile)
+	print(submit)
+	print(model.predict(test_feature))
+	submit['CPU'] = model.predict(test_feature)
+	submit.to_csv('my_random_forest_prediction1.csv', index=False)
+	print(submit)
+
+
+def random_forest_parameter_tuning1(feature_data, label_data, test_feature):
+	from sklearn.ensemble import RandomForestRegressor
+	from sklearn.model_selection import train_test_split
+	from sklearn.metrics import mean_squared_error
+	from sklearn.model_selection import GridSearchCV
+
+	X_train, X_test, y_train, y_test = train_test_split(feature_data, label_data, test_size=0.23)
+	param_test1 = {
+		'n_estimators': range(10, 71, 10)
+	}
+	model = GridSearchCV(estimator=RandomForestRegressor(
+		min_samples_split=100, min_samples_leaf=20, max_depth=8, max_features='sqrt',
+		random_state=10), param_grid=param_test1, cv=5
+	)
+	model.fit(X_train, y_train)
+	# 对测试集进行预测
+	y_pred = model.predict(X_test)
+	# 计算准确率
+	MSE = mean_squared_error(y_test, y_pred)
+	RMSE = np.sqrt(MSE)
+	print(RMSE)
+	return model.best_score_, model.best_params_
+
+
+def random_forest_parameter_tuning2(feature_data, label_data, test_feature):
+	from sklearn.ensemble import RandomForestRegressor
+	from sklearn.model_selection import train_test_split
+	from sklearn.metrics import mean_squared_error
+	from sklearn.model_selection import GridSearchCV
+
+	X_train, X_test, y_train, y_test = train_test_split(feature_data, label_data, test_size=0.23)
+	param_test2 = {
+		'max_depth': range(3, 14, 2),
+		'min_samples_split': range(50, 201, 20)
+	}
+	model = GridSearchCV(estimator=RandomForestRegressor(
+		n_estimators=70, min_samples_leaf=20, max_features='sqrt', oob_score=True,
+		random_state=10), param_grid=param_test2, cv=5
+	)
+	model.fit(X_train, y_train)
+	# 对测试集进行预测
+	y_pred = model.predict(X_test)
+	# 计算准确率
+	MSE = mean_squared_error(y_test, y_pred)
+	RMSE = np.sqrt(MSE)
+	print(RMSE)
+	return model.best_score_, model.best_params_
+
+
+def random_forest_parameter_tuning3(feature_data, label_data, test_feature):
+	from sklearn.ensemble import RandomForestRegressor
+	from sklearn.model_selection import train_test_split
+	from sklearn.metrics import mean_squared_error
+	from sklearn.model_selection import GridSearchCV
+
+	X_train, X_test, y_train, y_test = train_test_split(feature_data, label_data, test_size=0.23)
+	param_test3 = {
+		'min_samples_split': range(10, 90, 20),
+		'min_samples_leaf': range(10, 60, 10),
+	}
+	model = GridSearchCV(estimator=RandomForestRegressor(
+		n_estimators=70, max_depth=13, max_features='sqrt', oob_score=True,
+		random_state=10), param_grid=param_test3, cv=5
+	)
+	model.fit(X_train, y_train)
+	# 对测试集进行预测
+	y_pred = model.predict(X_test)
+	# 计算准确率
+	MSE = mean_squared_error(y_test, y_pred)
+	RMSE = np.sqrt(MSE)
+	print(RMSE)
+	return model.best_score_, model.best_params_
+
+
+def random_forest_parameter_tuning4(feature_data, label_data, test_feature):
+	from sklearn.ensemble import RandomForestRegressor
+	from sklearn.model_selection import train_test_split
+	from sklearn.metrics import mean_squared_error
+	from sklearn.model_selection import GridSearchCV
+
+	X_train, X_test, y_train, y_test = train_test_split(feature_data, label_data, test_size=0.23)
+	param_test4 = {
+		'max_features': range(3, 9, 2)
+	}
+	model = GridSearchCV(estimator=RandomForestRegressor(
+		n_estimators=70, max_depth=13, min_samples_split=10, min_samples_leaf=10, oob_score=True,
+		random_state=10), param_grid=param_test4, cv=5
+	)
+	model.fit(X_train, y_train)
+	# 对测试集进行预测
+	y_pred = model.predict(X_test)
+	# 计算准确率
+	MSE = mean_squared_error(y_test, y_pred)
+	RMSE = np.sqrt(MSE)
+	print(RMSE)
+	return model.best_score_, model.best_params_
+
+
+if __name__ == '__main__':
+	trainfile = 'data/train.csv'
+	testfile = 'data/test.csv'
+	submitfile = 'data/sample_submit.csv'
+	feature_data, label_data, test_feature = load_data(trainfile, testfile)
+	random_forest_train(feature_data, label_data, test_feature, submitfile)
--- a/serve.py
+++ b/serve.py
@@ -6,187 +6,106 @@ import cgi
 import json
 from urllib import parse
 import pandas as pd
+import numpy as np
 import csv
-from pandas import DataFrame
-from pandas import Series
-from pandas import concat
-from pandas import read_csv
-from sklearn.metrics import mean_squared_error
-from sklearn.preprocessing import MinMaxScaler
-from keras.models import Sequential
-from keras.layers import Dense
-from keras.layers import LSTM
-from math import sqrt
-import numpy
 import random
 import traceback
-from keras.models import load_model
-from sklearn.externals import joblib
+import pickle
+import os
+from sklearn.ensemble import RandomForestRegressor
+from sklearn.model_selection import train_test_split
+from sklearn.metrics import mean_squared_error

-PORT_NUMBER = 8080
+PORT_NUMBER = int(os.getenv('Port', 8080))
 lock = Lock()
 models = {}


-# frame a sequence as a supervised learning problem
-def timeseries_to_supervised(data, lag=1):
-	df = DataFrame(data)
-	columns = [df.shift(i) for i in range(1, lag + 1)]
-	columns.append(df)
-	df = concat(columns, axis=1)
-	df = df.drop(0)
-	return df
-
-
-# create a differenced series
-def difference(dataset, interval=1):
-	diff = list()
-	for i in range(interval, len(dataset)):
-		value = dataset[i] - dataset[i - interval]
-		diff.append(value)
-	return Series(diff)
-
-
-# invert differenced value
-def inverse_difference(history, yhat, interval=1):
-	return yhat + history[-interval]
-
-
-# inverse scaling for a forecasted value
-def invert_scale(scaler, X, yhat):
-	new_row = [x for x in X] + [yhat]
-	array = numpy.array(new_row)
-	array = array.reshape(1, len(array))
-	inverted = scaler.inverse_transform(array)
-	return inverted[0, -1]
-
-
-# fit an LSTM network to training data
-def fit_lstm(train, batch_size2, nb_epoch, neurons):
-	X, y = train[:, 0:-1], train[:, -1]
-	X = X.reshape(X.shape[0], 1, X.shape[1])
-	model = Sequential()
-	model.add(LSTM(neurons, batch_input_shape=(batch_size2, X.shape[1], X.shape[2]), stateful=True))
-	model.add(Dense(1))
-	model.compile(loss='mean_squared_error', optimizer='adam')
-	for i in range(nb_epoch):
-		model.fit(X, y, epochs=1, batch_size=batch_size2, verbose=0, shuffle=False)
-		# loss = model.evaluate(X, y)
-		# print("Epoch {}/{}, loss = {}".format(i, nb_epoch, loss))
-		print("Epoch {}/{}".format(i, nb_epoch))
-		model.reset_states()
-	return model
+def load_data(trainfile, testfile):
+	traindata = pd.read_csv(trainfile)
+	testdata = pd.read_csv(testfile)
+	feature_data = traindata.iloc[:, 1:-1]
+	label_data = traindata.iloc[:, -1]
+	test_feature = testdata.iloc[:, 1:]
+	return feature_data, label_data, test_feature


 def train_models(job):
-	lock.acquire()
-	if job not in models:
-		models[job] = {
-			'lock': Lock()
-		}
-	lock.release()
-
+	if job not in models or 'features' not in models[job]:
+		return
 	models[job]['lock'].acquire()

-	# load dataset
-	series = read_csv('./data/' + job + '.csv', header=0, index_col=0, squeeze=True)
+	for label in models[job]['labels']:
+		trainfile = './data/' + job + '_' + label + '.csv'
+		traindata = pd.read_csv(trainfile)
+		feature_data = traindata.iloc[:, 1:-1]
+		label_data = traindata.iloc[:, -1]

-	# transform data to be stationary
-	raw_values = series.values
-	diff_values = difference(raw_values, 1)
-	# transform data to be supervised learning
-	lag = 4
-	supervised = timeseries_to_supervised(diff_values, lag)
-	supervised_values = supervised.values
+		X_train, X_test, y_train, y_test = train_test_split(feature_data, label_data, test_size=0.01)
+		params = {
+			'n_estimators': 70,
+			'max_depth': 13,
+			'min_samples_split': 10,
+			'min_samples_leaf': 5,  # 10
+			'max_features': len(models[job]['features']) - 1  # 7
+		}
+		# print(params)
+		model = RandomForestRegressor(**params)
+		model.fit(X_train, y_train)

-	batch_size = 32
-	if supervised_values.shape[0] < 100:
-		batch_size = 16
-	if supervised_values.shape[0] < 60:
-		batch_size = 8
+		# save the model to disk
+		modelname = './data/' + job + '_' + label + '.sav'
+		pickle.dump(model, open(modelname, 'wb'))

-	# split data into train and test-sets
-	train = supervised_values
-	# transform the scale of the data
-
-	# scale data to [-1, 1]
-	# fit scaler
-	scaler = MinMaxScaler(feature_range=(-1, 1))
-	scaler = scaler.fit(train)
-	# transform train
-	train = train.reshape(train.shape[0], train.shape[1])
-	train_scaled = scaler.transform(train)
-
-	# fit the model
-	t1 = train.shape[0] % batch_size
-
-	train_trimmed = train_scaled[t1:, :]
-	model = fit_lstm(train_trimmed, batch_size, 30, 4)
-
-	model.save('./data/checkpoint-' + job)
-	scaler_filename = './data/checkpoint-' + job + "-scaler.save"
-	joblib.dump(scaler, scaler_filename)
-
-	models[job]['batch_size'] = batch_size
+		# 对测试集进行预测
+		y_pred = model.predict(X_test)
+		# 计算准确率
+		MSE = mean_squared_error(y_test, y_pred)
+		RMSE = np.sqrt(MSE)
+		print('RMSE of ' + job + ' is ' + str(RMSE))

 	models[job]['lock'].release()


-def predict(job, seq):
-	if job not in models or 'batch_size' not in models[job]:
+def predict(job, features):
+	if job not in models or 'features' not in models[job]:
 		return -1, False

-	batch_size = int(models[job]['batch_size'])
+	values = [job]
+	for feature in models[job]['features']:
+		values.append(features[feature])

-	data = {
-		'seq': seq,
-		'value': 0,
-	}
-	model = load_model('./data/checkpoint-' + job)
-	scaler_filename = './data/checkpoint-' + job + "-scaler.save"
-	scaler = joblib.load(scaler_filename)
+	datafile = './data/' + job + '.' + str(random.randint(1000, 9999)) + '.csv'
+	t = ['job']
+	t.extend(models[job]['features'])
+	with open(datafile, 'w', newline='') as csvfile:
+		spamwriter = csv.writer(
+			csvfile, delimiter=',',
+			quotechar='|', quoting=csv.QUOTE_MINIMAL
+		)
+		spamwriter.writerow(t)

-	file = './data/' + job + '.' + str(random.randint(1000, 9999)) + '.csv'
-	df = pd.read_csv('./data/' + job + '.csv', usecols=['seq', 'value'])
-	df = df.tail(batch_size * 2 - 1)
-	df = df.append(data, ignore_index=True)
-	df.to_csv(file, index=False)
+	with open(datafile, 'a+', newline='') as csvfile:
+		spamwriter = csv.writer(
+			csvfile, delimiter=',',
+			quotechar='|', quoting=csv.QUOTE_MINIMAL
+		)
+		spamwriter.writerow(values)

-	# load dataset
-	df = read_csv(file, header=0, index_col=0, squeeze=True)
+	testdata = pd.read_csv(datafile)
+	test_feature = testdata.iloc[:, 1:]

-	# transform data to be stationary
-	raw_values = df.values
-	diff_values = difference(raw_values, 1)
+	predictions = {}
+	for label in models[job]['labels']:
+		# load the model from disk
+		modelfile = './data/' + job + '_' + label + '.sav'
+		model = pickle.load(open(modelfile, 'rb'))
+		preds = model.predict(test_feature)
+		predictions[label] = preds[0]

-	# transform data to be supervised learning
-	lag = 4
-	supervised = timeseries_to_supervised(diff_values, lag)
-	supervised_values = supervised[-batch_size:]
-	test = supervised_values.values
-
-	test = test.reshape(test.shape[0], test.shape[1])
-	test_scaled = scaler.transform(test)
-
-	# forecast the entire training dataset to build up state for forecasting
-	test_reshaped = test_scaled[:, 0:-1]
-	test_reshaped = test_reshaped.reshape(len(test_reshaped), 1, lag)
-	output = model.predict(test_reshaped, batch_size=batch_size)
-	predictions = list()
-	for i in range(len(output)):
-		yhat = output[i, 0]
-		X = test_scaled[i, 0:-1]
-		# invert scaling
-		yhat = invert_scale(scaler, X, yhat)
-		# invert differencing
-		yhat = inverse_difference(raw_values, yhat, len(test_scaled) + 1 - i)
-		# store forecast
-		predictions.append(yhat)
-	# report performance
-
-	rmse = sqrt(mean_squared_error(raw_values[-batch_size:], predictions))
-	print(predictions, raw_values[-batch_size:])
-	return predictions[-1], True
+	if os.path.exists(datafile):
+		os.remove(datafile)
+	return predictions, True


 class MyHandler(BaseHTTPRequestHandler):
@@ -204,15 +123,15 @@ class MyHandler(BaseHTTPRequestHandler):
 		elif req.path == "/predict":
 			try:
 				job = query.get('job')[0]
-				seq = query.get('seq')[0]
+				features = json.loads(query.get('features')[0])
 				msg = {'code': 0, 'error': ""}

-				pred, success = predict(job, int(seq))
+				pred, success = predict(job, features)

 				if not success:
 					msg = {'code': 2, 'error': "Job " + job + " not exist"}
 				else:
-					msg = {'code': 0, 'error': "", "total": int(pred)}
+					msg = {'code': 0, 'error': "", "labels": json.dumps(pred)}
 			except Exception as e:
 				track = traceback.format_exc()
 				print(track)
@@ -226,26 +145,50 @@ class MyHandler(BaseHTTPRequestHandler):
 		elif req.path == "/feed":
 			try:
 				job = query.get('job')[0]
-				seq = query.get('seq')[0]
-				value = query.get('value')[0]
+				features = json.loads(query.get('features')[0])
+				labels = json.loads(query.get('labels')[0])

-				if int(seq) == 1:
-					with open('./data/' + job + '.csv', 'w', newline='') as csvfile:
+				lock.acquire()
+				flag = False
+				if job not in models:
+					models[job] = {
+						'lock': Lock(),
+						'features': list(features.keys()),
+						'labels': list(labels.keys())
+					}
+					flag = True
+				lock.release()
+				models[job]['lock'].acquire()
+
+				for label in models[job]['labels']:
+					values = [job]
+					for feature in models[job]['features']:
+						values.append(features[feature])
+					values.append(labels[label])
+					if flag:
+						t = ['job']
+						t.extend(models[job]['features'])
+						t.append(label)
+						with open('./data/' + job + '_' + label + '.csv', 'w', newline='') as csvfile:
 							spamwriter = csv.writer(
 								csvfile, delimiter=',',
 								quotechar='|', quoting=csv.QUOTE_MINIMAL
 							)
-						spamwriter.writerow(["seq", "value"])
+							spamwriter.writerow(t)

-				with open('./data/' + job + '.csv', 'a+', newline='') as csvfile:
+					with open('./data/' + job + '_' + label + '.csv', 'a+', newline='') as csvfile:
 						spamwriter = csv.writer(
 							csvfile, delimiter=',',
 							quotechar='|', quoting=csv.QUOTE_MINIMAL
 						)
-					spamwriter.writerow([seq, value])
+						spamwriter.writerow(values)
+
+				models[job]['lock'].release()
 				msg = {'code': 0, 'error': ""}
 			except Exception as e:
 				msg = {'code': 1, 'error': str(e)}
+				track = traceback.format_exc()
+				print(track)
 			self.send_response(200)
 			self.send_header('Content-type', 'application/json')
 			self.end_headers()
@@ -289,7 +232,6 @@ class MyHandler(BaseHTTPRequestHandler):
 				self.send_header('Content-type', 'application/json')
 				self.end_headers()
 				self.wfile.write(bytes(json.dumps(msg), "utf-8"))
-
 			else:
 				self.send_error(404, 'File Not Found: %s' % self.path)

--- a/serve_lstm.py
+++ b/serve_lstm.py
@@ -0,0 +1,310 @@
+#!/usr/bin/python
+from threading import Thread
+from threading import Lock
+from http.server import BaseHTTPRequestHandler, HTTPServer
+import cgi
+import json
+from urllib import parse
+import pandas as pd
+import csv
+from pandas import DataFrame
+from pandas import Series
+from pandas import concat
+from pandas import read_csv
+from sklearn.metrics import mean_squared_error
+from sklearn.preprocessing import MinMaxScaler
+from keras.models import Sequential
+from keras.layers import Dense
+from keras.layers import LSTM
+from math import sqrt
+import numpy
+import random
+import traceback
+from keras.models import load_model
+from sklearn.externals import joblib
+
+PORT_NUMBER = 8080
+lock = Lock()
+models = {}
+
+
+# frame a sequence as a supervised learning problem
+def timeseries_to_supervised(data, lag=1):
+	df = DataFrame(data)
+	columns = [df.shift(i) for i in range(1, lag + 1)]
+	columns.append(df)
+	df = concat(columns, axis=1)
+	df = df.drop(0)
+	return df
+
+
+# create a differenced series
+def difference(dataset, interval=1):
+	diff = list()
+	for i in range(interval, len(dataset)):
+		value = dataset[i] - dataset[i - interval]
+		diff.append(value)
+	return Series(diff)
+
+
+# invert differenced value
+def inverse_difference(history, yhat, interval=1):
+	return yhat + history[-interval]
+
+
+# inverse scaling for a forecasted value
+def invert_scale(scaler, X, yhat):
+	new_row = [x for x in X] + [yhat]
+	array = numpy.array(new_row)
+	array = array.reshape(1, len(array))
+	inverted = scaler.inverse_transform(array)
+	return inverted[0, -1]
+
+
+# fit an LSTM network to training data
+def fit_lstm(train, batch_size2, nb_epoch, neurons):
+	X, y = train[:, 0:-1], train[:, -1]
+	X = X.reshape(X.shape[0], 1, X.shape[1])
+	model = Sequential()
+	model.add(LSTM(neurons, batch_input_shape=(batch_size2, X.shape[1], X.shape[2]), stateful=True))
+	model.add(Dense(1))
+	model.compile(loss='mean_squared_error', optimizer='adam')
+	for i in range(nb_epoch):
+		model.fit(X, y, epochs=1, batch_size=batch_size2, verbose=0, shuffle=False)
+		# loss = model.evaluate(X, y)
+		# print("Epoch {}/{}, loss = {}".format(i, nb_epoch, loss))
+		print("Epoch {}/{}".format(i, nb_epoch))
+		model.reset_states()
+	return model
+
+
+def train_models(job):
+	lock.acquire()
+	if job not in models:
+		models[job] = {
+			'lock': Lock()
+		}
+	lock.release()
+
+	models[job]['lock'].acquire()
+
+	# load dataset
+	series = read_csv('./data/' + job + '.csv', header=0, index_col=0, squeeze=True)
+
+	# transform data to be stationary
+	raw_values = series.values
+	diff_values = difference(raw_values, 1)
+	# transform data to be supervised learning
+	lag = 4
+	supervised = timeseries_to_supervised(diff_values, lag)
+	supervised_values = supervised.values
+
+	batch_size = 32
+	if supervised_values.shape[0] < 100:
+		batch_size = 16
+	if supervised_values.shape[0] < 60:
+		batch_size = 8
+
+	# split data into train and test-sets
+	train = supervised_values
+	# transform the scale of the data
+
+	# scale data to [-1, 1]
+	# fit scaler
+	scaler = MinMaxScaler(feature_range=(-1, 1))
+	scaler = scaler.fit(train)
+	# transform train
+	train = train.reshape(train.shape[0], train.shape[1])
+	train_scaled = scaler.transform(train)
+
+	# fit the model
+	t1 = train.shape[0] % batch_size
+
+	train_trimmed = train_scaled[t1:, :]
+	model = fit_lstm(train_trimmed, batch_size, 30, 4)
+
+	model.save('./data/checkpoint-' + job)
+	scaler_filename = './data/checkpoint-' + job + "-scaler.save"
+	joblib.dump(scaler, scaler_filename)
+
+	models[job]['batch_size'] = batch_size
+
+	models[job]['lock'].release()
+
+
+def predict(job, seq):
+	if job not in models or 'batch_size' not in models[job]:
+		return -1, False
+
+	batch_size = int(models[job]['batch_size'])
+
+	data = {
+		'seq': seq,
+		'value': 0,
+	}
+	model = load_model('./data/checkpoint-' + job)
+	scaler_filename = './data/checkpoint-' + job + "-scaler.save"
+	scaler = joblib.load(scaler_filename)
+
+	file = './data/' + job + '.' + str(random.randint(1000, 9999)) + '.csv'
+	df = pd.read_csv('./data/' + job + '.csv', usecols=['seq', 'value'])
+	df = df.tail(batch_size * 2 - 1)
+	df = df.append(data, ignore_index=True)
+	df.to_csv(file, index=False)
+
+	# load dataset
+	df = read_csv(file, header=0, index_col=0, squeeze=True)
+
+	# transform data to be stationary
+	raw_values = df.values
+	diff_values = difference(raw_values, 1)
+
+	# transform data to be supervised learning
+	lag = 4
+	supervised = timeseries_to_supervised(diff_values, lag)
+	supervised_values = supervised[-batch_size:]
+	test = supervised_values.values
+
+	test = test.reshape(test.shape[0], test.shape[1])
+	test_scaled = scaler.transform(test)
+
+	# forecast the entire training dataset to build up state for forecasting
+	test_reshaped = test_scaled[:, 0:-1]
+	test_reshaped = test_reshaped.reshape(len(test_reshaped), 1, lag)
+	output = model.predict(test_reshaped, batch_size=batch_size)
+	predictions = list()
+	for i in range(len(output)):
+		yhat = output[i, 0]
+		X = test_scaled[i, 0:-1]
+		# invert scaling
+		yhat = invert_scale(scaler, X, yhat)
+		# invert differencing
+		yhat = inverse_difference(raw_values, yhat, len(test_scaled) + 1 - i)
+		# store forecast
+		predictions.append(yhat)
+	# report performance
+
+	rmse = sqrt(mean_squared_error(raw_values[-batch_size:], predictions))
+	print(predictions, raw_values[-batch_size:])
+	return predictions[-1], True
+
+
+class MyHandler(BaseHTTPRequestHandler):
+	# Handler for the GET requests
+	def do_GET(self):
+		req = parse.urlparse(self.path)
+		query = parse.parse_qs(req.query)
+
+		if req.path == "/ping":
+			self.send_response(200)
+			self.send_header('Content-type', 'application/json')
+			self.end_headers()
+			self.wfile.write(bytes("pong", "utf-8"))
+
+		elif req.path == "/predict":
+			try:
+				job = query.get('job')[0]
+				seq = query.get('seq')[0]
+				msg = {'code': 0, 'error': ""}
+
+				pred, success = predict(job, int(seq))
+
+				if not success:
+					msg = {'code': 2, 'error': "Job " + job + " not exist"}
+				else:
+					msg = {'code': 0, 'error': "", "total": int(pred)}
+			except Exception as e:
+				track = traceback.format_exc()
+				print(track)
+				msg = {'code': 1, 'error': str(e)}
+
+			self.send_response(200)
+			self.send_header('Content-type', 'application/json')
+			self.end_headers()
+			self.wfile.write(bytes(json.dumps(msg), "utf-8"))
+
+		elif req.path == "/feed":
+			try:
+				job = query.get('job')[0]
+				seq = query.get('seq')[0]
+				value = query.get('value')[0]
+
+				if int(seq) == 1:
+					with open('./data/' + job + '.csv', 'w', newline='') as csvfile:
+						spamwriter = csv.writer(
+							csvfile, delimiter=',',
+							quotechar='|', quoting=csv.QUOTE_MINIMAL
+						)
+						spamwriter.writerow(["seq", "value"])
+
+				with open('./data/' + job + '.csv', 'a+', newline='') as csvfile:
+					spamwriter = csv.writer(
+						csvfile, delimiter=',',
+						quotechar='|', quoting=csv.QUOTE_MINIMAL
+					)
+					spamwriter.writerow([seq, value])
+				msg = {'code': 0, 'error': ""}
+			except Exception as e:
+				msg = {'code': 1, 'error': str(e)}
+			self.send_response(200)
+			self.send_header('Content-type', 'application/json')
+			self.end_headers()
+			self.wfile.write(bytes(json.dumps(msg), "utf-8"))
+
+		elif req.path == "/train":
+			try:
+				job = query.get('job')[0]
+				t = Thread(target=train_models, name='train_models', args=(job,))
+				t.start()
+				msg = {'code': 0, 'error': ""}
+			except Exception as e:
+				msg = {'code': 1, 'error': str(e)}
+			self.send_response(200)
+			self.send_header('Content-type', 'application/json')
+			self.end_headers()
+			self.wfile.write(bytes(json.dumps(msg), "utf-8"))
+
+		else:
+			self.send_error(404, 'File Not Found: %s' % self.path)
+
+		# Handler for the POST requests
+		def do_POST(self):
+			if self.path == "/train2":
+				form = cgi.FieldStorage(
+					fp=self.rfile,
+					headers=self.headers,
+					environ={
+						'REQUEST_METHOD': 'POST',
+						'CONTENT_TYPE': self.headers['Content-Type'],
+					})
+				try:
+					job = form.getvalue('job')[0]
+					seq = form.getvalue('seq')[0]
+					t = Thread(target=train_models(), name='train_models', args=(job, seq,))
+					t.start()
+					msg = {"code": 0, "error": ""}
+				except Exception as e:
+					msg = {"code": 1, "error": str(e)}
+				self.send_response(200)
+				self.send_header('Content-type', 'application/json')
+				self.end_headers()
+				self.wfile.write(bytes(json.dumps(msg), "utf-8"))
+
+			else:
+				self.send_error(404, 'File Not Found: %s' % self.path)
+
+
+if __name__ == '__main__':
+	try:
+		# Create a web server and define the handler to manage the
+		# incoming request
+		server = HTTPServer(('', PORT_NUMBER), MyHandler)
+		print('Started http server on port ', PORT_NUMBER)
+
+		# Wait forever for incoming http requests
+		server.serve_forever()
+
+	except KeyboardInterrupt:
+		print('^C received, shutting down the web server')
+
+	server.socket.close()