Spaces:

JERNGOC
/

TEST_FeatureImportanceAnalysis

Sleeping

App Files Files Community

JERNGOC commited on Sep 13

Commit

07c839f

•

1 Parent(s): 108ca19

Update app.py

Browse files

Files changed (1) hide show

app.py +78 -69

app.py CHANGED Viewed

@@ -8,72 +8,81 @@ from sklearn.tree import DecisionTreeClassifier
 from sklearn.ensemble import RandomForestClassifier
 from sklearn.preprocessing import StandardScaler
-# 讀取數據
-df = pd.read_csv('heart.csv')
-# 準備特徵和目標變量
-X = df.drop('target', axis=1)
-y = df['target']
-# 分割數據
-X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)
-# 標準化特徵
-scaler = StandardScaler()
-X_train_scaled = scaler.fit_transform(X_train)
-X_test_scaled = scaler.transform(X_test)
-# 計算特徵重要性
-def calculate_importance():
-    # Linear Regression
-    lr = LinearRegression()
-    lr.fit(X_train_scaled, y_train)
-    lr_importance = np.abs(lr.coef_)
-    # CART
-    cart = DecisionTreeClassifier(random_state=42)
-    cart.fit(X_train, y_train)
-    cart_importance = cart.feature_importances_
-    # Random Forest
-    rf = RandomForestClassifier(n_estimators=100, random_state=42)
-    rf.fit(X_train, y_train)
-    rf_importance = rf.feature_importances_
-    return lr_importance, cart_importance, rf_importance
-# 創建特徵重要性 DataFrame
-lr_importance, cart_importance, rf_importance = calculate_importance()
-feature_importance = pd.DataFrame({
-    'Feature': X.columns,
-    'Linear Regression': lr_importance,
-    'CART': cart_importance,
-    'Random Forest': rf_importance
-})
-# 排序
-feature_importance = feature_importance.sort_values('Random Forest', ascending=False)
-# 繪製特徵重要性圖表
-def plot_importance(model):
-    plt.figure(figsize=(10, 6))
-    plt.bar(feature_importance['Feature'], feature_importance[model])
-    plt.title(f'{model} Feature Importance')
-    plt.xlabel('Features')
-    plt.ylabel('Importance')
-    plt.xticks(rotation=45, ha='right')
-    st.pyplot(plt)
-# Streamlit UI
-st.title("心臟病預測模型特徵重要性分析")
-st.write("選擇一個模型來查看其特徵重要性：")
-# 下拉選擇模型
-model = st.selectbox("選擇模型", ["Linear Regression", "CART", "Random Forest"])
-# 顯示圖表
-plot_importance(model)
-# 顯示數據框
-st.write(f"{model} 特徵重要性數據：")
-st.dataframe(feature_importance[['Feature', model]])

 from sklearn.ensemble import RandomForestClassifier
 from sklearn.preprocessing import StandardScaler
+# 讓使用者上傳 CSV 檔案
+uploaded_file = st.file_uploader("上傳一個 CSV 檔案", type="csv")
+if uploaded_file is not None:
+    # 讀取上傳的 CSV 檔案
+    df = pd.read_csv(uploaded_file)
+    # 確保數據裡有 "target" 欄位
+    if 'target' in df.columns:
+        # 準備特徵和目標變量
+        X = df.drop('target', axis=1)
+        y = df['target']
+        # 分割數據
+        X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)
+        # 標準化特徵
+        scaler = StandardScaler()
+        X_train_scaled = scaler.fit_transform(X_train)
+        X_test_scaled = scaler.transform(X_test)
+        # 計算特徵重要性
+        def calculate_importance():
+            # Linear Regression
+            lr = LinearRegression()
+            lr.fit(X_train_scaled, y_train)
+            lr_importance = np.abs(lr.coef_)
+            # CART
+            cart = DecisionTreeClassifier(random_state=42)
+            cart.fit(X_train, y_train)
+            cart_importance = cart.feature_importances_
+            # Random Forest
+            rf = RandomForestClassifier(n_estimators=100, random_state=42)
+            rf.fit(X_train, y_train)
+            rf_importance = rf.feature_importances_
+            return lr_importance, cart_importance, rf_importance
+        # 創建特徵重要性 DataFrame
+        lr_importance, cart_importance, rf_importance = calculate_importance()
+        feature_importance = pd.DataFrame({
+            'Feature': X.columns,
+            'Linear Regression': lr_importance,
+            'CART': cart_importance,
+            'Random Forest': rf_importance
+        })
+        # 排序
+        feature_importance = feature_importance.sort_values('Random Forest', ascending=False)
+        # 繪製特徵重要性圖表
+        def plot_importance(model):
+            plt.figure(figsize=(10, 6))
+            plt.bar(feature_importance['Feature'], feature_importance[model])
+            plt.title(f'{model} Feature Importance')
+            plt.xlabel('Features')
+            plt.ylabel('Importance')
+            plt.xticks(rotation=45, ha='right')
+            st.pyplot(plt)
+        # Streamlit UI
+        st.title("自定義CSV檔案分析 - 特徵重要性分析")
+        st.write("選擇一個模型來查看其特徵重要性：")
+        # 下拉選擇模型
+        model = st.selectbox("選擇模型", ["Linear Regression", "CART", "Random Forest"])
+        # 顯示圖表
+        plot_importance(model)
+        # 顯示數據框
+        st.write(f"{model} 特徵重要性數據：")
+        st.dataframe(feature_importance[['Feature', model]])
+    else:
+        st.error("上傳的檔案中找不到 'target' 欄位，請確認檔案格式。")