<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網易首頁 > 網易號 > 正文 申請入駐

      分類數據 EDA 實戰:如何發現隱藏的層次結構

      0
      分享至



      探索性數據分析(EDA)的本質不是畫圖和算統計量,而是不被自己的數據欺騙。

      分類列是最容易出問題的地方。city、category、product、department、role、customer_type——這些列看起來很簡單,跑個 value_counts()畫個柱狀圖搞定了。

      其實分類變量往往藏著隱藏的層次結構。這些關系存在于類別內部,不主動挖掘根本看不出來。一旦忽略那么就會得到錯誤的結論、垃圾特征、誤導性的報表。

      這篇文章講的是如何在 EDA 階段把這些隱藏結構找出來,用實際的步驟、真實的案例,外加可以直接復用的 Python 代碼。

      什么是"隱藏層次結構"?

      一個分類變量表面看起來是扁平的,實際上卻是分層的:這就是隱藏層次結構。

      舉幾個常見例子:City 背后藏著收入水平、門店類型、客戶行為;Product Category 背后是價格層級和利潤模式;Customer Type 對應著忠誠度階段或消費能力;Department 則可能隱含資歷或責任級別。

      把所有類別一視同仁EDA 就廢了,因為它們從來都不平等。

      示例數據集

      繼續使用同一份銷售數據,保持系列的連貫性。

      import pandas as pd
      import numpy as np
      import matplotlib.pyplot as plt
      import seaborn as sns
      sns.set_style("whitegrid")
      df = pd.read_csv("sales_data.csv")
      df['order_date'] = pd.to_datetime(df['order_date'])
      df.head()

      扁平類別的假象

      初學者通常這么干:

      df['city'].value_counts()

      輸出:Delhi: 3,Mumbai: 1,Bangalore: 1。

      結論:"Delhi 銷售最多。"

      技術上沒錯,分析上毫無價值。

      EDA 應該問更好的問題:Delhi 的客戶是買得更頻繁,還是買得更貴?Delhi 的數據是不是被某一個客戶撐起來的?不同城市的品類結構有沒有差異?

      扁平的計數把真正的結構埋了起來。

      頻率不等于重要性

      比較一下頻率和價值:

      df.groupby('city')['amount'].sum().sort_values(ascending=False)

      再看均值:

      df.groupby('city')['amount'].mean().sort_values(ascending=False)

      你很可能發現:某個城市訂單少但客單價高,另一個城市量大但貢獻的收入反而一般。

      這就是第一個隱藏層次結構:數量主導 vs 價值主導。

      出現頻率高的類別,并不自動意味著更重要。

      嵌套類別

      類別很少孤立存在。看看 city → category 的關系:

      pd.crosstab(df['city'], df['category'], normalize='index')

      可視化一下:

      pd.crosstab(df['city'], df['category'], normalize='index')\
      .plot(kind='bar', stacked=True, figsize=(8,5))
      plt.title("Category Distribution Within Each City")
      plt.show()

      模式開始出現了:有的城市電子產品占大頭,有的城市家具更突出,還有的城市品類分布比較均勻。

      這里的隱藏層次結構是:城市不是一個類別,而是一個容器。

      忽略這一點,細分就做不好,報表也只是走過場。

      主導類別背后的子群組

      看看 category:

      df['category'].value_counts(normalize=True)

      電子產品占主導。但繼續拆解:

      df.groupby(['category', 'product'])['amount'].sum()

      很可能發現某一個產品貢獻了絕大部分收入,其他產品只是湊數的。

      一個大類別可能完全由一個小子群組撐著。這對特征工程、庫存規劃、模型偏差都有直接影響。

      客戶層級

      客戶 ID 本質上也是分類變量,而且層次很深。

      df.groupby('customer_id')['amount'].sum().sort_values(ascending=False)

      你可能會看到某個客戶貢獻了大部分收入,或者同一個人反復購買。

      再疊加城市維度:

      df.groupby(['customer_id', 'city'])['amount'].sum()

      真相可能是:某個城市的"領先地位"其實就靠一個客戶撐著。由此得出的地理結論完全站不住腳。

      永遠要檢查:一個類別是由眾多貢獻者驅動的,還是被某個異常個體拉高的。

      時間帶來的層次

      時間天然會產生層次結構。

      df['month'] = df['order_date'].dt.month
      df.groupby(['city', 'month'])['amount'].sum().unstack()

      畫出來:

      sns.lineplot(data=df, x='month', y='amount', hue='city', marker='o')
      plt.show()

      你可能會發現不同城市在不同月份達到峰值,季節性主導權在品類之間輪換。

      靜態的柱狀圖永遠看不到這些。

      類別與數值的交互

      處理分類數據時,交互分析是最關鍵的一環。

      先看單一維度:

      sns.boxplot(x='category', y='amount', data=df)
      plt.show()

      加上城市:

      sns.boxplot(x='city', y='amount', hue='category', data=df)
      plt.xticks(rotation=45)
      plt.show()

      同一個品類在不同城市的表現可能天差地別,消費分布不一樣,隱藏的高端細分市場也藏在里面。

      特征創意往往就是這么來的。

      隱藏層次結構如何破壞模型

      不做 EDA 就直接 one-hot 編碼會出大問題,因為高價值和低價值的子群組被混在一起,客戶集中度信息泄露,噪聲被放大。

      EDA 階段可以這樣修補:

      df['high_value_customer'] = (
      df.groupby('customer_id')['amount']
      .transform('sum') > df['amount'].median()
      ).astype(int)

      這個特征的存在,完全依賴于對層次結構的挖掘。

      分類數據的 EDA 清單

      每個分類列都應該過一遍:頻率檢查、基于價值的聚合、跨類別交互、時間維度拆分、異常值主導檢查。

      跳過這些,EDA 就只是做做樣子。

      面試時怎么說

      不要說"我檢查了分類分布"。

      要說:"我通過結合頻率、價值貢獻以及與時間和數值變量的交互,分析了分類變量的隱藏層次結構,識別出主導子群組,避免了建模時的誤導性結論。"

      面試官一聽就知道你是明白人。

      總結

      分類數據從來都不是扁平的。EDA 存在的意義,就是證明這個假設是錯的。

      隱藏的層次結構能解釋很多事:為什么報表會騙人,為什么模型會過擬合,為什么業務決策讓人一頭霧水。

      一旦開始有意識地尋找這些結構,就再也回不去了。分析的段位會直接拉升一個檔次。

      EDA 的目的不是更快地出圖,而是在相信圖表之前,先想清楚。

      https://avoid.overfit.cn/post/829701eeb5dc40d094b0f69df05c3b15

      by Gitanjali

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      伊朗最大“內鬼”被抓?革命衛隊:勾結以色列,指揮官卡尼被拘!

      伊朗最大“內鬼”被抓?革命衛隊:勾結以色列,指揮官卡尼被拘!

      青青子衿
      2026-03-05 11:57:03
      打瘋了!東契奇首節狂轟22+5三分 生涯30次單節20+升歷史第四

      打瘋了!東契奇首節狂轟22+5三分 生涯30次單節20+升歷史第四

      醉臥浮生
      2026-03-07 12:13:33
      伊拉克庫爾德第一夫人宣言:我們不是任人驅使的炮灰!

      伊拉克庫爾德第一夫人宣言:我們不是任人驅使的炮灰!

      勝研集
      2026-03-06 13:44:23
      廣東一女子不愿上班常年坐街邊,因長得好看被路人投喂:又懶又饞

      廣東一女子不愿上班常年坐街邊,因長得好看被路人投喂:又懶又饞

      明智家庭教育
      2026-03-06 17:19:16
      美以伊軍事沖突最大副作用,是斬斷了俄羅斯的“救命稻草”

      美以伊軍事沖突最大副作用,是斬斷了俄羅斯的“救命稻草”

      廖保平
      2026-03-05 12:08:52
      “不想為以色列賣命”:帝國最后的遮羞布,美式民主終成笑話

      “不想為以色列賣命”:帝國最后的遮羞布,美式民主終成笑話

      怪口歷史的K先生
      2026-03-06 15:22:51
      為何關閉霍爾木茲海峽就能掐全球脖子?因為伊朗原油是全世界最好的

      為何關閉霍爾木茲海峽就能掐全球脖子?因為伊朗原油是全世界最好的

      風向觀察
      2026-03-06 21:31:15
      兩會不到3天,5大好消息傳來!老百姓暗暗叫好:希望國家盡快落實

      兩會不到3天,5大好消息傳來!老百姓暗暗叫好:希望國家盡快落實

      談史論天地
      2026-03-07 06:54:29
      1979年,張國燾凍死在養老院,許世友:除了主席,沒人是他的對手

      1979年,張國燾凍死在養老院,許世友:除了主席,沒人是他的對手

      文史季季紅
      2026-03-05 13:35:03
      寫入教科書的一天:F-35在德黑蘭完成全球首次實戰空對空擊殺

      寫入教科書的一天:F-35在德黑蘭完成全球首次實戰空對空擊殺

      斌聞天下
      2026-03-06 07:30:03
      伊方:因美以襲擊喪生的伊朗人三成為青少年

      伊方:因美以襲擊喪生的伊朗人三成為青少年

      環球網資訊
      2026-03-07 06:39:29
      為什么美國的華人華裔地位那么低 網友從各方面分析 真就那樣

      為什么美國的華人華裔地位那么低 網友從各方面分析 真就那樣

      侃神評故事
      2026-03-06 07:10:03
      我包養過一個女大學生,七年花了一千多萬

      我包養過一個女大學生,七年花了一千多萬

      煙火人間故事匯
      2026-03-06 23:05:03
      性壓抑已經變態至此了?

      性壓抑已經變態至此了?

      黯泉
      2026-03-07 11:28:43
      蘿莉島,是進入核心圈層的投名狀,你猜他們為什么都穿紅皮鞋

      蘿莉島,是進入核心圈層的投名狀,你猜他們為什么都穿紅皮鞋

      百曉生談歷史
      2026-03-05 22:00:08
      一份“煮熟的三文魚”火了,原來低認知的家長,真能搞出人命!

      一份“煮熟的三文魚”火了,原來低認知的家長,真能搞出人命!

      妍妍教育日記
      2026-03-07 08:45:06
      伊朗萬萬沒想到,自家王牌武器遭到破解,美軍多了一張底牌

      伊朗萬萬沒想到,自家王牌武器遭到破解,美軍多了一張底牌

      空天力量
      2026-03-06 13:09:18
      上次被發現還是1911年!上海寶山驚現1只,專家:可能是坐船來的

      上次被發現還是1911年!上海寶山驚現1只,專家:可能是坐船來的

      萬象硬核本尊
      2026-03-06 23:54:22
      女子實名舉報某團外賣:不上大額券就讓我變成“凌晨營業”,你們真黑!

      女子實名舉報某團外賣:不上大額券就讓我變成“凌晨營業”,你們真黑!

      回旋鏢
      2026-03-06 21:13:59
      塔圖姆復出15分12板7助攻凱爾特人大勝獨行俠,布朗24分7板7助

      塔圖姆復出15分12板7助攻凱爾特人大勝獨行俠,布朗24分7板7助

      湖人崛起
      2026-03-07 10:25:09
      2026-03-07 13:43:00
      deephub incentive-icons
      deephub
      CV NLP和數據挖掘知識
      1940文章數 1456關注度
      往期回顧 全部

      科技要聞

      OpenClaw爆火,六位"養蝦人"自述與AI共生

      頭條要聞

      特朗普突然放話"先解決伊朗后解決古巴" 梅西聽懵了

      頭條要聞

      特朗普突然放話"先解決伊朗后解決古巴" 梅西聽懵了

      體育要聞

      塔圖姆歸來:凱爾特人的春之綠

      娛樂要聞

      周杰倫田馥甄的“JH戀” 被扒得底朝天

      財經要聞

      針對"不敢休、不讓休"怪圈 國家出手了

      汽車要聞

      逃離ICU,上汽通用“止血”企穩

      態度原創

      本地
      時尚
      房產
      教育
      公開課

      本地新聞

      食味印象|一口入魂!康樂烤肉串起千年絲路香

      這些才是適合普通人的穿搭!搭配腰帶、多穿牛仔褲,簡單舒適

      房產要聞

      傳統學區房熄火?2月海口二手房爆火的板塊竟然是…

      教育要聞

      兩會速遞|教育部部長:將實施新一輪學生心理健康促進行動

      公開課

      李玫瑾:為什么性格比能力更重要?

      無障礙瀏覽 進入關懷版