精品国产av一区二区三区,国产av一区二区三区,丰满少妇大乳高潮在线,9lporm自拍视频区九色

當前位置:首頁 > 最新資訊 > 行業資訊

數據科學的10個重要概念和22張圖表含義

01 偏差-方差權衡

這是一個總是在機器學習最重要理論中名列前茅的概念。機器學習中的近乎所有算法(包括深度學習)都努力在偏差和方差之間取得適當的平衡,這個圖清楚地解釋了二者的對立關系。

02 基尼不純度與熵

Gini(缺乏同質性的度量)和 Entropy(隨機性的度量)都是決策樹中節點不純度的度量。

對于這兩個概念更重要的是要了解它們之間的關系,以便能夠在給定的場景中選擇正確的指標。

基尼不純度(系數)通常比熵更容易計算(因為熵涉及對數計算)。

03 精度與召回曲線

精度-召回曲線顯示了不同閾值的精度和召回率之間的權衡。曲線下面積大代表高召回率和高精度,其中高精度與低誤報率相關,高召回率與低誤報率相關。

它可以幫助我們根據需要選擇正確的閾值。比如,假如我們的目標是減少類型 1 錯誤,我們需要選擇高精度,而假如我們的目標是最小化類型 2 錯誤,那么我們應該選擇一個閾值,使得召回率很高。

  • 精度分母是一個變量:即假陽性(歸類為陽性的負樣本)每次都會變化。
  • 召回分母是一個常數:它代表真值的總數,因此將始終保持不變。

這就是為什么下圖 Precision 在結束時有一個波動,而召回始終保持平穩的原因。

04 ROC曲線

ROC 曲線是顯示分類模型在所有分類閾值下的性能的圖表。

這條曲線繪制了兩個參數:

真陽性率

誤報率

此曲線下的面積(稱為 AUC),也可用作性能指標。AUC 越高,模型越好。

05 彎頭曲線

用于K-means算法中最優簇數的選擇。WCSS(簇內平方和)是給定簇中每個點與質心之間的平方距離之和。當我們用 K(簇數)值繪制 WCSS 時,該圖看起來像一個肘部(彎頭)。

伴隨聚類數量的增加,WCSS 值將開始下降。K = 1時WCSS值最大

06三塊地塊

它幫助我們在對高維數據執行主成分分析后,可視化每個主成分解釋的變異百分比。為了選擇正確數量的主成分來考慮我們的模型,我們通常會繪制此圖并選擇能夠為我們提供足夠好的總體方差百分比的值。

07線性和邏輯回歸曲線

對于線性可分數據,我們可以進行線性回歸或邏輯回歸,二者都可以作為決策邊界曲線/線。不過,在邏輯回歸的情況下,由于通常只有 2 個類別,因此具有線性直線決策邊界可能不起作用,在一條直線上值從低到高非常均勻地上升,因為它不夠陡峭在值突然上升后會得到許多臨界的高值或者低值,最終會錯誤分類。因此,"邊界"區域,即概率從高到低轉變的區域并不真正存在。所以一般情況下會應用 sigmoid 變換將其轉換為 sigmoid 曲線,該曲線在極端情況下是平滑的,在中間近乎是線性的。

08支持向量機(幾何理解)

09標準正態分布規則(z-分布)

均值為0,標準差為1的特殊正態分布。

經驗法則指出,按照正態分布觀察到的數據中有 99.7% 位于平均值的 3 個標準差以內。根據該規則,68% 的數據在一個標準差內,95% 在兩個標準差內,99.7% 在三個標準差內。10學生T分布T 分布(也稱為學生 T 分布)是一系列分布,看起來近乎與正態分布曲線相同,只是更短和更寬/更胖。當我們有較小的樣本時,我們使用 T分布而不是正態分布。樣本量越大,t 分布越像正態分布。實際上,在 30 個樣本之后,T 分布近乎與正態分布完全一樣。

總結

我們可能會遇到很多小而關鍵的概念,這些概念構成了我們做出決定或選擇正確模型的基礎。本文中提到的重要概念都可以通過相關的圖表進行表示,這些概念是非常重要的,需要我們在看到其第一眼時就知道他的含義,假如你已經對上面的概念都掌握了,那么可以試試說明下圖代表了什么:

猜你喜歡