99re在线视频观看|日韩 欧美 国产 亚洲 制服|男人的天堂视频网站清风阁|亚洲经典激情春色另类|五月天精品视频

你居然拖人均年終獎的后腿???

2019-01-17 15:16:00
admin
轉貼:
銳研中國

前言

(如果你已經領悟了“集中趨勢”(central tendency),那么請跳過本文)

 

這大概是數據分析中最常見的工作:

 

你有一大堆數字,你想要用更少的數字去描述它們,最好是只用一個數字。我們會把所有數據相加,然后用求得的和除以數據個數,這就是傳說中大名鼎鼎的“平均值”,對吧?

 

“也許吧。”

 

與日常認知相悖,從數學意義上來說,并不存在“平均值”這樣的概念。

 

也就是說:并不存在某種數學運算可以被稱為“求平均值”。我們通常所說的“平均值”其實是指“算術平均值”,也就是我們上面所講述的那個大名鼎鼎的計算方法。我們把這種運算稱為“求平均值”是因為我們覺得它符合我們口頭對于“平均值”的定義: 一種特征值、標準值或者中位值。通常我們這樣理解沒有問題,但是現實不僅僅是“通常”,我們只是懶得深究,自以為正確。

 

概括統計量

算術平均值只是許多“平均值”中的一種。這些平均值更科學的叫法應該是“概括統計量(summary statistics)”、“趨中量數(measures of central tendency)”或者“集中量數(measures of location)”。

 

相比之下,第二有名的概括統計量應該是中位數了,就是一組按順序排列的數據里居中的那個數值(從定義本身可以看出來,在很多情況之下,中位數要比“平均值”顯得更為平均)。在這里我們不做討論,只不過值得注意的是,很多情況之下我們都過度使用算數平均值去代替中位數,但其實后者更為適用。

 

本文集中講述兩種使用不甚普遍的統計量:幾何平均值和調和平均值。

 

第一部分將會帶領各位從概念上、直覺上以及實際操作上,深入理解這兩個統計量有何作用,以及應該用于何種情況之下。

 

第二部分將會另外發布,內容上也將更加深入并且更著重于技術層面。通過R語言代碼模擬數據分析圖,來展現他們各自不同的變化趨勢。


畢達哥拉斯平均值(Pythagorean Means)

 

A geometric construction of the Quadratic and Pythagorean means (of two numbers a and b). via Wikipedia(https://en.wikipedia.org/wiki/Pythagorean_means)


用幾何模型展示a、b兩個數值二次均方值與畢達哥拉斯平均值。

詳見維基百科(https://en.wikipedia.org/wiki/Pythagorean_means)

 

算數平均值只是3種畢達哥拉斯平均值的其中之一(畢達哥拉斯平均值是根據畢達哥拉斯學派而命名,該學派有很多這方面的研究)。

 

另外兩種畢達哥拉斯平均值的分別是幾何平均值和調和平均值。為了能從基礎上理解這些平均值的作用,我們從熟悉的算術平均值開始。

 

算數平均值

算數平均值的命名非常恰如其分:將數據組中的所有數據相加,然后用求和的結果除以數據個數(這一運算是為了能讓求和結果落回原始數據的取值區間),通過這種方法我們可求得算數平均值。

 

3 + 8 + 10 = 21

21 ÷ 3 = 7

算術平均值 = 7

 

請注意,我們本質上是在思考這個問題 :如果數據組中每一個都是同樣的數字,那么為了得到和原數據集相同的求和結果,我們的數據元素都應該是哪一個數?

 

但是求和運算只是相當簡單的數學運算之一,并沒有什么特別之處。當數據組中的數據存在累加關系的時候,算數平均值的算法可以為數據組提供一個合適的“平均值”。

 

數據間的這種關系被稱作“線性關系”,因為若以升序或者降序描點作圖,則可以注意到這些代表數據的點會落在一條直線上或者周圍。一個便于理解的、理想化的例子就是一個公差為3的等差數據集合。

1, 4, 7, 10, 13, 16, 19…

由此,算數平均值為我們提供了一個合理的居中數值:

(1 + 4 + 7 + 10 + 13 + 16 + 19) ÷ 7 = 10

但并不是所有的數據集合都可以用這種運算來描述居中數值。一些數據集表現為乘法序列或者指數序列,比如公比為3的等比數列,而不是像上面那樣公差為3的等差數列:

1, 3, 9, 27, 81, 243, 729…

 

通過將前一值乘以3得到后一值,符合這一規律的數據集我們稱為幾何級數。將數據按升序用描點法作圖,可以看到這些數據點的連接線更近似于一條曲線,而不是一條直線。

 

對于這樣的數據集,如果想要得出一個“平均值”來統計描述這一組數據,那么算數平均值顯然非常不適用。

 

(1 + 3 + 9 + 27 + 81 + 243 + 729) ÷ 7 = 156.1


可以看到,156一點都不接近數據列中大部分的數字。事實上,比起數據集的中位數27,156比它大了5倍還多。

 

如果將各個數字畫在一條數軸上,這一偏離尤為明顯。

 

“那該怎么辦呢?”

此時,你需要使用下面的方法……

 

幾何平均值

因為數據集中存在乘法關系。而恰好,計算幾何平均值時,我們是通過數據相乘,而不是相加。之后,為了將所求的居中值恢復到數據序列的區間,我們要采用開根號的運算,而不是簡單的除法。大家應該都記得平方開根:為了求得平方運算后等于某一定值的數字,我們需要采用平方開根。

 

根號 25 = 5,因為5 * 5 = 25

 

這里我們采用的是同樣的思路,但是我們需要提高根號運算的次冪。因為等比序列中有7個數字,而我們將這七個數相乘得到了一個總值,現在為了得到居中數值,我們需要將根號運算提升到7次,而不是2次(平方根)。這個就是大家熟悉的n次根,在這里,n就表示了數據集的元素個數。因此,我們需要得出的就是總值的7次根。

 

請注意,我們本質上是在思考這個問題:如果數據集中所有元素相乘得到的積和原數據集相同,而每一個元素都是相同的數字,那么可以描述這個數據集的數字應該是多少?

 

所以,以上這組數據的幾何平均值為:

1 * 3 * 9 * 27 * 81 * 243 * 729 = 10,460,353,203

7th root of 10,460,353,203 = 27

幾何平均值 = 27

而在數軸上顯示為:


這樣,我們求得的幾何平均值就變成了這一組數據居中的那個,事實上,這個平均值正是這一序列的中位數。


提醒:幾何平均值并不總等于中位數,只有當所有數據間都存在相同的乘性關系(比如上例中公比為3的等比數列)時,才存在這種相等關系。現實中的數據列很少會完美的符合這樣的關系,但是哪怕對于僅僅近似符合這類乘性關系的數據組,幾何平均值相比算數平均值更能準確的描述出序列中的“中間數”。

 

幾何平均值的實際應用

事實證明,幾何平均值有許多實際用途,因為現實世界中的乘法關系比比皆是。舉一個典型的例子:復利計算

假設我們有10萬美元,5年內按照不同的年利率計算利息。

 

年利率分別為的:1%、9%、6%、2%、15%

 

我們想用一個快捷方法來找到平均年利率,也就是我們5年后的總金額,因此我們嘗試“平均”這些利率:(0.01+0.09+0.06+0.02+0.15)÷ 5=0.066=6.6%

然后我們把這個平均利率插入這個復利公式中:

 

總利息收入= $100,000 * (1.066? - 1) = $37,653.11

利息+本金 = $37,653.11 + 100,000 = $137,653.11

總計= $137,653.11

 

未避免自欺欺人,我們用傳統“笨辦法”來驗算和比較一下結果:

 

第一年:100,000 + (100,000 * .01) = 100,000 * 1.01 = $101,000

第二年: 101,000 * 1.09 = $110,090

第三年: 110,090 * 1.06 = $116,695.40

第四年: 116,695.40 * 1.02 = $119,029.31

第五年: 119,029.31 * 1.15 = $136,883.70

實際總計 = $136,883.70

 

結果我們用快捷方法得出的利息收入比實際利息收入多了將近1000美元。這是因為我們犯了一個常見的錯誤:在乘法過程中應用了加法運算,從而導致運算結果不準確。

 

下面試試用幾何平均值重新計算:

1.01 * 1.09 * 1.06 * 1.02 * 1.15 = 1.368837042

1.368837042的5次方根 = 1.064805657

幾何平均值= 1.064805657

 

(計算說明:幾何平均值的利率初始值要+1,因為這是本金和利率在產生利息每個過程中發生的實際利率,并且我們要找出這些實際利率的實際平均值。這樣做還有一個好處:即便利率為負,也能避免公式中出現負數導致幾何平均方程出錯[它也不能處理0]。算術平均值沒有這個問題。 不管我們用利率本身還是利率+1作為利率初始值[然后從結果中減去1],結果是一樣的,因為它是加法而不是乘法。 但是幾何平均值不一樣,如果不加1,結果就是錯的。)

將利率的幾何平均值代入復利計算公式:

 

總利息收入 = $100,000 * (1.0648? - 1) = $36,883.70

利息 + 本金 = $36,883.70 + 100,000 = $136,883.70

總計= $136,883.70  

 

與上文中用傳統“笨辦法”得出的結果一致


這就對了。我們在恰當的工作中運用了正確的方法,并得到了準確的的結果。那么,幾何平均值還有其他好的應用嗎?

 

處理不同尺度或單位的數據

 

幾何平均值的絕妙之處在于,你可以用它來“平均”完全不同尺度的數據。

例如,我們想比較兩個不同來源的咖啡店的在線評分。那么問題來了,來源1使用的是5星級評分標準,來源2使用的是100分的評分標準:

 

咖啡店A

來源1 評分:4.5

來源2 評分:68

咖啡店B

來源1 評分:3

來源2 評分:75

 

如果我們天真地采用每個咖啡店的原始評分來求算術平均值:

 

咖啡店A= (4.5 + 68) ÷ 2 = 36.25

咖啡店B= (3 + 75) ÷ 2 = 39

 

那么得出的結果是咖啡店B的分數更高。

 

如果我們對數據更敏感一點,就知道在求算術平均值之前必須先把數據進行標準化處理——使它們的值落入同一數據范疇,這樣再求平均值才能得到準確的結果。所以我們把來源1的評分乘以20,這樣它們就從五星級評分標準轉換為來源2 的100分標準。

 

咖啡店A

4.5 * 20 = 90

(90 + 68) ÷ 2 = 79

咖啡店B

3 * 20 = 60

(60 + 75) ÷ 2 = 67.5

 

因此對比上述“天真”的算術平均值的值,咖啡店A才是真正得分更高的贏家。

然而,如果采用幾何平均值的算法,不必大費周章轉換數據單位也能得出一樣準確的結論。

 

咖啡店 A = (4.5 * 68) 的平方根= 17.5

咖啡店 B = (3 * 75) 的平方根= 15

就是這樣!

 

算術平均值的大小主要取決于數值,這讓我們誤認為Coffeeshop B是評分較高的商店。

 

這是因為算術平均值是運用數值之間的加法關系,而尺度和單位不在考慮范圍。 因此,在應用算術平均值之前,要將數值轉換成相同單位的數據范疇。

 

另一方面,用幾何平均值處理不同范疇的數值輕而易舉,因為它具有乘法性質。這是一個非常有用的屬性,但注意我們丟了什么:得出的數值不再有任何可解釋的尺度或單位。在這種情況下,幾何平均值可以說是無效的。

 

即上面的幾何平均值不是“100分”中的17.5分,也不是“5星”中的15分。 它們是無單位的數字,只是相互之間成比例。 (從技術上講,它們的尺度是原始尺度的幾何平均值,5*100的平方根,即22.361)。

 

如果我們真的想解釋一些對我們有意義的量表的結果,比如原來的5星或100分系統,這可能是個問題。 但如果我們只想知道兩個咖啡店的評分之間的關系,這個方法就很好用。

 

幾何平均值知識點總結

幾何平均值對數值相乘而不是對數值求和,然后取n次根而不是除以n。

 

它實際上表示:如果我們數據集中的每個數值都相同,并且這些數值的乘積與實際數據集的乘積相同,那么這個數值是多少呢?

 

這使得它很適合用于描述乘數關系,例如比率和比例,即便這些比率是在不同的尺度(即沒有相同的分母)中計算得出。 (出于這個原因,它經常被用來計算財務和其他指數。)

 

它的缺點在于:在應用幾何平均值時,有意義的尺度和單位可能會丟失,并且對異常值的不敏感可能導致忽視數值較大的數據而得出異常的結果。

 

正如生活中的大多數事情一樣,幾何平均值(除了復合利率和此類事物之外)幾乎沒有鐵定的規則。雖然有一些啟發性和經驗性的法則,但作為合理的經驗主義者,最終的人為決斷和科學懷疑無疑是不可或缺的。

 

關于這點會在下文結論中介紹,現在我們先介紹畢達哥拉斯平均值的最后一個平均值。

 

調和平均值

 

第三種也是最后一種畢達哥拉斯平均值

雖然本文關于調和平均值的內容比幾何平均值少些,實際上調和平均值更加深奧,但是它仍然值得你去了解。

 

算術平均值需要加法法則,幾何平均值使用乘法法則,而調和平均值利用倒數法則。

 

你應當記得一個數字n的倒數是1/n(例如5的倒數是1/5)。對于分數,你只需要把分子和分母調一下就得到它的倒數:4/5的倒數是5/4。因為1除以一個分數就得到它的倒數,例如:1÷ (4/5) = 5/4.

 

從另一個角度看:乘積為1的兩數互為倒數。所以只要問一個簡單的問題:n乘以什么之后可以得到1?就能夠找到倒數了。

 

所以調和平均值的定義為:數據集的倒數的算術平均值的倒數。

 

不要被這么多的倒數嚇到,其實就3步:

1.計算數據集每個元素的倒數

2.計算這些倒數的算術平均值

3.計算這個算術平均值的倒數

 

用數學公式表示就是:

 

wikipedia上的一個示例如下:1、4、4的調和平均值是2:(https://en.wikipedia.org/wiki/Harmonic_mean)

 

 備注:“n-1"表示"n的倒數”

 

注意,這里的問題是:如果數據集中每個數的倒數都相等,并且這些倒數之和與實際數據集的倒數之和相同,那么這個倒數是多少呢?

(注意:0沒有倒數(沒有一個數乘以0后等于1),所以調和平均值同幾何平均值一樣,不能處理包含0的數據集。)

 

這就是調和平均值的原理,那么它有什么優點呢?

 

調和平均值的應用

回答這個問題,我們必須要問:倒數有什么優點?

實際上倒數和所有的除法一樣,僅僅是乘法的偽裝(乘法也只不過是加法的偽裝),我們發現:倒數使分數的除法更簡便。

 

例如:5 ÷ 3/7=?如果對小學數學還有印象的話,那你可能會按5乘以7/3(3/7的倒數)的方式計算。

 

5 ÷ 3/7 = 5/1 * 7/3 = 35/3 = 11 2/3 = 11.66667

 

此外還有一個等效的方法是將5和3/7轉成同分母,然后再按照標準的除法運算:

 

5/1 ÷ 3/7 = 35/7 ÷ 3/7 = 35 ÷ 3 = 11 2/3 = 11.66667

 

使用幾何平均值不需要標準化數據, 我們就能找到不同尺度數據的算術平均值之間的關系,簡化計算過程(如上所示)。同理,調和平均值幫助我們找到分數中乘法和除法的關系而不必擔心他們有沒有共同的分母。


因此調和平均值比幾何平均值更適用于乘法/除法關系。 在處理不同長度或周期的速率或比率(即分數)的數據集時使用。

 

小提示:(你可能會想:“等等,我認為幾何平均值是用來計算不同標準的平均利率和比率!”正常,你也不是第一個被這個混淆的。 我寫這篇文章就是來闡明我自己的想法和理解,所以,請耐心閱讀下面的例子,并在后面的結論中區分所有這些差異。)

 

旅程平均耗時?

調和平均值的最大用處就是計算物體以不同速度在物理空間來回運動的平均速度:

 

例如去雜貨店再回來:

去雜貨店的平均時速是30公里每小時(mph)

回來的時候堵車了,你只開到10mph

你開的是同一條線路,都是5公里。

 

我們可能天真地按算術平均值計算30mph和10mph,然后自豪地說平均速度是“20mph"!

 

但是仔細思考一下:去的時候你的速度更快,這5公里你花的時間更少。所以整個旅程的平均速度不是30mph和10mph的中間點,它應該更接近10mph一點,因為你在這個旅程中花費了更多的時間。

 

如果要正確地使用算術平均值,我們需要計算每段旅程花費的時間,然后再正確地算出加權算術平均值:

 

過去(30mph):

30 公里每分鐘 = 1公里每 2分鐘 = 1/2 公里每分鐘

以1/2 公里每分鐘的速度開5公里用時 = 5 ÷ 1/2 = 10分鐘

 

回來(10mph):

10 公里每分鐘 = 1公里每 6分鐘 = 1/6 公里每分鐘

以1/6 公里每分鐘的速度開5公里用時 = 5 ÷ 1/6 = 30分鐘

 

回來用時30分鐘

總計用時40分鐘

過去用時占比 = 10 / 40 分鐘 = .25 = 25%

回來用時占比 = 30 / 40 分鐘 = .75 = 75%

加權算術平均值 = (30 mph * .25) + (10 mph * .75) = 7.5 + 7.5 = 15

 

我們看到整個旅程的真實平均速度是15mph,比我們天真地用無加權算術平均值計算出來的20mph要慢了5mph(或者25%)。

下一步你可能已經猜到了。。。

讓我們用調和平均值試一下:

30和10的調和平均值=。。。

倒數的算術平均值 = 1/30 + 1/10 = 4/30 ÷ 2 = 4/60 = 1/15

算術平均值的倒數 = 1 ÷ 1/15 = 15 / 1 = 15

 

就是這樣!

我們旅程真實的平均速度,自動地調整了每個方向所花費的時間 = 15mph!


有幾個需要注意的地方:

 

當且僅當旅程的距離相同時才可以這樣計算。 如果不同,我們將不得不使用加權調和平均值或其他加權算術平均值。

對于算術平均值,我們會再次按照每個旅程花費的時間對速度加權,而對于調和平均值,我們將按行進的距離進行加權(因為取它們的倒數,就已經考慮了隱含在速度中的時間比例)。

 

畢達哥拉斯平均值的技巧和詭異很大程度上歸結于比率的本質和哪個比率更值得我們關注。

 

例如算術平均值需要相同的分母。

在旅行的例子中,比率的單位是公里每小時,所以算術平均值按各自的分母(在公式中看不出來)計算結果:(30公里/1小時)+(10公里/1小時)÷ 2 = 20公里/1小時=20公里每小時如果我們在每個旅程花費的時間是一樣的,那么結果就是正確的,然而實際并非如此。

 

調和平均值不同的是把這些比率倒過來,把我們實際的數值放在分母中,然后計算算術平均值,再把它倒過來,給出我們平均速度的正確答案,與花在這個速度上的時間占比。 (有關使用財務市盈率的更深入討論,請參閱本文。)

 

在復利的例子中,幾何平均值生效的原因是我們使用了相同的時間周期:每一年。如果周期在變,例如每個利率持續的時間不同,那么我們也不得不使用一些加權的方法。

 

幾何平均值適用于乘數關系,如主要投資率和不同范圍的比率,但調和平均值更進一步,通過魔法般的倒數運算,非常容易地應用到乘法/除法關系上(如變化的周期或不同的長度)

 

如同復利和幾何平均值,旅程的平均時間是調和平均值的一個應用,客觀正確的一個應用。但是再強調一下,事情并不總是那么清晰。

 

此外還有其他一些情況,你需要在物理學、金融學、水文學甚至(習慣性地加一下)棒球統計中合理運用數學計算平均值。

 

 平均值與數據科學更密切:它常常被用于機器學習模型評估中的精確度和召回率。

 

但是更多的情況,取決于你對數據的理解和你手頭的任務,自已判斷使用哪種平均值

我盡量把這三個平均值的區別講清楚,總結如下:


回顧和闡明一下我們前面證明的:

三種畢達哥拉斯平均值密切相關,每種之間相互可以當成是另一種的特殊情況。

例如,我們看到:

 

如果得分的取值范圍是一致的,那么幾何平均值和算術平均值相等。

在旅程平均速度上,調和平均值同加權算術平均值相等(速度受時間占比加權)。

 

在第二部分(之后的一篇文章)中,我們會向已經熟悉乘法轉換的人闡明 :

數據集的幾何平均值等于該數據集中每個數的對數的算術平均值。 因此,就像調和平均值只是經過幾次倒數運算后的算術平均值一樣,幾何平均值就是經過對數運算后的算術平均值。

如果每個平均值只是其他平均值轉換或重運算后的值,那么這些運算是如何影響和改變你的結果的?

 

結論2 畢達哥拉斯平均值符合嚴格的序數關系。

由它們的計算方程可得:調和平均值總是小于幾何平均值,幾何平均值總是小于算術平均值。

 

受原始數據的影響這三個平均值的差可大可小。除非整個數據集都是同一個數字,此時三個平均值完全相同。因此,下面的不等式成立:調和平均值≤幾何平均值≤算術平均值

 

你可以在本節開頭的幾何圖中看到畢達哥拉斯平均值(及均方值)的關系。

 

認識到這種關系有助于理解什么時候使用哪種平均值,以及對結果的影響是什么。

為了使這個更具體,讓我們重新審視原來的加法數據集和乘法數據集,每一個都描述了三種平均值:

加法數據集{1,4,7,10,13,16,19 ...}


調和平均值 = 4.3

幾何平均值 = 7.3

算術平均值 = 10

 

顯然幾何平均值和調和平均值似乎大大地低估了這個線性的加法數據集的“中間值”。 這是因為比起較大的數字這些手段對較小的數字更敏感(同理它們對較大的異常值相對不敏感)。

乘法數據集 {1, 3, 9, 27, 81, 243, 729…}

調和平均值  = 4.7

幾何平均值 = 27

算術平均值 = 156.1

 

在這里幾何平均值恰好等于數據集序列的中間值,而調和平均值更小。算術平均值偏高,容易受較大的異常值干擾。

用調和平均值描述一個數據集的趨中量數需要花費大量的篇幅,所以我們繼續前進吧。

 

結論3 限制條件、啟發和使用條件

計算不同尺度上的比率的平均值:使用幾何平均值(或者標準化后再計算算術平均值)

時長一致的平均復利計算:使用幾何平均值(計算不同時長或長度的利率:使用調和平均值(或加權算術平均值))

清楚你更關心哪方面的比率以及哪種平均值。算術平均值受分母影響,無論它是顯性的還是隱性的。調和平均值可以讓你倒轉比率以得到原分子的答案。(如果你的數據已經證明是加法結構:算術平均值總是沒有問題的。)

如果你的數據是乘法結構或者有較大的異常值:幾何平均值或者調和平均值可能會更準確(也可能是中位值)

 

魚與熊掌不可兼得:

使用幾何平均值會丟失有意義的單元或單位。

含0的數據集不能使用幾何平均值或調和平均值,并且有負數的數據集也無法使用幾何平均值。

 

當使用幾何平均值或調和平均值時,聽眾可能不熟悉特定的“平均值”。

 

更可行且易懂的方法是:

有大量異常值時,使用中位值。

刪除異常值或者設置異常值范圍

 

使用加權算術平均值或統計學方法而不是這兩種不常用的畢達哥拉斯平均值。

 

雖然計算機統計學語言R語言已經內置了矩陣求逆和三次樣條插值,但它沒有原生函數來計算簡單的幾何平均值或調和平均值,這可能是它們在日常使用中比較少見的部分原因。 (但是Google表格和Excel是有相關函數的)

 

用一句話概括本文,就是:

 

最好了解你所處理的數據的本質,并且仔細思考那些用于描述數據的統計摘要 - 要么就只能和大部分不明白原理的用戶一樣,冒著錯誤使用“你以為的平均值”的風險了。

詳情請戳:https://mp.weixin.qq.com/s?__biz=MzA4Nzk1MjIzNw==&mid=2650662327&idx=1&sn=be46a8615b58586d2eec539725278dad&chksm=8838dbb5bf4f52a3587b9af2a03bcd8fec0bff7d72f5a146e2f04427007fb2f6eb2503fa0639&scene=0&xtrack=1#rd

發表評論
評論通過審核后顯示。
移動訪問