1樓:匿名使用者
箱盒圖(也稱盒圖,箱線圖等)是在2023年由美國統計學家john tukey發明,分析資料需要為定量資料。通過箱盒圖,可以直觀的探索資料特徵。
箱盒圖共有兩個用途,分別如下:
直觀地識別資料中異常值(離群點);
直觀地判斷資料離散分布情況,了解資料分布狀態。
箱盒圖共由五個數值點構成,分別是最小觀察值(下邊緣),25%分位數(q1),中位數,75%分位數(q3),最大觀察值(上邊緣)。
中橫線:中位數
iqr:75%分位數(q3)-25%分位數(q1)
最小觀察值(下邊緣) = q1 – 1.5 iqr
最大觀察值 (上邊緣)= q3 + 1.5 iqr
箱盒圖的使用場景情況如下:
檢視可能的異常值資料情況(比如在回歸分析前檢視是否有異常資料);
非引數檢驗時檢視不同類別x時,y的資料分布情況;
其它涉及檢視資料分布或者異常值檢視時。
spssau操作截圖如下:
上圖中直觀展示出c2時共有2個異常值點,如果對c2進行分析,且分析方法對異常值敏感時(比如相關分析,回歸分析等),此時需要對該2個異常值點進行處理成null或者填充,或者在分析時進行過濾。
spssau提供不同類別x時,y的盒狀圖分布,比如上圖中可以檢視不同性別人群,c1,c2和c3共三項在區分性別時的盒狀分布。
得到結果比如c1的盒狀圖如下:
上圖可以看出,在男性時,c1中有2個異常點;女性時,c1共出現1個異常點。移動到異常點時會顯示具體資料。此時如果有需要,可將此3個異常值進行處理,或者在分析時過濾掉異常值。
除了異常值的觀察,還可以通過資料盒狀圖直**出,男性在c1上的整體打分,會明顯高於女性打分。
2樓:du知道君
箱線圖(boxplot)也稱箱須圖(box-whisker plot),是利用資料中的五個統計量:最小值、第一四分位數、中位數、第三四分位數與最大值來描述資料的一種方法,它也可以粗略地看出資料是否具有有對稱性,分布的分散程度等資訊,特別可以用於對幾個樣本的比較。
1.直觀明了地識別資料批中的異常值
一批資料中的異常值值得關注,忽視異常值的存在是十分危險的,不加剔除地把異常值包括進資料的計算分析過程中,對結果會帶來不良影響;重視異常值的出現,分析其產生的原因,常常成為發現問題進而改進決策的契機。箱線圖為我們提供了識別異常值的乙個標準:異常值被定義為小於q1-1.
5iqr或大於q3+1.5iqr的值。雖然這種標準有點任意性,但它**於經驗判斷,經驗表明它在處理需要特別注意的資料方面表現不錯。
這與識別異常值的經典方法有些不同。眾所周知,基於正態分佈的3σ法則或z分數方法是以假定資料服從正態分佈為前提的,但實際資料往往並不嚴格服從正態分佈。它們判斷異常值的標準是以計算資料批的均值和標準差為基礎的,而均值和標準差的耐抗性極小,異常值本身會對它們產生較大影響,這樣產生的異常值個數不會多於總數0.
7%。顯然,應用這種方法於非正態分佈資料中判斷異常值,其有效性是有限的。箱線圖的繪製依靠實際資料,不需要事先假定資料服從特定的分布形式,沒有對資料作任何限制性要求,它只是真實直觀地表現資料形狀的本來面貌;另一方面,箱線圖判斷異常值的標準以四分位數和四分位距為基礎,四分位數具有一定的耐抗性,多達25%的資料可以變得任意遠而不會很大地擾動四分位數,所以異常值不能對這個標準施加影響,箱線圖識別異常值的結果比較客觀。
由此可見,箱線圖在識別異常值方面有一定的優越性。
2.利用箱線圖判斷資料批的偏態和尾重
比較標準正態分佈、不同自由度的t分布和非對稱分布資料的箱線圖的特徵,可以發現:對於標準正態分佈的大樣本,只有 0.7%的值是異常值,中位數字於上下四分位數的**,箱線圖的方盒關於中位線對稱。
選取不同自由度的t分布的大樣本,代表對稱重尾分布,當t分布的自由度越小,尾部越重,就有越大的概率觀察到異常值。以卡方分布作為非對稱分布的例子進行分析,發現當卡方分布的自由度越小,異常值出現於一側的概率越大,中位數也越偏離上下四分位數的中心位置,分布偏態性越強。異常值集中在較小值一側,則分布呈現左偏態;;異常值集中在較大值一側,則分布呈現右偏態。
下表列出了幾種分布的樣本資料箱線圖的特徵(樣本資料由sas的隨機數生成函式自動生成),驗證了上述規律。這個規律揭示了資料批分布偏態和尾重的部分資訊,儘管它們不能給出偏態和尾重程度的精確度量,但可作為我們粗略估計的依據。
3.利用箱線圖比較幾批資料的形狀
同一數軸上,幾批資料的箱線圖並行排列,幾批資料的中位數、尾長、異常值、分布區間等形狀資訊便昭然若揭。在一批資料中,哪幾個資料點出類拔萃,哪些資料點表現不及一般,這些資料點放在同類其它群體中處於什麼位置,可以通過比較各箱線圖的異常值看出。各批資料的四分位距大小,正常值的分布是集中還是分散,觀察各方盒和線段的長短便可明了。
每批資料分布的偏態如何,分析中位線和異常值的位置也可估計出來。還有一些箱線圖的變種,使資料批間的比較更加直觀明白。例如有一種可變寬度的箱線圖,使箱的寬度正比於批量的平方根,從而使批量大的資料批有面積大的箱,面積大的箱有適當的視覺效果。
如果對同類群體的幾批資料的箱線圖進行比較,分析評價,便是常模參照解釋方法的可檢視示;如果把受測者資料批的箱線圖與外在效標資料批的箱線圖比較分析,便是效標參照解釋的可檢視示。箱線圖結合這些分析方法用於質量管理、人事測評、探索性資料分析等統計分析活動中去,有助於分析過程的簡便快捷,其作用顯而易見。
箱線圖怎麼分析結論
3樓:生活類答題小能手
在箱圖中,最上方和最下方的線段分別表示資料的最大值和最小值,其中箱圖的上方和下方的線段分別表示第三四分位數和第一四分位數,箱圖中間的粗線段表示資料的中位數。另外,箱圖中在最上方和最下方的星號和圓圈分別表示樣本資料中的極端值。
有兩種型別的箱圖:單式箱圖用於分析只有乙個變數的資料分布,複式箱圖用以分析具有兩個或以上變數的資料分布。
擴充套件資料
箱形圖提供了一種只用5個點對資料集做簡單總結的方式。這5個點包括中點、q1、q3、分部狀態的高位和低位。箱形圖很形象的分為中心、延伸以及分布狀態的全部範圍。
箱形圖中最重要的是對相關統計點的計算,相關統計點都可以通過百分位計算方法進行實現。
在各種領域也經常被使用,常見於品質管理。不過作法相對較繁瑣。箱形圖於2023年由美國著名統計學家約翰·圖基(john tukey)發明。
它能顯示出一組資料的最大值、最小值、中位數、及上下四分位數。
spss箱圖結果怎麼看
4樓:匿名使用者
箱中粗線是中位數,箱子的高度是四分位差的距離,圓圈和小星星是異常值,在後期的統計中可以剔除。
怎麼看K線圖,如何看懂k線圖?
一 是什麼意思?圖還有許多其他的叫法,如蠟燭圖 日本線 陰陽線等,我們常叫 它的發明是為了更好的計算公尺價的漲跌,之後 期權等 市場都能運用到它。主要由實體和影線組成,它是看起來類似一條柱狀的線條。影線在實體上方的部分叫上影線,下方的部分叫下影線,實體分陽線和陰線。ps 影線代表的是當天交易的最高和...
家用配電箱怎麼接線求接線圖,家庭配電箱怎麼接線
配電箱是為電路系統提供低電壓,為系統的末端進行電路的保護轉換,這就是配電箱。首先家用配電箱接線的時候,要看清楚家用配電箱接線圖的設計,不要把零線和火線搞混淆了,如果兩者一旦接錯了的話,就不會產生電源,給人造成誤區,其實不管是接正還是接反,因為有漏電開關的作用,都會讓零線以及火線有動作的,因為很多零線...
如何看懂k線圖?怎樣看k線圖實圖詳解
一 是什麼意思?圖被稱作蠟燭圖 日本線 陰陽線等,這也就是我們常說的 它的發明是為了更好的計算公尺價的漲跌,後來在 期權等 市場也能看到它的身影。由影線和實體組成的柱狀線條叫 影線在實體上方的部分叫上影線,下方的部分叫下影線,實體分陽線和陰線。ps 影線代表的是當天交易的最高和最低價,實體表示的是當...