Python 資料分析常用的四個工具包是numpy、scipy、pandas 和matplotlib

  • numpy是Python數值計算的基礎工具包,提供科學計算常使用的陣列或矩陣。
  • matplotlib 是則幫助我們在python內將資料圖表化。
  • scipy是基於numpy的科學計算包,包括統計、線性代數等工具。
  • pandas是基於numpy的資料分析工具,能夠快速的處理結構化資料的大量資料結構和函數。

學會Matplotlib可以幫助我們將資料處理後視覺化的表現出來,好方便我們瞭解資料的特性 ,

下面示範了3個常用的圖表,Histogram直方圖,x-y關係圖, 以及scatter分散圖

import matplotlib.pyplot as plt

Data_exp=[20,30,40,50,60,21,33,22,35,41,42,65,50,21,37,26,15,39,27,42]

x = [1,2,3,5,9]
y = [
2,3,4,5,9]

# Histogram of Data_exp, 15 bins
plt.hist(Data_exp,
15)
plt.xlabel(
"data group")
plt.ylabel(
"count")
plt.title(
"our fist historical chart")
# Show and clear plot
plt.show()
plt.clf()

# x-y chart
plt.plot(x, y)
plt.xlabel(
"year")
plt.ylabel(
"population")
plt.title(
"our fist x-y chart")

結果如下

image

 

image

Scatter Chart範例

import matplotlib.pyplot as plt
import numpy as np

x_data=[1,20,3,4,5,6,8,7,7808,9,10,12,11,5,8,9,14,11.5,12,4]
y_data=[
20,25,26,36,36,38,25,20,25,34,48,18,41,52,24,25,26,47,38,41]
col_data=[
'red','yellow','white','blue','green','red','yellow','white','blue','green','red',

'yellow','white','blue','green','red','yellow','white','blue','green'
          ]
size_data=[
1,1,1,1,1,1,1,1,1,1,20,1,1,1,1,1,1,1,1,1]

# Specify c=顏色 and alpha=透明度 inside plt.scatter()
plt.scatter(x = np.array(x_data)*1000, y = y_data, s = np.array(size_data) *42, c=col_data, alpha=0.1)

# Previous customizations
plt.xscale('log') 
plt.xlabel('x label [unit]')
plt.ylabel('y label [unit2]')
plt.title('Our first of scatter')
plt.xticks([1000,10000,100000], ['1k','10k','100k'])

#additonal text
plt.text(1010, 21, 'ˇDola')
plt.text(
10000, 50, 'Amon')

# Add grid() call
plt.grid(True)

# Show the plot
plt.show()

結果如下

alpha=1

image

alpha=0.1

image

加入格線與註解在圖表上

image

 

Reference

回到目錄

arrow
arrow

    Cheng yichung 發表在 痞客邦 留言(0) 人氣()