Bạn có thể sử dụng
figure, ax1 = plt.subplots[]
ax1.plot[df.iloc[:,0],df.iloc[:,1],linewidth=0.5,zorder=1, label = "Force1"]
ax1.plot[df.iloc[:,0],df.iloc[:,2],linewidth=0.5,zorder=1, label = "Force2"]
9 và vị trí cột hoặc chuyển qua cols = df.columns
figure, ax1 = plt.subplots[]
ax1.plot[df[cols[0]],df[cols[1]],linewidth=0.5,zorder=1, label = "Force1"]
ax1.plot[df[cols[0]],df[cols[2]],linewidth=0.5,zorder=1, label = "Force2"]
0 như một đối số:figure, ax1 = plt.subplots[]
ax1.plot[df[df.columns[0]],df[df.columns[1]],linewidth=0.5,zorder=1, label = "Force1"]
ax1.plot[df[df.columns[0]],df[df.columns[2]],linewidth=0.5,zorder=1, label = "Force2"]
Hoặc với
figure, ax1 = plt.subplots[]
ax1.plot[df.iloc[:,0],df.iloc[:,1],linewidth=0.5,zorder=1, label = "Force1"]
ax1.plot[df.iloc[:,0],df.iloc[:,2],linewidth=0.5,zorder=1, label = "Force2"]
9:figure, ax1 = plt.subplots[]
ax1.plot[df.iloc[:,0],df.iloc[:,1],linewidth=0.5,zorder=1, label = "Force1"]
ax1.plot[df.iloc[:,0],df.iloc[:,2],linewidth=0.5,zorder=1, label = "Force2"]
Ngoài ra, xác định danh sách tên cột và sau đó chuyển chỉ mục của nó [giống như phương thức đầu tiên]:
cols = df.columns
figure, ax1 = plt.subplots[]
ax1.plot[df[cols[0]],df[cols[1]],linewidth=0.5,zorder=1, label = "Force1"]
ax1.plot[df[cols[0]],df[cols[2]],linewidth=0.5,zorder=1, label = "Force2"]
Xem bây giờ hướng dẫn này có một khóa học video liên quan được tạo bởi nhóm Python thực sự. Xem nó cùng với hướng dẫn bằng văn bản để làm sâu sắc thêm sự hiểu biết của bạn: Cấu trúc với Pandas: Python Dữ liệu Basicization This tutorial has a related video course created by the Real Python team. Watch it together with the written tutorial to deepen your understanding: Plot With Pandas: Python Data Visualization Basics
Làm thế nào để bạn vẽ các giá trị cụ thể trong Python?visualization is an essential tool. Python’s popular data analysis library, pandas, provides several different options for visualizing your data with
cols = df.columns
figure, ax1 = plt.subplots[]
ax1.plot[df[cols[0]],df[cols[1]],linewidth=0.5,zorder=1, label = "Force1"]
ax1.plot[df[cols[0]],df[cols[2]],linewidth=0.5,zorder=1, label = "Force2"]
2. Even if you’re at the beginning of your pandas journey, you’ll soon be creating basic plots that will yield valuable insights into your data.Xác định trục x và giá trị trục y tương ứng như danh sách ..
- Vẽ chúng trên canvas bằng hàm .plot [] ..pandas plots are and when to use them
- Đặt tên cho trục x và trục y bằng các hàm .xlabel [] và .ylabel [] ..histogram
- Đưa ra một tiêu đề cho cốt truyện của bạn bằng hàm .title [] ..scatter plot
- Cuối cùng, để xem cốt truyện của bạn, chúng tôi sử dụng chức năng .show [] ..categories and their ratios
Làm cách nào để có được các cột cụ thể trong gấu trúc?
Sử dụng dataFrame.loc [] và dataFrame.iloc [] để chọn một cột hoặc nhiều cột từ Pandas DataFrame theo tên/nhãn hoặc vị trí chỉ mục.
Làm thế nào để bạn cắt một cột trong một khung dữ liệu trong Python?
Khi bạn muốn cắt một dataFrame theo phạm vi của các cột, hãy cung cấp tên cột bắt đầu và dừng ..
Bằng cách không cung cấp cột bắt đầu, loc [] chọn từ đầu ..
Bằng cách không cung cấp dừng, loc [] chọn tất cả các cột từ nhãn bắt đầu ..
Nếu bạn không muốn thực hiện bất kỳ thiết lập nào, thì hãy làm theo trong một thử nghiệm Notebook Jupyter trực tuyến.
Khi môi trường của bạn được thiết lập, bạn đã sẵn sàng tải xuống một bộ dữ liệu. Trong hướng dẫn này, bạn sẽ phân tích dữ liệu về các chuyên ngành đại học có nguồn gốc từ Khảo sát Cộng đồng Hoa Kỳ 2010 Mẫu Microdata sử dụng công cộng. Nó đóng vai trò là cơ sở cho hướng dẫn kinh tế để chọn một chuyên ngành đại học đặc trưng trên trang web FiveThentyEight.
Đầu tiên, tải xuống dữ liệu bằng cách chuyển URL tải xuống đến
cols = df.columns
figure, ax1 = plt.subplots[]
ax1.plot[df[cols[0]],df[cols[1]],linewidth=0.5,zorder=1, label = "Force1"]
ax1.plot[df[cols[0]],df[cols[2]],linewidth=0.5,zorder=1, label = "Force2"]
6:>>>
In [1]: import pandas as pd
In [2]: download_url = [
...: "//raw.githubusercontent.com/fivethirtyeight/"
...: "data/master/college-majors/recent-grads.csv"
...: ]
In [3]: df = pd.read_csv[download_url]
In [4]: type[df]
Out[4]: pandas.core.frame.DataFrame
Bằng cách gọi
cols = df.columns
figure, ax1 = plt.subplots[]
ax1.plot[df[cols[0]],df[cols[1]],linewidth=0.5,zorder=1, label = "Force1"]
ax1.plot[df[cols[0]],df[cols[2]],linewidth=0.5,zorder=1, label = "Force2"]
7, bạn tạo một khung dữ liệu, đó là cấu trúc dữ liệu chính được sử dụng trong gấu trúc.Bây giờ bạn có một khung dữ liệu, bạn có thể xem dữ liệu. Đầu tiên, bạn nên định cấu hình tùy chọn
cols = df.columns
figure, ax1 = plt.subplots[]
ax1.plot[df[cols[0]],df[cols[1]],linewidth=0.5,zorder=1, label = "Force1"]
ax1.plot[df[cols[0]],df[cols[2]],linewidth=0.5,zorder=1, label = "Force2"]
8 để đảm bảo gấu trúc không ẩn giấu bất kỳ cột nào. Sau đó, bạn có thể xem một vài hàng dữ liệu đầu tiên với cols = df.columns
figure, ax1 = plt.subplots[]
ax1.plot[df[cols[0]],df[cols[1]],linewidth=0.5,zorder=1, label = "Force1"]
ax1.plot[df[cols[0]],df[cols[2]],linewidth=0.5,zorder=1, label = "Force2"]
9:
>>>
In [5]: pd.set_option["display.max.columns", None]
In [6]: df.head[]
Bằng cách gọi
cols = df.columns
figure, ax1 = plt.subplots[]
ax1.plot[df[cols[0]],df[cols[1]],linewidth=0.5,zorder=1, label = "Force1"]
ax1.plot[df[cols[0]],df[cols[2]],linewidth=0.5,zorder=1, label = "Force2"]
7, bạn tạo một khung dữ liệu, đó là cấu trúc dữ liệu chính được sử dụng trong gấu trúc.Bây giờ bạn có một khung dữ liệu, bạn có thể xem dữ liệu. Đầu tiên, bạn nên định cấu hình tùy chọn
cols = df.columns
figure, ax1 = plt.subplots[]
ax1.plot[df[cols[0]],df[cols[1]],linewidth=0.5,zorder=1, label = "Force1"]
ax1.plot[df[cols[0]],df[cols[2]],linewidth=0.5,zorder=1, label = "Force2"]
8 để đảm bảo gấu trúc không ẩn giấu bất kỳ cột nào. Sau đó, bạn có thể xem một vài hàng dữ liệu đầu tiên với cols = df.columns
figure, ax1 = plt.subplots[]
ax1.plot[df[cols[0]],df[cols[1]],linewidth=0.5,zorder=1, label = "Force1"]
ax1.plot[df[cols[0]],df[cols[2]],linewidth=0.5,zorder=1, label = "Force2"]
9:
Bạn chỉ hiển thị năm hàng đầu tiên của DataFrame In [1]: import pandas as pd
In [2]: download_url = [
...: "//raw.githubusercontent.com/fivethirtyeight/"
...: "data/master/college-majors/recent-grads.csv"
...: ]
In [3]: df = pd.read_csv[download_url]
In [4]: type[df]
Out[4]: pandas.core.frame.DataFrame
0 bằng cách sử dụng cols = df.columns
figure, ax1 = plt.subplots[]
ax1.plot[df[cols[0]],df[cols[1]],linewidth=0.5,zorder=1, label = "Force1"]
ax1.plot[df[cols[0]],df[cols[2]],linewidth=0.5,zorder=1, label = "Force2"]
9. Đầu ra của bạn sẽ trông như thế này:
In [1]: import pandas as pd
In [2]: download_url = [
...: "//raw.githubusercontent.com/fivethirtyeight/"
...: "data/master/college-majors/recent-grads.csv"
...: ]
In [3]: df = pd.read_csv[download_url]
In [4]: type[df]
Out[4]: pandas.core.frame.DataFrame
cols = df.columns
figure, ax1 = plt.subplots[]
ax1.plot[df[cols[0]],df[cols[1]],linewidth=0.5,zorder=1, label = "Force1"]
ax1.plot[df[cols[0]],df[cols[2]],linewidth=0.5,zorder=1, label = "Force2"]
Số lượng hàng mặc định được hiển thị bởi
cols = df.columns
figure, ax1 = plt.subplots[]
ax1.plot[df[cols[0]],df[cols[1]],linewidth=0.5,zorder=1, label = "Force1"]
ax1.plot[df[cols[0]],df[cols[2]],linewidth=0.5,zorder=1, label = "Force2"]
9 là năm, nhưng bạn có thể chỉ định bất kỳ số lượng hàng nào dưới dạng đối số. Ví dụ: để hiển thị mười hàng đầu tiên, bạn sẽ sử dụng In [1]: import pandas as pd
In [2]: download_url = [
...: "//raw.githubusercontent.com/fivethirtyeight/"
...: "data/master/college-majors/recent-grads.csv"
...: ]
In [3]: df = pd.read_csv[download_url]
In [4]: type[df]
Out[4]: pandas.core.frame.DataFrame
3.- Tạo cốt truyện Pandas đầu tiên của bạn is the median earnings of full-time, year-round workers.
- Bộ dữ liệu của bạn chứa một số cột liên quan đến thu nhập của sinh viên tốt nghiệp trong mỗi chuyên ngành: is the 25th percentile of earnings.
4 là thu nhập trung bình của những người lao động toàn thời gian, quanh năm. is the 75th percentile of earnings.In [1]: import pandas as pd In [2]: download_url = [ ...: "//raw.githubusercontent.com/fivethirtyeight/" ...: "data/master/college-majors/recent-grads.csv" ...: ] In [3]: df = pd.read_csv[download_url] In [4]: type[df] Out[4]: pandas.core.frame.DataFrame
5 là phần trăm thứ 25 của thu nhập. is the major’s rank by median earnings.In [1]: import pandas as pd In [2]: download_url = [ ...: "//raw.githubusercontent.com/fivethirtyeight/" ...: "data/master/college-majors/recent-grads.csv" ...: ] In [3]: df = pd.read_csv[download_url] In [4]: type[df] Out[4]: pandas.core.frame.DataFrame
In [1]: import pandas as pd
In [2]: download_url = [
...: "//raw.githubusercontent.com/fivethirtyeight/"
...: "data/master/college-majors/recent-grads.csv"
...: ]
In [3]: df = pd.read_csv[download_url]
In [4]: type[df]
Out[4]: pandas.core.frame.DataFrame
6 là phần trăm thứ 75 của thu nhập.>>>
In [7]: %matplotlib
Using matplotlib backend: MacOSX
Bằng cách gọi
cols = df.columns
figure, ax1 = plt.subplots[]
ax1.plot[df[cols[0]],df[cols[1]],linewidth=0.5,zorder=1, label = "Force1"]
ax1.plot[df[cols[0]],df[cols[2]],linewidth=0.5,zorder=1, label = "Force2"]
7, bạn tạo một khung dữ liệu, đó là cấu trúc dữ liệu chính được sử dụng trong gấu trúc.Bây giờ bạn có một khung dữ liệu, bạn có thể xem dữ liệu. Đầu tiên, bạn nên định cấu hình tùy chọn
cols = df.columns
figure, ax1 = plt.subplots[]
ax1.plot[df[cols[0]],df[cols[1]],linewidth=0.5,zorder=1, label = "Force1"]
ax1.plot[df[cols[0]],df[cols[2]],linewidth=0.5,zorder=1, label = "Force2"]
8 để đảm bảo gấu trúc không ẩn giấu bất kỳ cột nào. Sau đó, bạn có thể xem một vài hàng dữ liệu đầu tiên với cols = df.columns
figure, ax1 = plt.subplots[]
ax1.plot[df[cols[0]],df[cols[1]],linewidth=0.5,zorder=1, label = "Force1"]
ax1.plot[df[cols[0]],df[cols[2]],linewidth=0.5,zorder=1, label = "Force2"]
9:>>>
In [8]: df.plot[x="Rank", y=["P25th", "Median", "P75th"]]
Out[8]:
Bằng cách gọi
cols = df.columns
figure, ax1 = plt.subplots[]
ax1.plot[df[cols[0]],df[cols[1]],linewidth=0.5,zorder=1, label = "Force1"]
ax1.plot[df[cols[0]],df[cols[2]],linewidth=0.5,zorder=1, label = "Force2"]
7, bạn tạo một khung dữ liệu, đó là cấu trúc dữ liệu chính được sử dụng trong gấu trúc.Bây giờ bạn có một khung dữ liệu, bạn có thể xem dữ liệu. Đầu tiên, bạn nên định cấu hình tùy chọn
cols = df.columns
figure, ax1 = plt.subplots[]
ax1.plot[df[cols[0]],df[cols[1]],linewidth=0.5,zorder=1, label = "Force1"]
ax1.plot[df[cols[0]],df[cols[2]],linewidth=0.5,zorder=1, label = "Force2"]
8 để đảm bảo gấu trúc không ẩn giấu bất kỳ cột nào. Sau đó, bạn có thể xem một vài hàng dữ liệu đầu tiên với cols = df.columns
figure, ax1 = plt.subplots[]
ax1.plot[df[cols[0]],df[cols[1]],linewidth=0.5,zorder=1, label = "Force1"]
ax1.plot[df[cols[0]],df[cols[2]],linewidth=0.5,zorder=1, label = "Force2"]
9:Bạn chỉ hiển thị năm hàng đầu tiên của DataFrame
In [1]: import pandas as pd
In [2]: download_url = [
...: "//raw.githubusercontent.com/fivethirtyeight/"
...: "data/master/college-majors/recent-grads.csv"
...: ]
In [3]: df = pd.read_csv[download_url]
In [4]: type[df]
Out[4]: pandas.core.frame.DataFrame
0 bằng cách sử dụng cols = df.columns
figure, ax1 = plt.subplots[]
ax1.plot[df[cols[0]],df[cols[1]],linewidth=0.5,zorder=1, label = "Force1"]
ax1.plot[df[cols[0]],df[cols[2]],linewidth=0.5,zorder=1, label = "Force2"]
9. Đầu ra của bạn sẽ trông như thế này:Số lượng hàng mặc định được hiển thị bởi
9 là năm, nhưng bạn có thể chỉ định bất kỳ số lượng hàng nào dưới dạng đối số. Ví dụ: để hiển thị mười hàng đầu tiên, bạn sẽ sử dụngcols = df.columns figure, ax1 = plt.subplots[] ax1.plot[df[cols[0]],df[cols[1]],linewidth=0.5,zorder=1, label = "Force1"] ax1.plot[df[cols[0]],df[cols[2]],linewidth=0.5,zorder=1, label = "Force2"]
3.In [1]: import pandas as pd In [2]: download_url = [ ...: "//raw.githubusercontent.com/fivethirtyeight/" ...: "data/master/college-majors/recent-grads.csv" ...: ] In [3]: df = pd.read_csv[download_url] In [4]: type[df] Out[4]: pandas.core.frame.DataFrame
Tạo cốt truyện Pandas đầu tiên của bạn
Bộ dữ liệu của bạn chứa một số cột liên quan đến thu nhập của sinh viên tốt nghiệp trong mỗi chuyên ngành:
In [1]: import pandas as pd
In [2]: download_url = [
...: "//raw.githubusercontent.com/fivethirtyeight/"
...: "data/master/college-majors/recent-grads.csv"
...: ]
In [3]: df = pd.read_csv[download_url]
In [4]: type[df]
Out[4]: pandas.core.frame.DataFrame
4 là thu nhập trung bình của những người lao động toàn thời gian, quanh năm.In [1]: import pandas as pd
In [2]: download_url = [
...: "//raw.githubusercontent.com/fivethirtyeight/"
...: "data/master/college-majors/recent-grads.csv"
...: ]
In [3]: df = pd.read_csv[download_url]
In [4]: type[df]
Out[4]: pandas.core.frame.DataFrame
5 là phần trăm thứ 25 của thu nhập.
6 là phần trăm thứ 75 của thu nhập. is for area plots.In [1]: import pandas as pd In [2]: download_url = [ ...: "//raw.githubusercontent.com/fivethirtyeight/" ...: "data/master/college-majors/recent-grads.csv" ...: ] In [3]: df = pd.read_csv[download_url] In [4]: type[df] Out[4]: pandas.core.frame.DataFrame
7 là thứ hạng chính của thu nhập trung bình. is for vertical bar charts.In [1]: import pandas as pd In [2]: download_url = [ ...: "//raw.githubusercontent.com/fivethirtyeight/" ...: "data/master/college-majors/recent-grads.csv" ...: ] In [3]: df = pd.read_csv[download_url] In [4]: type[df] Out[4]: pandas.core.frame.DataFrame
- Hãy bắt đầu với một cốt truyện hiển thị các cột này. Đầu tiên, bạn cần thiết lập sổ ghi chép Jupyter của mình để hiển thị các sơ đồ với lệnh
8 Magic: is for horizontal bar charts.In [1]: import pandas as pd In [2]: download_url = [ ...: "//raw.githubusercontent.com/fivethirtyeight/" ...: "data/master/college-majors/recent-grads.csv" ...: ] In [3]: df = pd.read_csv[download_url] In [4]: type[df] Out[4]: pandas.core.frame.DataFrame
- Lệnh Magic
8 đã thiết lập sổ ghi chép Jupyter của bạn để hiển thị các sơ đồ với matplotlib. Phần phụ trợ đồ họa matplotlib tiêu chuẩn được sử dụng theo mặc định và các lô của bạn sẽ được hiển thị trong một cửa sổ riêng biệt. is for box plots.In [1]: import pandas as pd In [2]: download_url = [ ...: "//raw.githubusercontent.com/fivethirtyeight/" ...: "data/master/college-majors/recent-grads.csv" ...: ] In [3]: df = pd.read_csv[download_url] In [4]: type[df] Out[4]: pandas.core.frame.DataFrame
- Bây giờ bạn đã sẵn sàng để thực hiện cốt truyện đầu tiên của bạn! Bạn có thể làm như vậy với
2: is for hexbin plots.cols = df.columns figure, ax1 = plt.subplots[] ax1.plot[df[cols[0]],df[cols[1]],linewidth=0.5,zorder=1, label = "Force1"] ax1.plot[df[cols[0]],df[cols[2]],linewidth=0.5,zorder=1, label = "Force2"]
2 Trả về một biểu đồ dòng chứa dữ liệu từ mỗi hàng trong DataFrame. Các giá trị trục X đại diện cho thứ hạng của mỗi tổ chức và các giá trịcols = df.columns figure, ax1 = plt.subplots[] ax1.plot[df[cols[0]],df[cols[1]],linewidth=0.5,zorder=1, label = "Force1"] ax1.plot[df[cols[0]],df[cols[2]],linewidth=0.5,zorder=1, label = "Force2"]
5,In [1]: import pandas as pd In [2]: download_url = [ ...: "//raw.githubusercontent.com/fivethirtyeight/" ...: "data/master/college-majors/recent-grads.csv" ...: ] In [3]: df = pd.read_csv[download_url] In [4]: type[df] Out[4]: pandas.core.frame.DataFrame
4 vàIn [1]: import pandas as pd In [2]: download_url = [ ...: "//raw.githubusercontent.com/fivethirtyeight/" ...: "data/master/college-majors/recent-grads.csv" ...: ] In [3]: df = pd.read_csv[download_url] In [4]: type[df] Out[4]: pandas.core.frame.DataFrame
6 được vẽ trên trục y. is for histograms.In [1]: import pandas as pd In [2]: download_url = [ ...: "//raw.githubusercontent.com/fivethirtyeight/" ...: "data/master/college-majors/recent-grads.csv" ...: ] In [3]: df = pd.read_csv[download_url] In [4]: type[df] Out[4]: pandas.core.frame.DataFrame
- Hình được tạo ra bởi
2 được hiển thị trong một cửa sổ riêng biệt theo mặc định và trông như thế này: is for kernel density estimate charts.cols = df.columns figure, ax1 = plt.subplots[] ax1.plot[df[cols[0]],df[cols[1]],linewidth=0.5,zorder=1, label = "Force1"] ax1.plot[df[cols[0]],df[cols[2]],linewidth=0.5,zorder=1, label = "Force2"]
- Nhìn vào cốt truyện, bạn có thể thực hiện các quan sát sau: is an alias for
4.In [7]: %matplotlib Using matplotlib backend: MacOSX
- Thu nhập trung bình giảm khi thứ hạng giảm. Điều này được dự kiến bởi vì thứ hạng được xác định bởi thu nhập trung bình. is for line graphs.
- Một số chuyên ngành có khoảng cách lớn giữa phần trăm thứ 25 và 75. Những người có bằng cấp này có thể kiếm được nhiều hơn hoặc nhiều hơn đáng kể so với thu nhập trung bình. is for pie charts.
- Các chuyên ngành khác có khoảng cách rất nhỏ giữa phần trăm thứ 25 và 75. Những người có bằng cấp này kiếm được tiền lương rất gần với thu nhập trung bình. is for scatter plots.
Cốt truyện đầu tiên của bạn đã gợi ý rằng có rất nhiều điều để khám phá trong dữ liệu! Một số chuyên ngành có một loạt các khoản thu nhập, và những người khác có phạm vi khá hẹp. Để khám phá những khác biệt này, bạn sẽ sử dụng một số loại lô khác.
cols = df.columns
figure, ax1 = plt.subplots[]
ax1.plot[df[cols[0]],df[cols[1]],linewidth=0.5,zorder=1, label = "Force1"]
ax1.plot[df[cols[0]],df[cols[2]],linewidth=0.5,zorder=1, label = "Force2"]
2 có một số tham số tùy chọn. Đáng chú ý nhất, tham số In [5]: pd.set_option["display.max.columns", None]
In [6]: df.head[]
7 chấp nhận mười một giá trị chuỗi khác nhau và xác định loại cốt truyện mà bạn sẽ tạo ra:In [5]: pd.set_option["display.max.columns", None]
In [6]: df.head[]
8 là cho các lô khu vực.In [5]: pd.set_option["display.max.columns", None]
In [6]: df.head[]
9 là cho biểu đồ thanh dọc.
In [5]: pd.set_option["display.max.columns", None]
In [6]: df.head[]
In [7]: %matplotlib
Using matplotlib backend: MacOSX
0 là cho biểu đồ thanh ngang.In [7]: %matplotlib
Using matplotlib backend: MacOSX
1 là cho các ô hộp.>>>
In [9]: import matplotlib.pyplot as plt
In [10]: plt.plot[df["Rank"], df["P75th"]]
Out[10]: []
In [7]: %matplotlib
Using matplotlib backend: MacOSX
2 là cho các lô hexbin.
Kết quả là một biểu đồ dòng biểu thị phần trăm thứ 75 trên trục y so với thứ hạng trên trục x:
Bạn có thể tạo chính xác cùng một biểu đồ bằng phương thức
In [8]: df.plot[x="Rank", y=["P25th", "Median", "P75th"]]
Out[8]:
4 đối tượng cols = df.columns
figure, ax1 = plt.subplots[]
ax1.plot[df[cols[0]],df[cols[1]],linewidth=0.5,zorder=1, label = "Force1"]
ax1.plot[df[cols[0]],df[cols[2]],linewidth=0.5,zorder=1, label = "Force2"]
2:>>>
In [11]: df.plot[x="Rank", y="P75th"]
Out[11]:
cols = df.columns
figure, ax1 = plt.subplots[]
ax1.plot[df[cols[0]],df[cols[1]],linewidth=0.5,zorder=1, label = "Force1"]
ax1.plot[df[cols[0]],df[cols[2]],linewidth=0.5,zorder=1, label = "Force2"]
2 là một trình bao bọc cho In [9]: import matplotlib.pyplot as plt
In [10]: plt.plot[df["Rank"], df["P75th"]]
Out[10]: []
4 và kết quả là một biểu đồ giống hệt với bản đồ bạn sản xuất với matplotlib:wrapper for In [9]: import matplotlib.pyplot as plt
In [10]: plt.plot[df["Rank"], df["P75th"]]
Out[10]: []
4, and the result is a graph identical to the one you produced with Matplotlib:Bạn có thể sử dụng cả
In [9]: import matplotlib.pyplot as plt
In [10]: plt.plot[df["Rank"], df["P75th"]]
Out[10]: []
4 và In [9]: import matplotlib.pyplot as plt
In [10]: plt.plot[df["Rank"], df["P75th"]]
Out[10]: []
6 để tạo cùng một biểu đồ từ các cột của đối tượng In [8]: df.plot[x="Rank", y=["P25th", "Median", "P75th"]]
Out[8]:
4. Tuy nhiên, nếu bạn đã có một phiên bản In [8]: df.plot[x="Rank", y=["P25th", "Median", "P75th"]]
Out[8]:
4, thì In [9]: import matplotlib.pyplot as plt
In [10]: plt.plot[df["Rank"], df["P75th"]]
Out[10]: []
6 cung cấp cú pháp sạch hơn so với In [9]: import matplotlib.pyplot as plt
In [10]: plt.plot[df["Rank"], df["P75th"]]
Out[10]: []
4.Bây giờ bạn đã biết rằng phương pháp
In [8]: df.plot[x="Rank", y=["P25th", "Median", "P75th"]]
Out[8]:
4 đối tượng ____ ____22 là một trình bao bọc cho matplotlib, ____ ____74, hãy để Lướt đi vào các loại lô khác nhau mà bạn có thể tạo ra và làm thế nào để tạo ra chúng.Khảo sát dữ liệu của bạn
Các sơ đồ tiếp theo sẽ cung cấp cho bạn một cái nhìn tổng quan chung về một cột cụ thể trong bộ dữ liệu của bạn. Đầu tiên, bạn sẽ có một cái nhìn về phân phối thuộc tính với biểu đồ. Sau đó, bạn sẽ biết một số công cụ để kiểm tra các ngoại lệ.
Phân phối và biểu đồ
In [8]: df.plot[x="Rank", y=["P25th", "Median", "P75th"]]
Out[8]:
4 không phải là lớp duy nhất trong gấu trúc với phương pháp cols = df.columns
figure, ax1 = plt.subplots[]
ax1.plot[df[cols[0]],df[cols[1]],linewidth=0.5,zorder=1, label = "Force1"]
ax1.plot[df[cols[0]],df[cols[2]],linewidth=0.5,zorder=1, label = "Force2"]
2. Như thường xảy ra trong gấu trúc, đối tượng In [11]: df.plot[x="Rank", y="P75th"]
Out[11]:
6 cung cấp chức năng tương tự.Bạn có thể nhận được từng cột của DataFrame dưới dạng đối tượng
In [11]: df.plot[x="Rank", y="P75th"]
Out[11]:
6. Ở đây, một ví dụ sử dụng cột In [1]: import pandas as pd
In [2]: download_url = [
...: "//raw.githubusercontent.com/fivethirtyeight/"
...: "data/master/college-majors/recent-grads.csv"
...: ]
In [3]: df = pd.read_csv[download_url]
In [4]: type[df]
Out[4]: pandas.core.frame.DataFrame
4 của DataFrame bạn đã tạo từ dữ liệu chính của trường đại học:>>>
In [12]: median_column = df["Median"]
In [13]: type[median_column]
Out[13]: pandas.core.series.Series
cols = df.columns
figure, ax1 = plt.subplots[]
ax1.plot[df[cols[0]],df[cols[1]],linewidth=0.5,zorder=1, label = "Force1"]
ax1.plot[df[cols[0]],df[cols[2]],linewidth=0.5,zorder=1, label = "Force2"]
2 là một trình bao bọc cho In [9]: import matplotlib.pyplot as plt
In [10]: plt.plot[df["Rank"], df["P75th"]]
Out[10]: []
4 và kết quả là một biểu đồ giống hệt với bản đồ bạn sản xuất với matplotlib:bins and display a count of the data points whose
values are in a particular bin.Bạn có thể sử dụng cả
In [9]: import matplotlib.pyplot as plt
In [10]: plt.plot[df["Rank"], df["P75th"]]
Out[10]: []
4 và In [9]: import matplotlib.pyplot as plt
In [10]: plt.plot[df["Rank"], df["P75th"]]
Out[10]: []
6 để tạo cùng một biểu đồ từ các cột của đối tượng In [8]: df.plot[x="Rank", y=["P25th", "Median", "P75th"]]
Out[8]:
4. Tuy nhiên, nếu bạn đã có một phiên bản In [8]: df.plot[x="Rank", y=["P25th", "Median", "P75th"]]
Out[8]:
4, thì In [9]: import matplotlib.pyplot as plt
In [10]: plt.plot[df["Rank"], df["P75th"]]
Out[10]: []
6 cung cấp cú pháp sạch hơn so với In [9]: import matplotlib.pyplot as plt
In [10]: plt.plot[df["Rank"], df["P75th"]]
Out[10]: []
4.>>>
figure, ax1 = plt.subplots[]
ax1.plot[df.iloc[:,0],df.iloc[:,1],linewidth=0.5,zorder=1, label = "Force1"]
ax1.plot[df.iloc[:,0],df.iloc[:,2],linewidth=0.5,zorder=1, label = "Force2"]
0cols = df.columns
figure, ax1 = plt.subplots[]
ax1.plot[df[cols[0]],df[cols[1]],linewidth=0.5,zorder=1, label = "Force1"]
ax1.plot[df[cols[0]],df[cols[2]],linewidth=0.5,zorder=1, label = "Force2"]
2 là một trình bao bọc cho In [9]: import matplotlib.pyplot as plt
In [10]: plt.plot[df["Rank"], df["P75th"]]
Out[10]: []
4 và kết quả là một biểu đồ giống hệt với bản đồ bạn sản xuất với matplotlib:Bạn có thể sử dụng cả
In [9]: import matplotlib.pyplot as plt
In [10]: plt.plot[df["Rank"], df["P75th"]]
Out[10]: []
4 và In [9]: import matplotlib.pyplot as plt
In [10]: plt.plot[df["Rank"], df["P75th"]]
Out[10]: []
6 để tạo cùng một biểu đồ từ các cột của đối tượng In [8]: df.plot[x="Rank", y=["P25th", "Median", "P75th"]]
Out[8]:
4. Tuy nhiên, nếu bạn đã có một phiên bản In [8]: df.plot[x="Rank", y=["P25th", "Median", "P75th"]]
Out[8]:
4, thì In [9]: import matplotlib.pyplot as plt
In [10]: plt.plot[df["Rank"], df["P75th"]]
Out[10]: []
6 cung cấp cú pháp sạch hơn so với In [9]: import matplotlib.pyplot as plt
In [10]: plt.plot[df["Rank"], df["P75th"]]
Out[10]: []
4.Bây giờ bạn đã biết rằng phương pháp
In [8]: df.plot[x="Rank", y=["P25th", "Median", "P75th"]]
Out[8]:
4 đối tượng ____ ____22 là một trình bao bọc cho matplotlib, ____ ____74, hãy để Lướt đi vào các loại lô khác nhau mà bạn có thể tạo ra và làm thế nào để tạo ra chúng.width of $10,000. The histogram has a different shape than the normal distribution, which has a symmetric bell shape with a peak in the middle.Khảo sát dữ liệu của bạntail stretches far to the right and suggests that there are indeed fields whose majors can expect significantly higher earnings.
Các sơ đồ tiếp theo sẽ cung cấp cho bạn một cái nhìn tổng quan chung về một cột cụ thể trong bộ dữ liệu của bạn. Đầu tiên, bạn sẽ có một cái nhìn về phân phối thuộc tính với biểu đồ. Sau đó, bạn sẽ biết một số công cụ để kiểm tra các ngoại lệ.
Phân phối và biểu đồ
4 không phải là lớp duy nhất trong gấu trúc với phương phápIn [8]: df.plot[x="Rank", y=["P25th", "Median", "P75th"]] Out[8]:
2. Như thường xảy ra trong gấu trúc, đối tượngcols = df.columns figure, ax1 = plt.subplots[] ax1.plot[df[cols[0]],df[cols[1]],linewidth=0.5,zorder=1, label = "Force1"] ax1.plot[df[cols[0]],df[cols[2]],linewidth=0.5,zorder=1, label = "Force2"]
6 cung cấp chức năng tương tự.In [11]: df.plot[x="Rank", y="P75th"] Out[11]:
- Bạn có thể nhận được từng cột của DataFrame dưới dạng đối tượng
6. Ở đây, một ví dụ sử dụng cộtIn [11]: df.plot[x="Rank", y="P75th"] Out[11]:
4 của DataFrame bạn đã tạo từ dữ liệu chính của trường đại học:In [1]: import pandas as pd In [2]: download_url = [ ...: "//raw.githubusercontent.com/fivethirtyeight/" ...: "data/master/college-majors/recent-grads.csv" ...: ] In [3]: df = pd.read_csv[download_url] In [4]: type[df] Out[4]: pandas.core.frame.DataFrame
Bây giờ bạn có một đối tượng
In [11]: df.plot[x="Rank", y="P75th"]
Out[11]:
6, bạn có thể tạo một lô cho nó. Biểu đồ là một cách tốt để hình dung cách các giá trị được phân phối trên một bộ dữ liệu. Biểu đồ giá trị nhóm thành các thùng và hiển thị số lượng các điểm dữ liệu có giá trị trong một thùng cụ thể.- Hãy để tạo ra một biểu đồ cho cột
4:In [1]: import pandas as pd In [2]: download_url = [ ...: "//raw.githubusercontent.com/fivethirtyeight/" ...: "data/master/college-majors/recent-grads.csv" ...: ] In [3]: df = pd.read_csv[download_url] In [4]: type[df] Out[4]: pandas.core.frame.DataFrame
- Bạn gọi
2 trên sê -ricols = df.columns figure, ax1 = plt.subplots[] ax1.plot[df[cols[0]],df[cols[1]],linewidth=0.5,zorder=1, label = "Force1"] ax1.plot[df[cols[0]],df[cols[2]],linewidth=0.5,zorder=1, label = "Force2"]
2 và chuyển chuỗiIn [12]: median_column = df["Median"] In [13]: type[median_column] Out[13]: pandas.core.series.Series
3 cho tham sốIn [7]: %matplotlib Using matplotlib backend: MacOSX
7. Thats tất cả để có nó!In [5]: pd.set_option["display.max.columns", None] In [6]: df.head[]
Khi bạn gọi
cols = df.columns
figure, ax1 = plt.subplots[]
ax1.plot[df[cols[0]],df[cols[1]],linewidth=0.5,zorder=1, label = "Force1"]
ax1.plot[df[cols[0]],df[cols[2]],linewidth=0.5,zorder=1, label = "Force2"]
2, bạn sẽ thấy con số sau:>>>
figure, ax1 = plt.subplots[]
ax1.plot[df.iloc[:,0],df.iloc[:,1],linewidth=0.5,zorder=1, label = "Force1"]
ax1.plot[df.iloc[:,0],df.iloc[:,2],linewidth=0.5,zorder=1, label = "Force2"]
1Biểu đồ hiển thị dữ liệu được nhóm thành mười thùng dao động từ 20.000 đến 120.000 đô la và mỗi thùng có chiều rộng 10.000 đô la. Biểu đồ có hình dạng khác với phân phối bình thường, có hình chuông đối xứng với cực đại ở giữa.
>>>
figure, ax1 = plt.subplots[]
ax1.plot[df.iloc[:,0],df.iloc[:,1],linewidth=0.5,zorder=1, label = "Force1"]
ax1.plot[df.iloc[:,0],df.iloc[:,2],linewidth=0.5,zorder=1, label = "Force2"]
2Biểu đồ của dữ liệu trung bình, tuy nhiên, đạt đỉnh bên trái dưới 40.000 đô la. Cái đuôi trải dài sang bên phải và gợi ý rằng thực sự có những lĩnh vực mà các chuyên ngành có thể mong đợi thu nhập cao hơn đáng kể.
Outliers
Bạn đã phát hiện ra thùng nhỏ cô đơn ở cạnh phải của phân phối? Có vẻ như một điểm dữ liệu có thể loại riêng. Các chuyên ngành trong lĩnh vực này nhận được mức lương tuyệt vời không chỉ với mức trung bình mà còn với á quân. Mặc dù đây là mục đích chính của nó, một biểu đồ có thể giúp bạn phát hiện ra một ngoại lệ như vậy. Hãy để điều tra ngoại lệ hơn một chút:
Những chuyên ngành này đại diện cho người ngoại lệ này?
>>>
figure, ax1 = plt.subplots[]
ax1.plot[df.iloc[:,0],df.iloc[:,1],linewidth=0.5,zorder=1, label = "Force1"]
ax1.plot[df.iloc[:,0],df.iloc[:,2],linewidth=0.5,zorder=1, label = "Force2"]
3Tương tự của nó lớn như thế nào?
Trái với tổng quan đầu tiên, bạn chỉ muốn so sánh một vài điểm dữ liệu, nhưng bạn muốn xem thêm chi tiết về chúng. Đối với điều này, một cốt truyện thanh là một công cụ tuyệt vời. Đầu tiên, chọn năm chuyên ngành với thu nhập trung bình cao nhất. Bạn sẽ cần hai bước:
Để sắp xếp theo cột
In [1]: import pandas as pd
In [2]: download_url = [
...: "//raw.githubusercontent.com/fivethirtyeight/"
...: "data/master/college-majors/recent-grads.csv"
...: ]
In [3]: df = pd.read_csv[download_url]
In [4]: type[df]
Out[4]: pandas.core.frame.DataFrame
4, hãy sử dụng In [12]: median_column = df["Median"]
In [13]: type[median_column]
Out[13]: pandas.core.series.Series
7 và cung cấp tên của cột bạn muốn sắp xếp theo hướng In [12]: median_column = df["Median"]
In [13]: type[median_column]
Out[13]: pandas.core.series.Series
8.Dữ liệu không hợp lệ có thể được gây ra bởi bất kỳ số lượng lỗi hoặc giám sát nào, bao gồm mất cảm biến, lỗi trong quá trình nhập dữ liệu thủ công hoặc năm tuổi tham gia vào một nhóm tập trung có nghĩa là từ mười tuổi trở lên. Điều tra các ngoại lệ là một bước quan trọng trong việc làm sạch dữ liệu.
Ngay cả khi dữ liệu là chính xác, bạn có thể quyết định rằng nó rất khác so với phần còn lại mà nó tạo ra nhiều tiếng ồn hơn lợi ích. Hãy giả sử bạn phân tích dữ liệu bán hàng của một nhà xuất bản nhỏ. Bạn nhóm doanh thu theo khu vực và so sánh chúng với cùng tháng của năm trước. Sau đó, ra khỏi màu xanh, nhà xuất bản có được một cuốn sách bán chạy nhất quốc gia.
Sự kiện dễ chịu này làm cho báo cáo của bạn là vô nghĩa. Với dữ liệu bán chạy nhất bao gồm, doanh số sẽ tăng lên ở khắp mọi nơi. Thực hiện phân tích tương tự mà không có ngoại lệ sẽ cung cấp nhiều thông tin có giá trị hơn, cho phép bạn thấy rằng ở New York, số lượng doanh số của bạn đã được cải thiện đáng kể, nhưng ở Miami, chúng trở nên tồi tệ hơn.
Kiểm tra tương quan
Thường thì bạn muốn xem liệu hai cột của bộ dữ liệu có được kết nối hay không. Nếu bạn chọn một chuyên ngành với thu nhập trung bình cao hơn, bạn cũng có cơ hội thất nghiệp thấp hơn? Bước đầu tiên, hãy tạo một biểu đồ phân tán với hai cột đó:
>>>
figure, ax1 = plt.subplots[]
ax1.plot[df.iloc[:,0],df.iloc[:,1],linewidth=0.5,zorder=1, label = "Force1"]
ax1.plot[df.iloc[:,0],df.iloc[:,2],linewidth=0.5,zorder=1, label = "Force2"]
4Bạn sẽ thấy một cốt truyện trông khá ngẫu nhiên, như thế này:
Nhìn thoáng qua con số này cho thấy rằng không có mối tương quan đáng kể nào giữa thu nhập và tỷ lệ thất nghiệp.
Mặc dù một âm mưu phân tán là một công cụ tuyệt vời để có được ấn tượng đầu tiên về mối tương quan có thể xảy ra, nhưng nó chắc chắn là bằng chứng dứt khoát về một kết nối. Để biết tổng quan về các mối tương quan giữa các cột khác nhau, bạn có thể sử dụng
figure, ax1 = plt.subplots[]
ax1.plot[df.iloc[:,0],df.iloc[:,1],linewidth=0.5,zorder=1, label = "Force1"]
ax1.plot[df.iloc[:,0],df.iloc[:,2],linewidth=0.5,zorder=1, label = "Force2"]
04. Nếu bạn nghi ngờ mối tương quan giữa hai giá trị, thì bạn có một số công cụ theo ý của bạn để xác minh linh cảm của bạn và đo mức độ tương quan mạnh mẽ như thế nào.Mặc dù vậy, hãy nhớ rằng ngay cả khi một mối tương quan tồn tại giữa hai giá trị, điều đó vẫn không có nghĩa là một sự thay đổi trong cái này sẽ dẫn đến sự thay đổi trong vấn đề kia. Nói cách khác, mối tương quan không ngụ ý nhân quả.
Phân tích dữ liệu phân loại
Để xử lý các khối thông tin lớn hơn, tâm trí con người một cách có ý thức và vô thức sắp xếp dữ liệu thành các danh mục. Kỹ thuật này thường rất hữu ích, nhưng nó khác xa với hoàn hảo.
Đôi khi chúng tôi đặt mọi thứ vào một thể loại, khi kiểm tra thêm, aren tất cả tương tự như vậy. Trong phần này, bạn sẽ biết một số công cụ để kiểm tra các danh mục và xác minh xem một phân loại nhất định có ý nghĩa hay không.
Nhiều bộ dữ liệu đã chứa một số phân loại rõ ràng hoặc tiềm ẩn. Trong ví dụ hiện tại, 173 chuyên ngành được chia thành 16 loại.
Nhóm
Một cách sử dụng cơ bản của các danh mục là nhóm và tổng hợp. Bạn có thể sử dụng
figure, ax1 = plt.subplots[]
ax1.plot[df.iloc[:,0],df.iloc[:,1],linewidth=0.5,zorder=1, label = "Force1"]
ax1.plot[df.iloc[:,0],df.iloc[:,2],linewidth=0.5,zorder=1, label = "Force2"]
05 để xác định mức độ phổ biến của từng danh mục trong bộ dữ liệu chính của trường đại học:>>>
figure, ax1 = plt.subplots[]
ax1.plot[df.iloc[:,0],df.iloc[:,1],linewidth=0.5,zorder=1, label = "Force1"]
ax1.plot[df.iloc[:,0],df.iloc[:,2],linewidth=0.5,zorder=1, label = "Force2"]
5Bạn sẽ thấy một cốt truyện trông khá ngẫu nhiên, như thế này:
Nhìn thoáng qua con số này cho thấy rằng không có mối tương quan đáng kể nào giữa thu nhập và tỷ lệ thất nghiệp.
>>>
figure, ax1 = plt.subplots[]
ax1.plot[df.iloc[:,0],df.iloc[:,1],linewidth=0.5,zorder=1, label = "Force1"]
ax1.plot[df.iloc[:,0],df.iloc[:,2],linewidth=0.5,zorder=1, label = "Force2"]
6Bạn sẽ thấy một cốt truyện trông khá ngẫu nhiên, như thế này:
Nhìn thoáng qua con số này cho thấy rằng không có mối tương quan đáng kể nào giữa thu nhập và tỷ lệ thất nghiệp.
Mặc dù một âm mưu phân tán là một công cụ tuyệt vời để có được ấn tượng đầu tiên về mối tương quan có thể xảy ra, nhưng nó chắc chắn là bằng chứng dứt khoát về một kết nối. Để biết tổng quan về các mối tương quan giữa các cột khác nhau, bạn có thể sử dụng figure, ax1 = plt.subplots[]
ax1.plot[df.iloc[:,0],df.iloc[:,1],linewidth=0.5,zorder=1, label = "Force1"]
ax1.plot[df.iloc[:,0],df.iloc[:,2],linewidth=0.5,zorder=1, label = "Force2"]
04. Nếu bạn nghi ngờ mối tương quan giữa hai giá trị, thì bạn có một số công cụ theo ý của bạn để xác minh linh cảm của bạn và đo mức độ tương quan mạnh mẽ như thế nào.
figure, ax1 = plt.subplots[]
ax1.plot[df.iloc[:,0],df.iloc[:,1],linewidth=0.5,zorder=1, label = "Force1"]
ax1.plot[df.iloc[:,0],df.iloc[:,2],linewidth=0.5,zorder=1, label = "Force2"]
Mặc dù vậy, hãy nhớ rằng ngay cả khi một mối tương quan tồn tại giữa hai giá trị, điều đó vẫn không có nghĩa là một sự thay đổi trong cái này sẽ dẫn đến sự thay đổi trong vấn đề kia. Nói cách khác, mối tương quan không ngụ ý nhân quả.
Phân tích dữ liệu phân loại
>>>
figure, ax1 = plt.subplots[]
ax1.plot[df.iloc[:,0],df.iloc[:,1],linewidth=0.5,zorder=1, label = "Force1"]
ax1.plot[df.iloc[:,0],df.iloc[:,2],linewidth=0.5,zorder=1, label = "Force2"]
7Bạn sẽ thấy một cốt truyện trông khá ngẫu nhiên, như thế này:
Nhìn thoáng qua con số này cho thấy rằng không có mối tương quan đáng kể nào giữa thu nhập và tỷ lệ thất nghiệp.
Mặc dù một âm mưu phân tán là một công cụ tuyệt vời để có được ấn tượng đầu tiên về mối tương quan có thể xảy ra, nhưng nó chắc chắn là bằng chứng dứt khoát về một kết nối. Để biết tổng quan về các mối tương quan giữa các cột khác nhau, bạn có thể sử dụng
figure, ax1 = plt.subplots[]
ax1.plot[df.iloc[:,0],df.iloc[:,1],linewidth=0.5,zorder=1, label = "Force1"]
ax1.plot[df.iloc[:,0],df.iloc[:,2],linewidth=0.5,zorder=1, label = "Force2"]
04. Nếu bạn nghi ngờ mối tương quan giữa hai giá trị, thì bạn có một số công cụ theo ý của bạn để xác minh linh cảm của bạn và đo mức độ tương quan mạnh mẽ như thế nào.Mặc dù vậy, hãy nhớ rằng ngay cả khi một mối tương quan tồn tại giữa hai giá trị, điều đó vẫn không có nghĩa là một sự thay đổi trong cái này sẽ dẫn đến sự thay đổi trong vấn đề kia. Nói cách khác, mối tương quan không ngụ ý nhân quả.
Phân tích dữ liệu phân loại
Để xử lý các khối thông tin lớn hơn, tâm trí con người một cách có ý thức và vô thức sắp xếp dữ liệu thành các danh mục. Kỹ thuật này thường rất hữu ích, nhưng nó khác xa với hoàn hảo.
>>>
figure, ax1 = plt.subplots[]
ax1.plot[df.iloc[:,0],df.iloc[:,1],linewidth=0.5,zorder=1, label = "Force1"]
ax1.plot[df.iloc[:,0],df.iloc[:,2],linewidth=0.5,zorder=1, label = "Force2"]
8Bạn sẽ nhận được một biểu đồ mà bạn có thể so sánh với biểu đồ của tất cả các chuyên ngành từ đầu:
Phạm vi thu nhập trung bình chính có phần nhỏ hơn, bắt đầu từ 40.000 đô la. Phân phối gần với bình thường hơn, mặc dù đỉnh của nó vẫn ở bên trái. Vì vậy, ngay cả khi bạn đã quyết định chọn một chuyên ngành trong danh mục kỹ thuật, sẽ là khôn ngoan khi lặn sâu hơn và phân tích các lựa chọn của bạn kỹ lưỡng hơn.
Sự kết luận
Trong hướng dẫn này, bạn đã học cách bắt đầu trực quan hóa bộ dữ liệu của mình bằng Python và Thư viện Pandas. Bạn đã thấy làm thế nào một số sơ đồ cơ bản có thể cung cấp cho bạn cái nhìn sâu sắc về dữ liệu của bạn và hướng dẫn phân tích của bạn.visualizing your dataset using Python and the pandas library. You’ve seen how some basic plots can give you insight into your data and guide your analysis.
Trong hướng dẫn này, bạn đã học được cách:
- Nhận tổng quan về phân phối dữ liệu của bạn với biểu đồhistogram
- Khám phá mối tương quan với một âm mưu phân tánscatter plot
- Phân tích các danh mục với các lô thanh và tỷ lệ của chúng với các lô bánhbar plots and their ratios with pie plots
- Xác định lô nào phù hợp nhất với nhiệm vụ hiện tại của bạnmost suited to your current task
Sử dụng
cols = df.columns
figure, ax1 = plt.subplots[]
ax1.plot[df[cols[0]],df[cols[1]],linewidth=0.5,zorder=1, label = "Force1"]
ax1.plot[df[cols[0]],df[cols[2]],linewidth=0.5,zorder=1, label = "Force2"]
2 và một khung dữ liệu nhỏ, bạn đã phát hiện ra khá nhiều khả năng cung cấp hình ảnh dữ liệu của bạn. Bây giờ bạn đã sẵn sàng để xây dựng kiến thức này và khám phá những hình ảnh tinh vi hơn nữa.Nếu bạn có câu hỏi hoặc nhận xét, sau đó xin vui lòng đặt chúng vào phần bình luận bên dưới.
Đọc thêm
Mặc dù gấu trúc và matplotlib làm cho việc hình dung dữ liệu của bạn khá đơn giản, nhưng có những khả năng vô tận để tạo ra những lô đất tinh vi, đẹp hoặc hấp dẫn hơn.
Một nơi tuyệt vời để bắt đầu là phần vẽ đồ thị của tài liệu Pandas DataFrame. Nó chứa cả một cái nhìn tổng quan tuyệt vời và một số mô tả chi tiết về nhiều tham số bạn có thể sử dụng với các khung dữ liệu của mình.
Nếu bạn muốn hiểu rõ hơn về nền tảng của âm mưu với gấu trúc, thì hãy làm quen với matplotlib. Mặc dù tài liệu đôi khi có thể quá sức, giải phẫu của matplotlib thực hiện một công việc tuyệt vời để giới thiệu một số tính năng nâng cao.
Nếu bạn muốn gây ấn tượng với khán giả của mình bằng trực quan tương tác và khuyến khích họ khám phá dữ liệu cho chính họ, thì hãy biến Bokeh thành điểm dừng tiếp theo của bạn. Bạn có thể tìm thấy một cái nhìn tổng quan về các tính năng của Bokeh, trong trực quan hóa dữ liệu tương tác trong Python với Bokeh. Bạn cũng có thể định cấu hình gấu trúc để sử dụng bokeh thay vì matplotlib với thư viện
figure, ax1 = plt.subplots[]
ax1.plot[df.iloc[:,0],df.iloc[:,1],linewidth=0.5,zorder=1, label = "Force1"]
ax1.plot[df.iloc[:,0],df.iloc[:,2],linewidth=0.5,zorder=1, label = "Force2"]
16Nếu bạn muốn tạo trực quan hóa để phân tích thống kê hoặc cho một bài báo khoa học, thì hãy xem Seaborn. Bạn có thể tìm thấy một bài học ngắn về Seaborn trong biểu đồ Python.
Xem bây giờ hướng dẫn này có một khóa học video liên quan được tạo bởi nhóm Python thực sự. Xem nó cùng với hướng dẫn bằng văn bản để làm sâu sắc thêm sự hiểu biết của bạn: Cấu trúc với Pandas: Python Dữ liệu Basicization This tutorial has a related video course created by the Real Python team. Watch it together with the written tutorial to deepen your understanding: Plot With Pandas: Python Data Visualization Basics