Hướng dẫn how do you plot a specific column in a graph in python? - làm thế nào để bạn vẽ một cột cụ thể trong biểu đồ trong python?

Bạn có thể sử dụng

figure, ax1 = plt.subplots[]
ax1.plot[df.iloc[:,0],df.iloc[:,1],linewidth=0.5,zorder=1, label = "Force1"]
ax1.plot[df.iloc[:,0],df.iloc[:,2],linewidth=0.5,zorder=1, label = "Force2"]
9 và vị trí cột hoặc chuyển qua
cols = df.columns
figure, ax1 = plt.subplots[]
ax1.plot[df[cols[0]],df[cols[1]],linewidth=0.5,zorder=1, label = "Force1"]
ax1.plot[df[cols[0]],df[cols[2]],linewidth=0.5,zorder=1, label = "Force2"]
0 như một đối số:

figure, ax1 = plt.subplots[]
ax1.plot[df[df.columns[0]],df[df.columns[1]],linewidth=0.5,zorder=1, label = "Force1"]
ax1.plot[df[df.columns[0]],df[df.columns[2]],linewidth=0.5,zorder=1, label = "Force2"]

Hoặc với

figure, ax1 = plt.subplots[]
ax1.plot[df.iloc[:,0],df.iloc[:,1],linewidth=0.5,zorder=1, label = "Force1"]
ax1.plot[df.iloc[:,0],df.iloc[:,2],linewidth=0.5,zorder=1, label = "Force2"]
9:

figure, ax1 = plt.subplots[]
ax1.plot[df.iloc[:,0],df.iloc[:,1],linewidth=0.5,zorder=1, label = "Force1"]
ax1.plot[df.iloc[:,0],df.iloc[:,2],linewidth=0.5,zorder=1, label = "Force2"]

Ngoài ra, xác định danh sách tên cột và sau đó chuyển chỉ mục của nó [giống như phương thức đầu tiên]:

cols = df.columns
figure, ax1 = plt.subplots[]
ax1.plot[df[cols[0]],df[cols[1]],linewidth=0.5,zorder=1, label = "Force1"]
ax1.plot[df[cols[0]],df[cols[2]],linewidth=0.5,zorder=1, label = "Force2"]

Xem bây giờ hướng dẫn này có một khóa học video liên quan được tạo bởi nhóm Python thực sự. Xem nó cùng với hướng dẫn bằng văn bản để làm sâu sắc thêm sự hiểu biết của bạn: Cấu trúc với Pandas: Python Dữ liệu Basicization This tutorial has a related video course created by the Real Python team. Watch it together with the written tutorial to deepen your understanding: Plot With Pandas: Python Data Visualization Basics

Làm thế nào để bạn vẽ các giá trị cụ thể trong Python?visualization is an essential tool. Python’s popular data analysis library, pandas, provides several different options for visualizing your data with

cols = df.columns
figure, ax1 = plt.subplots[]
ax1.plot[df[cols[0]],df[cols[1]],linewidth=0.5,zorder=1, label = "Force1"]
ax1.plot[df[cols[0]],df[cols[2]],linewidth=0.5,zorder=1, label = "Force2"]
2. Even if you’re at the beginning of your pandas journey, you’ll soon be creating basic plots that will yield valuable insights into your data.

Xác định trục x và giá trị trục y tương ứng như danh sách ..

  • Vẽ chúng trên canvas bằng hàm .plot [] ..pandas plots are and when to use them
  • Đặt tên cho trục x và trục y bằng các hàm .xlabel [] và .ylabel [] ..histogram
  • Đưa ra một tiêu đề cho cốt truyện của bạn bằng hàm .title [] ..scatter plot
  • Cuối cùng, để xem cốt truyện của bạn, chúng tôi sử dụng chức năng .show [] ..categories and their ratios

Làm cách nào để có được các cột cụ thể trong gấu trúc?

Sử dụng dataFrame.loc [] và dataFrame.iloc [] để chọn một cột hoặc nhiều cột từ Pandas DataFrame theo tên/nhãn hoặc vị trí chỉ mục.

Làm thế nào để bạn cắt một cột trong một khung dữ liệu trong Python?

  • Khi bạn muốn cắt một dataFrame theo phạm vi của các cột, hãy cung cấp tên cột bắt đầu và dừng ..

  • Bằng cách không cung cấp cột bắt đầu, loc [] chọn từ đầu ..

  • Bằng cách không cung cấp dừng, loc [] chọn tất cả các cột từ nhãn bắt đầu ..

  • Nếu bạn không muốn thực hiện bất kỳ thiết lập nào, thì hãy làm theo trong một thử nghiệm Notebook Jupyter trực tuyến.

Khi môi trường của bạn được thiết lập, bạn đã sẵn sàng tải xuống một bộ dữ liệu. Trong hướng dẫn này, bạn sẽ phân tích dữ liệu về các chuyên ngành đại học có nguồn gốc từ Khảo sát Cộng đồng Hoa Kỳ 2010 Mẫu Microdata sử dụng công cộng. Nó đóng vai trò là cơ sở cho hướng dẫn kinh tế để chọn một chuyên ngành đại học đặc trưng trên trang web FiveThentyEight.

Đầu tiên, tải xuống dữ liệu bằng cách chuyển URL tải xuống đến

cols = df.columns
figure, ax1 = plt.subplots[]
ax1.plot[df[cols[0]],df[cols[1]],linewidth=0.5,zorder=1, label = "Force1"]
ax1.plot[df[cols[0]],df[cols[2]],linewidth=0.5,zorder=1, label = "Force2"]
6:

>>>

In [1]: import pandas as pd

In [2]: download_url = [
   ...:     "//raw.githubusercontent.com/fivethirtyeight/"
   ...:     "data/master/college-majors/recent-grads.csv"
   ...: ]

In [3]: df = pd.read_csv[download_url]

In [4]: type[df]
Out[4]: pandas.core.frame.DataFrame

Bằng cách gọi

cols = df.columns
figure, ax1 = plt.subplots[]
ax1.plot[df[cols[0]],df[cols[1]],linewidth=0.5,zorder=1, label = "Force1"]
ax1.plot[df[cols[0]],df[cols[2]],linewidth=0.5,zorder=1, label = "Force2"]
7, bạn tạo một khung dữ liệu, đó là cấu trúc dữ liệu chính được sử dụng trong gấu trúc.

Bây giờ bạn có một khung dữ liệu, bạn có thể xem dữ liệu. Đầu tiên, bạn nên định cấu hình tùy chọn

cols = df.columns
figure, ax1 = plt.subplots[]
ax1.plot[df[cols[0]],df[cols[1]],linewidth=0.5,zorder=1, label = "Force1"]
ax1.plot[df[cols[0]],df[cols[2]],linewidth=0.5,zorder=1, label = "Force2"]
8 để đảm bảo gấu trúc không ẩn giấu bất kỳ cột nào. Sau đó, bạn có thể xem một vài hàng dữ liệu đầu tiên với
cols = df.columns
figure, ax1 = plt.subplots[]
ax1.plot[df[cols[0]],df[cols[1]],linewidth=0.5,zorder=1, label = "Force1"]
ax1.plot[df[cols[0]],df[cols[2]],linewidth=0.5,zorder=1, label = "Force2"]
9:

>>>

In [5]: pd.set_option["display.max.columns", None]

In [6]: df.head[]

Bằng cách gọi

cols = df.columns
figure, ax1 = plt.subplots[]
ax1.plot[df[cols[0]],df[cols[1]],linewidth=0.5,zorder=1, label = "Force1"]
ax1.plot[df[cols[0]],df[cols[2]],linewidth=0.5,zorder=1, label = "Force2"]
7, bạn tạo một khung dữ liệu, đó là cấu trúc dữ liệu chính được sử dụng trong gấu trúc.

Bây giờ bạn có một khung dữ liệu, bạn có thể xem dữ liệu. Đầu tiên, bạn nên định cấu hình tùy chọn

cols = df.columns
figure, ax1 = plt.subplots[]
ax1.plot[df[cols[0]],df[cols[1]],linewidth=0.5,zorder=1, label = "Force1"]
ax1.plot[df[cols[0]],df[cols[2]],linewidth=0.5,zorder=1, label = "Force2"]
8 để đảm bảo gấu trúc không ẩn giấu bất kỳ cột nào. Sau đó, bạn có thể xem một vài hàng dữ liệu đầu tiên với
cols = df.columns
figure, ax1 = plt.subplots[]
ax1.plot[df[cols[0]],df[cols[1]],linewidth=0.5,zorder=1, label = "Force1"]
ax1.plot[df[cols[0]],df[cols[2]],linewidth=0.5,zorder=1, label = "Force2"]
9:

Bạn chỉ hiển thị năm hàng đầu tiên của DataFrame
In [1]: import pandas as pd

In [2]: download_url = [
   ...:     "//raw.githubusercontent.com/fivethirtyeight/"
   ...:     "data/master/college-majors/recent-grads.csv"
   ...: ]

In [3]: df = pd.read_csv[download_url]

In [4]: type[df]
Out[4]: pandas.core.frame.DataFrame
0 bằng cách sử dụng
cols = df.columns
figure, ax1 = plt.subplots[]
ax1.plot[df[cols[0]],df[cols[1]],linewidth=0.5,zorder=1, label = "Force1"]
ax1.plot[df[cols[0]],df[cols[2]],linewidth=0.5,zorder=1, label = "Force2"]
9. Đầu ra của bạn sẽ trông như thế này:

Số lượng hàng mặc định được hiển thị bởi

cols = df.columns
figure, ax1 = plt.subplots[]
ax1.plot[df[cols[0]],df[cols[1]],linewidth=0.5,zorder=1, label = "Force1"]
ax1.plot[df[cols[0]],df[cols[2]],linewidth=0.5,zorder=1, label = "Force2"]
9 là năm, nhưng bạn có thể chỉ định bất kỳ số lượng hàng nào dưới dạng đối số. Ví dụ: để hiển thị mười hàng đầu tiên, bạn sẽ sử dụng
In [1]: import pandas as pd

In [2]: download_url = [
   ...:     "//raw.githubusercontent.com/fivethirtyeight/"
   ...:     "data/master/college-majors/recent-grads.csv"
   ...: ]

In [3]: df = pd.read_csv[download_url]

In [4]: type[df]
Out[4]: pandas.core.frame.DataFrame
3.

  • Tạo cốt truyện Pandas đầu tiên của bạn is the median earnings of full-time, year-round workers.
  • Bộ dữ liệu của bạn chứa một số cột liên quan đến thu nhập của sinh viên tốt nghiệp trong mỗi chuyên ngành: is the 25th percentile of earnings.
  • In [1]: import pandas as pd
    
    In [2]: download_url = [
       ...:     "//raw.githubusercontent.com/fivethirtyeight/"
       ...:     "data/master/college-majors/recent-grads.csv"
       ...: ]
    
    In [3]: df = pd.read_csv[download_url]
    
    In [4]: type[df]
    Out[4]: pandas.core.frame.DataFrame
    
    4 là thu nhập trung bình của những người lao động toàn thời gian, quanh năm.
    is the 75th percentile of earnings.
  • In [1]: import pandas as pd
    
    In [2]: download_url = [
       ...:     "//raw.githubusercontent.com/fivethirtyeight/"
       ...:     "data/master/college-majors/recent-grads.csv"
       ...: ]
    
    In [3]: df = pd.read_csv[download_url]
    
    In [4]: type[df]
    Out[4]: pandas.core.frame.DataFrame
    
    5 là phần trăm thứ 25 của thu nhập.
    is the major’s rank by median earnings.

In [1]: import pandas as pd

In [2]: download_url = [
   ...:     "//raw.githubusercontent.com/fivethirtyeight/"
   ...:     "data/master/college-majors/recent-grads.csv"
   ...: ]

In [3]: df = pd.read_csv[download_url]

In [4]: type[df]
Out[4]: pandas.core.frame.DataFrame
6 là phần trăm thứ 75 của thu nhập.

>>>

In [7]: %matplotlib
Using matplotlib backend: MacOSX

Bằng cách gọi

cols = df.columns
figure, ax1 = plt.subplots[]
ax1.plot[df[cols[0]],df[cols[1]],linewidth=0.5,zorder=1, label = "Force1"]
ax1.plot[df[cols[0]],df[cols[2]],linewidth=0.5,zorder=1, label = "Force2"]
7, bạn tạo một khung dữ liệu, đó là cấu trúc dữ liệu chính được sử dụng trong gấu trúc.

Bây giờ bạn có một khung dữ liệu, bạn có thể xem dữ liệu. Đầu tiên, bạn nên định cấu hình tùy chọn

cols = df.columns
figure, ax1 = plt.subplots[]
ax1.plot[df[cols[0]],df[cols[1]],linewidth=0.5,zorder=1, label = "Force1"]
ax1.plot[df[cols[0]],df[cols[2]],linewidth=0.5,zorder=1, label = "Force2"]
8 để đảm bảo gấu trúc không ẩn giấu bất kỳ cột nào. Sau đó, bạn có thể xem một vài hàng dữ liệu đầu tiên với
cols = df.columns
figure, ax1 = plt.subplots[]
ax1.plot[df[cols[0]],df[cols[1]],linewidth=0.5,zorder=1, label = "Force1"]
ax1.plot[df[cols[0]],df[cols[2]],linewidth=0.5,zorder=1, label = "Force2"]
9:

>>>

In [8]: df.plot[x="Rank", y=["P25th", "Median", "P75th"]]
Out[8]: 

Bằng cách gọi

cols = df.columns
figure, ax1 = plt.subplots[]
ax1.plot[df[cols[0]],df[cols[1]],linewidth=0.5,zorder=1, label = "Force1"]
ax1.plot[df[cols[0]],df[cols[2]],linewidth=0.5,zorder=1, label = "Force2"]
7, bạn tạo một khung dữ liệu, đó là cấu trúc dữ liệu chính được sử dụng trong gấu trúc.

Bây giờ bạn có một khung dữ liệu, bạn có thể xem dữ liệu. Đầu tiên, bạn nên định cấu hình tùy chọn

cols = df.columns
figure, ax1 = plt.subplots[]
ax1.plot[df[cols[0]],df[cols[1]],linewidth=0.5,zorder=1, label = "Force1"]
ax1.plot[df[cols[0]],df[cols[2]],linewidth=0.5,zorder=1, label = "Force2"]
8 để đảm bảo gấu trúc không ẩn giấu bất kỳ cột nào. Sau đó, bạn có thể xem một vài hàng dữ liệu đầu tiên với
cols = df.columns
figure, ax1 = plt.subplots[]
ax1.plot[df[cols[0]],df[cols[1]],linewidth=0.5,zorder=1, label = "Force1"]
ax1.plot[df[cols[0]],df[cols[2]],linewidth=0.5,zorder=1, label = "Force2"]
9:

Bạn chỉ hiển thị năm hàng đầu tiên của DataFrame

In [1]: import pandas as pd

In [2]: download_url = [
   ...:     "//raw.githubusercontent.com/fivethirtyeight/"
   ...:     "data/master/college-majors/recent-grads.csv"
   ...: ]

In [3]: df = pd.read_csv[download_url]

In [4]: type[df]
Out[4]: pandas.core.frame.DataFrame
0 bằng cách sử dụng
cols = df.columns
figure, ax1 = plt.subplots[]
ax1.plot[df[cols[0]],df[cols[1]],linewidth=0.5,zorder=1, label = "Force1"]
ax1.plot[df[cols[0]],df[cols[2]],linewidth=0.5,zorder=1, label = "Force2"]
9. Đầu ra của bạn sẽ trông như thế này:

  • Số lượng hàng mặc định được hiển thị bởi

    cols = df.columns
    figure, ax1 = plt.subplots[]
    ax1.plot[df[cols[0]],df[cols[1]],linewidth=0.5,zorder=1, label = "Force1"]
    ax1.plot[df[cols[0]],df[cols[2]],linewidth=0.5,zorder=1, label = "Force2"]
    
    9 là năm, nhưng bạn có thể chỉ định bất kỳ số lượng hàng nào dưới dạng đối số. Ví dụ: để hiển thị mười hàng đầu tiên, bạn sẽ sử dụng
    In [1]: import pandas as pd
    
    In [2]: download_url = [
       ...:     "//raw.githubusercontent.com/fivethirtyeight/"
       ...:     "data/master/college-majors/recent-grads.csv"
       ...: ]
    
    In [3]: df = pd.read_csv[download_url]
    
    In [4]: type[df]
    Out[4]: pandas.core.frame.DataFrame
    
    3.

  • Tạo cốt truyện Pandas đầu tiên của bạn

  • Bộ dữ liệu của bạn chứa một số cột liên quan đến thu nhập của sinh viên tốt nghiệp trong mỗi chuyên ngành:

In [1]: import pandas as pd

In [2]: download_url = [
   ...:     "//raw.githubusercontent.com/fivethirtyeight/"
   ...:     "data/master/college-majors/recent-grads.csv"
   ...: ]

In [3]: df = pd.read_csv[download_url]

In [4]: type[df]
Out[4]: pandas.core.frame.DataFrame
4 là thu nhập trung bình của những người lao động toàn thời gian, quanh năm.

In [1]: import pandas as pd

In [2]: download_url = [
   ...:     "//raw.githubusercontent.com/fivethirtyeight/"
   ...:     "data/master/college-majors/recent-grads.csv"
   ...: ]

In [3]: df = pd.read_csv[download_url]

In [4]: type[df]
Out[4]: pandas.core.frame.DataFrame
5 là phần trăm thứ 25 của thu nhập.

  1. In [1]: import pandas as pd
    
    In [2]: download_url = [
       ...:     "//raw.githubusercontent.com/fivethirtyeight/"
       ...:     "data/master/college-majors/recent-grads.csv"
       ...: ]
    
    In [3]: df = pd.read_csv[download_url]
    
    In [4]: type[df]
    Out[4]: pandas.core.frame.DataFrame
    
    6 là phần trăm thứ 75 của thu nhập.
    is for area plots.
  2. In [1]: import pandas as pd
    
    In [2]: download_url = [
       ...:     "//raw.githubusercontent.com/fivethirtyeight/"
       ...:     "data/master/college-majors/recent-grads.csv"
       ...: ]
    
    In [3]: df = pd.read_csv[download_url]
    
    In [4]: type[df]
    Out[4]: pandas.core.frame.DataFrame
    
    7 là thứ hạng chính của thu nhập trung bình.
    is for vertical bar charts.
  3. Hãy bắt đầu với một cốt truyện hiển thị các cột này. Đầu tiên, bạn cần thiết lập sổ ghi chép Jupyter của mình để hiển thị các sơ đồ với lệnh
    In [1]: import pandas as pd
    
    In [2]: download_url = [
       ...:     "//raw.githubusercontent.com/fivethirtyeight/"
       ...:     "data/master/college-majors/recent-grads.csv"
       ...: ]
    
    In [3]: df = pd.read_csv[download_url]
    
    In [4]: type[df]
    Out[4]: pandas.core.frame.DataFrame
    
    8 Magic:
    is for horizontal bar charts.
  4. Lệnh Magic
    In [1]: import pandas as pd
    
    In [2]: download_url = [
       ...:     "//raw.githubusercontent.com/fivethirtyeight/"
       ...:     "data/master/college-majors/recent-grads.csv"
       ...: ]
    
    In [3]: df = pd.read_csv[download_url]
    
    In [4]: type[df]
    Out[4]: pandas.core.frame.DataFrame
    
    8 đã thiết lập sổ ghi chép Jupyter của bạn để hiển thị các sơ đồ với matplotlib. Phần phụ trợ đồ họa matplotlib tiêu chuẩn được sử dụng theo mặc định và các lô của bạn sẽ được hiển thị trong một cửa sổ riêng biệt.
    is for box plots.
  5. Bây giờ bạn đã sẵn sàng để thực hiện cốt truyện đầu tiên của bạn! Bạn có thể làm như vậy với
    cols = df.columns
    figure, ax1 = plt.subplots[]
    ax1.plot[df[cols[0]],df[cols[1]],linewidth=0.5,zorder=1, label = "Force1"]
    ax1.plot[df[cols[0]],df[cols[2]],linewidth=0.5,zorder=1, label = "Force2"]
    
    2:
    is for hexbin plots.
  6. cols = df.columns
    figure, ax1 = plt.subplots[]
    ax1.plot[df[cols[0]],df[cols[1]],linewidth=0.5,zorder=1, label = "Force1"]
    ax1.plot[df[cols[0]],df[cols[2]],linewidth=0.5,zorder=1, label = "Force2"]
    
    2 Trả về một biểu đồ dòng chứa dữ liệu từ mỗi hàng trong DataFrame. Các giá trị trục X đại diện cho thứ hạng của mỗi tổ chức và các giá trị
    In [1]: import pandas as pd
    
    In [2]: download_url = [
       ...:     "//raw.githubusercontent.com/fivethirtyeight/"
       ...:     "data/master/college-majors/recent-grads.csv"
       ...: ]
    
    In [3]: df = pd.read_csv[download_url]
    
    In [4]: type[df]
    Out[4]: pandas.core.frame.DataFrame
    
    5,
    In [1]: import pandas as pd
    
    In [2]: download_url = [
       ...:     "//raw.githubusercontent.com/fivethirtyeight/"
       ...:     "data/master/college-majors/recent-grads.csv"
       ...: ]
    
    In [3]: df = pd.read_csv[download_url]
    
    In [4]: type[df]
    Out[4]: pandas.core.frame.DataFrame
    
    4 và
    In [1]: import pandas as pd
    
    In [2]: download_url = [
       ...:     "//raw.githubusercontent.com/fivethirtyeight/"
       ...:     "data/master/college-majors/recent-grads.csv"
       ...: ]
    
    In [3]: df = pd.read_csv[download_url]
    
    In [4]: type[df]
    Out[4]: pandas.core.frame.DataFrame
    
    6 được vẽ trên trục y.
    is for histograms.
  7. Hình được tạo ra bởi
    cols = df.columns
    figure, ax1 = plt.subplots[]
    ax1.plot[df[cols[0]],df[cols[1]],linewidth=0.5,zorder=1, label = "Force1"]
    ax1.plot[df[cols[0]],df[cols[2]],linewidth=0.5,zorder=1, label = "Force2"]
    
    2 được hiển thị trong một cửa sổ riêng biệt theo mặc định và trông như thế này:
    is for kernel density estimate charts.
  8. Nhìn vào cốt truyện, bạn có thể thực hiện các quan sát sau: is an alias for
    In [7]: %matplotlib
    Using matplotlib backend: MacOSX
    
    4.
  9. Thu nhập trung bình giảm khi thứ hạng giảm. Điều này được dự kiến ​​bởi vì thứ hạng được xác định bởi thu nhập trung bình. is for line graphs.
  10. Một số chuyên ngành có khoảng cách lớn giữa phần trăm thứ 25 và 75. Những người có bằng cấp này có thể kiếm được nhiều hơn hoặc nhiều hơn đáng kể so với thu nhập trung bình. is for pie charts.
  11. Các chuyên ngành khác có khoảng cách rất nhỏ giữa phần trăm thứ 25 và 75. Những người có bằng cấp này kiếm được tiền lương rất gần với thu nhập trung bình. is for scatter plots.

Cốt truyện đầu tiên của bạn đã gợi ý rằng có rất nhiều điều để khám phá trong dữ liệu! Một số chuyên ngành có một loạt các khoản thu nhập, và những người khác có phạm vi khá hẹp. Để khám phá những khác biệt này, bạn sẽ sử dụng một số loại lô khác.

cols = df.columns
figure, ax1 = plt.subplots[]
ax1.plot[df[cols[0]],df[cols[1]],linewidth=0.5,zorder=1, label = "Force1"]
ax1.plot[df[cols[0]],df[cols[2]],linewidth=0.5,zorder=1, label = "Force2"]
2 có một số tham số tùy chọn. Đáng chú ý nhất, tham số
In [5]: pd.set_option["display.max.columns", None]

In [6]: df.head[]
7 chấp nhận mười một giá trị chuỗi khác nhau và xác định loại cốt truyện mà bạn sẽ tạo ra:

In [5]: pd.set_option["display.max.columns", None]

In [6]: df.head[]
8 là cho các lô khu vực.

In [5]: pd.set_option["display.max.columns", None]

In [6]: df.head[]
9 là cho biểu đồ thanh dọc.

In [7]: %matplotlib
Using matplotlib backend: MacOSX
0 là cho biểu đồ thanh ngang.

In [7]: %matplotlib
Using matplotlib backend: MacOSX
1 là cho các ô hộp.

>>>

In [9]: import matplotlib.pyplot as plt

In [10]: plt.plot[df["Rank"], df["P75th"]]
Out[10]: []

In [7]: %matplotlib
Using matplotlib backend: MacOSX
2 là cho các lô hexbin.

Kết quả là một biểu đồ dòng biểu thị phần trăm thứ 75 trên trục y so với thứ hạng trên trục x:

Bạn có thể tạo chính xác cùng một biểu đồ bằng phương thức

In [8]: df.plot[x="Rank", y=["P25th", "Median", "P75th"]]
Out[8]: 
4 đối tượng
cols = df.columns
figure, ax1 = plt.subplots[]
ax1.plot[df[cols[0]],df[cols[1]],linewidth=0.5,zorder=1, label = "Force1"]
ax1.plot[df[cols[0]],df[cols[2]],linewidth=0.5,zorder=1, label = "Force2"]
2:

>>>

In [11]: df.plot[x="Rank", y="P75th"]
Out[11]: 

cols = df.columns
figure, ax1 = plt.subplots[]
ax1.plot[df[cols[0]],df[cols[1]],linewidth=0.5,zorder=1, label = "Force1"]
ax1.plot[df[cols[0]],df[cols[2]],linewidth=0.5,zorder=1, label = "Force2"]
2 là một trình bao bọc cho
In [9]: import matplotlib.pyplot as plt

In [10]: plt.plot[df["Rank"], df["P75th"]]
Out[10]: []
4 và kết quả là một biểu đồ giống hệt với bản đồ bạn sản xuất với matplotlib:wrapper for
In [9]: import matplotlib.pyplot as plt

In [10]: plt.plot[df["Rank"], df["P75th"]]
Out[10]: []
4, and the result is a graph identical to the one you produced with Matplotlib:

Bạn có thể sử dụng cả

In [9]: import matplotlib.pyplot as plt

In [10]: plt.plot[df["Rank"], df["P75th"]]
Out[10]: []
4 và
In [9]: import matplotlib.pyplot as plt

In [10]: plt.plot[df["Rank"], df["P75th"]]
Out[10]: []
6 để tạo cùng một biểu đồ từ các cột của đối tượng
In [8]: df.plot[x="Rank", y=["P25th", "Median", "P75th"]]
Out[8]: 
4. Tuy nhiên, nếu bạn đã có một phiên bản
In [8]: df.plot[x="Rank", y=["P25th", "Median", "P75th"]]
Out[8]: 
4, thì
In [9]: import matplotlib.pyplot as plt

In [10]: plt.plot[df["Rank"], df["P75th"]]
Out[10]: []
6 cung cấp cú pháp sạch hơn so với
In [9]: import matplotlib.pyplot as plt

In [10]: plt.plot[df["Rank"], df["P75th"]]
Out[10]: []
4.

Bây giờ bạn đã biết rằng phương pháp

In [8]: df.plot[x="Rank", y=["P25th", "Median", "P75th"]]
Out[8]: 
4 đối tượng ____ ____22 là một trình bao bọc cho matplotlib, ____ ____74, hãy để Lướt đi vào các loại lô khác nhau mà bạn có thể tạo ra và làm thế nào để tạo ra chúng.

Khảo sát dữ liệu của bạn

Các sơ đồ tiếp theo sẽ cung cấp cho bạn một cái nhìn tổng quan chung về một cột cụ thể trong bộ dữ liệu của bạn. Đầu tiên, bạn sẽ có một cái nhìn về phân phối thuộc tính với biểu đồ. Sau đó, bạn sẽ biết một số công cụ để kiểm tra các ngoại lệ.

Phân phối và biểu đồ

In [8]: df.plot[x="Rank", y=["P25th", "Median", "P75th"]]
Out[8]: 
4 không phải là lớp duy nhất trong gấu trúc với phương pháp
cols = df.columns
figure, ax1 = plt.subplots[]
ax1.plot[df[cols[0]],df[cols[1]],linewidth=0.5,zorder=1, label = "Force1"]
ax1.plot[df[cols[0]],df[cols[2]],linewidth=0.5,zorder=1, label = "Force2"]
2. Như thường xảy ra trong gấu trúc, đối tượng
In [11]: df.plot[x="Rank", y="P75th"]
Out[11]: 
6 cung cấp chức năng tương tự.

Bạn có thể nhận được từng cột của DataFrame dưới dạng đối tượng

In [11]: df.plot[x="Rank", y="P75th"]
Out[11]: 
6. Ở đây, một ví dụ sử dụng cột
In [1]: import pandas as pd

In [2]: download_url = [
   ...:     "//raw.githubusercontent.com/fivethirtyeight/"
   ...:     "data/master/college-majors/recent-grads.csv"
   ...: ]

In [3]: df = pd.read_csv[download_url]

In [4]: type[df]
Out[4]: pandas.core.frame.DataFrame
4 của DataFrame bạn đã tạo từ dữ liệu chính của trường đại học:

>>>

In [12]: median_column = df["Median"]

In [13]: type[median_column]
Out[13]: pandas.core.series.Series

cols = df.columns
figure, ax1 = plt.subplots[]
ax1.plot[df[cols[0]],df[cols[1]],linewidth=0.5,zorder=1, label = "Force1"]
ax1.plot[df[cols[0]],df[cols[2]],linewidth=0.5,zorder=1, label = "Force2"]
2 là một trình bao bọc cho
In [9]: import matplotlib.pyplot as plt

In [10]: plt.plot[df["Rank"], df["P75th"]]
Out[10]: []
4 và kết quả là một biểu đồ giống hệt với bản đồ bạn sản xuất với matplotlib:bins and display a count of the data points whose values are in a particular bin.

Bạn có thể sử dụng cả

In [9]: import matplotlib.pyplot as plt

In [10]: plt.plot[df["Rank"], df["P75th"]]
Out[10]: []
4 và
In [9]: import matplotlib.pyplot as plt

In [10]: plt.plot[df["Rank"], df["P75th"]]
Out[10]: []
6 để tạo cùng một biểu đồ từ các cột của đối tượng
In [8]: df.plot[x="Rank", y=["P25th", "Median", "P75th"]]
Out[8]: 
4. Tuy nhiên, nếu bạn đã có một phiên bản
In [8]: df.plot[x="Rank", y=["P25th", "Median", "P75th"]]
Out[8]: 
4, thì
In [9]: import matplotlib.pyplot as plt

In [10]: plt.plot[df["Rank"], df["P75th"]]
Out[10]: []
6 cung cấp cú pháp sạch hơn so với
In [9]: import matplotlib.pyplot as plt

In [10]: plt.plot[df["Rank"], df["P75th"]]
Out[10]: []
4.

>>>

figure, ax1 = plt.subplots[]
ax1.plot[df.iloc[:,0],df.iloc[:,1],linewidth=0.5,zorder=1, label = "Force1"]
ax1.plot[df.iloc[:,0],df.iloc[:,2],linewidth=0.5,zorder=1, label = "Force2"]
0

cols = df.columns
figure, ax1 = plt.subplots[]
ax1.plot[df[cols[0]],df[cols[1]],linewidth=0.5,zorder=1, label = "Force1"]
ax1.plot[df[cols[0]],df[cols[2]],linewidth=0.5,zorder=1, label = "Force2"]
2 là một trình bao bọc cho
In [9]: import matplotlib.pyplot as plt

In [10]: plt.plot[df["Rank"], df["P75th"]]
Out[10]: []
4 và kết quả là một biểu đồ giống hệt với bản đồ bạn sản xuất với matplotlib:

Bạn có thể sử dụng cả

In [9]: import matplotlib.pyplot as plt

In [10]: plt.plot[df["Rank"], df["P75th"]]
Out[10]: []
4 và
In [9]: import matplotlib.pyplot as plt

In [10]: plt.plot[df["Rank"], df["P75th"]]
Out[10]: []
6 để tạo cùng một biểu đồ từ các cột của đối tượng
In [8]: df.plot[x="Rank", y=["P25th", "Median", "P75th"]]
Out[8]: 
4. Tuy nhiên, nếu bạn đã có một phiên bản
In [8]: df.plot[x="Rank", y=["P25th", "Median", "P75th"]]
Out[8]: 
4, thì
In [9]: import matplotlib.pyplot as plt

In [10]: plt.plot[df["Rank"], df["P75th"]]
Out[10]: []
6 cung cấp cú pháp sạch hơn so với
In [9]: import matplotlib.pyplot as plt

In [10]: plt.plot[df["Rank"], df["P75th"]]
Out[10]: []
4.

Bây giờ bạn đã biết rằng phương pháp

In [8]: df.plot[x="Rank", y=["P25th", "Median", "P75th"]]
Out[8]: 
4 đối tượng ____ ____22 là một trình bao bọc cho matplotlib, ____ ____74, hãy để Lướt đi vào các loại lô khác nhau mà bạn có thể tạo ra và làm thế nào để tạo ra chúng.width of $10,000. The histogram has a different shape than the normal distribution, which has a symmetric bell shape with a peak in the middle.

Khảo sát dữ liệu của bạntail stretches far to the right and suggests that there are indeed fields whose majors can expect significantly higher earnings.

Các sơ đồ tiếp theo sẽ cung cấp cho bạn một cái nhìn tổng quan chung về một cột cụ thể trong bộ dữ liệu của bạn. Đầu tiên, bạn sẽ có một cái nhìn về phân phối thuộc tính với biểu đồ. Sau đó, bạn sẽ biết một số công cụ để kiểm tra các ngoại lệ.

Phân phối và biểu đồ

  • In [8]: df.plot[x="Rank", y=["P25th", "Median", "P75th"]]
    Out[8]: 
    
    4 không phải là lớp duy nhất trong gấu trúc với phương pháp
    cols = df.columns
    figure, ax1 = plt.subplots[]
    ax1.plot[df[cols[0]],df[cols[1]],linewidth=0.5,zorder=1, label = "Force1"]
    ax1.plot[df[cols[0]],df[cols[2]],linewidth=0.5,zorder=1, label = "Force2"]
    
    2. Như thường xảy ra trong gấu trúc, đối tượng
    In [11]: df.plot[x="Rank", y="P75th"]
    Out[11]: 
    
    6 cung cấp chức năng tương tự.
  • Bạn có thể nhận được từng cột của DataFrame dưới dạng đối tượng
    In [11]: df.plot[x="Rank", y="P75th"]
    Out[11]: 
    
    6. Ở đây, một ví dụ sử dụng cột
    In [1]: import pandas as pd
    
    In [2]: download_url = [
       ...:     "//raw.githubusercontent.com/fivethirtyeight/"
       ...:     "data/master/college-majors/recent-grads.csv"
       ...: ]
    
    In [3]: df = pd.read_csv[download_url]
    
    In [4]: type[df]
    Out[4]: pandas.core.frame.DataFrame
    
    4 của DataFrame bạn đã tạo từ dữ liệu chính của trường đại học:

Bây giờ bạn có một đối tượng

In [11]: df.plot[x="Rank", y="P75th"]
Out[11]: 
6, bạn có thể tạo một lô cho nó. Biểu đồ là một cách tốt để hình dung cách các giá trị được phân phối trên một bộ dữ liệu. Biểu đồ giá trị nhóm thành các thùng và hiển thị số lượng các điểm dữ liệu có giá trị trong một thùng cụ thể.

  1. Hãy để tạo ra một biểu đồ cho cột
    In [1]: import pandas as pd
    
    In [2]: download_url = [
       ...:     "//raw.githubusercontent.com/fivethirtyeight/"
       ...:     "data/master/college-majors/recent-grads.csv"
       ...: ]
    
    In [3]: df = pd.read_csv[download_url]
    
    In [4]: type[df]
    Out[4]: pandas.core.frame.DataFrame
    
    4:
  2. Bạn gọi
    cols = df.columns
    figure, ax1 = plt.subplots[]
    ax1.plot[df[cols[0]],df[cols[1]],linewidth=0.5,zorder=1, label = "Force1"]
    ax1.plot[df[cols[0]],df[cols[2]],linewidth=0.5,zorder=1, label = "Force2"]
    
    2 trên sê -ri
    In [12]: median_column = df["Median"]
    
    In [13]: type[median_column]
    Out[13]: pandas.core.series.Series
    
    2 và chuyển chuỗi
    In [7]: %matplotlib
    Using matplotlib backend: MacOSX
    
    3 cho tham số
    In [5]: pd.set_option["display.max.columns", None]
    
    In [6]: df.head[]
    
    7. Thats tất cả để có nó!

Khi bạn gọi

cols = df.columns
figure, ax1 = plt.subplots[]
ax1.plot[df[cols[0]],df[cols[1]],linewidth=0.5,zorder=1, label = "Force1"]
ax1.plot[df[cols[0]],df[cols[2]],linewidth=0.5,zorder=1, label = "Force2"]
2, bạn sẽ thấy con số sau:

>>>

figure, ax1 = plt.subplots[]
ax1.plot[df.iloc[:,0],df.iloc[:,1],linewidth=0.5,zorder=1, label = "Force1"]
ax1.plot[df.iloc[:,0],df.iloc[:,2],linewidth=0.5,zorder=1, label = "Force2"]
1

Biểu đồ hiển thị dữ liệu được nhóm thành mười thùng dao động từ 20.000 đến 120.000 đô la và mỗi thùng có chiều rộng 10.000 đô la. Biểu đồ có hình dạng khác với phân phối bình thường, có hình chuông đối xứng với cực đại ở giữa.

>>>

figure, ax1 = plt.subplots[]
ax1.plot[df.iloc[:,0],df.iloc[:,1],linewidth=0.5,zorder=1, label = "Force1"]
ax1.plot[df.iloc[:,0],df.iloc[:,2],linewidth=0.5,zorder=1, label = "Force2"]
2

Biểu đồ của dữ liệu trung bình, tuy nhiên, đạt đỉnh bên trái dưới 40.000 đô la. Cái đuôi trải dài sang bên phải và gợi ý rằng thực sự có những lĩnh vực mà các chuyên ngành có thể mong đợi thu nhập cao hơn đáng kể.

Outliers

Bạn đã phát hiện ra thùng nhỏ cô đơn ở cạnh phải của phân phối? Có vẻ như một điểm dữ liệu có thể loại riêng. Các chuyên ngành trong lĩnh vực này nhận được mức lương tuyệt vời không chỉ với mức trung bình mà còn với á quân. Mặc dù đây là mục đích chính của nó, một biểu đồ có thể giúp bạn phát hiện ra một ngoại lệ như vậy. Hãy để điều tra ngoại lệ hơn một chút:

Những chuyên ngành này đại diện cho người ngoại lệ này?

>>>

figure, ax1 = plt.subplots[]
ax1.plot[df.iloc[:,0],df.iloc[:,1],linewidth=0.5,zorder=1, label = "Force1"]
ax1.plot[df.iloc[:,0],df.iloc[:,2],linewidth=0.5,zorder=1, label = "Force2"]
3

Tương tự của nó lớn như thế nào?

Trái với tổng quan đầu tiên, bạn chỉ muốn so sánh một vài điểm dữ liệu, nhưng bạn muốn xem thêm chi tiết về chúng. Đối với điều này, một cốt truyện thanh là một công cụ tuyệt vời. Đầu tiên, chọn năm chuyên ngành với thu nhập trung bình cao nhất. Bạn sẽ cần hai bước:

Để sắp xếp theo cột

In [1]: import pandas as pd

In [2]: download_url = [
   ...:     "//raw.githubusercontent.com/fivethirtyeight/"
   ...:     "data/master/college-majors/recent-grads.csv"
   ...: ]

In [3]: df = pd.read_csv[download_url]

In [4]: type[df]
Out[4]: pandas.core.frame.DataFrame
4, hãy sử dụng
In [12]: median_column = df["Median"]

In [13]: type[median_column]
Out[13]: pandas.core.series.Series
7 và cung cấp tên của cột bạn muốn sắp xếp theo hướng
In [12]: median_column = df["Median"]

In [13]: type[median_column]
Out[13]: pandas.core.series.Series
8.

Dữ liệu không hợp lệ có thể được gây ra bởi bất kỳ số lượng lỗi hoặc giám sát nào, bao gồm mất cảm biến, lỗi trong quá trình nhập dữ liệu thủ công hoặc năm tuổi tham gia vào một nhóm tập trung có nghĩa là từ mười tuổi trở lên. Điều tra các ngoại lệ là một bước quan trọng trong việc làm sạch dữ liệu.

Ngay cả khi dữ liệu là chính xác, bạn có thể quyết định rằng nó rất khác so với phần còn lại mà nó tạo ra nhiều tiếng ồn hơn lợi ích. Hãy giả sử bạn phân tích dữ liệu bán hàng của một nhà xuất bản nhỏ. Bạn nhóm doanh thu theo khu vực và so sánh chúng với cùng tháng của năm trước. Sau đó, ra khỏi màu xanh, nhà xuất bản có được một cuốn sách bán chạy nhất quốc gia.

Sự kiện dễ chịu này làm cho báo cáo của bạn là vô nghĩa. Với dữ liệu bán chạy nhất bao gồm, doanh số sẽ tăng lên ở khắp mọi nơi. Thực hiện phân tích tương tự mà không có ngoại lệ sẽ cung cấp nhiều thông tin có giá trị hơn, cho phép bạn thấy rằng ở New York, số lượng doanh số của bạn đã được cải thiện đáng kể, nhưng ở Miami, chúng trở nên tồi tệ hơn.

Kiểm tra tương quan

Thường thì bạn muốn xem liệu hai cột của bộ dữ liệu có được kết nối hay không. Nếu bạn chọn một chuyên ngành với thu nhập trung bình cao hơn, bạn cũng có cơ hội thất nghiệp thấp hơn? Bước đầu tiên, hãy tạo một biểu đồ phân tán với hai cột đó:

>>>

figure, ax1 = plt.subplots[]
ax1.plot[df.iloc[:,0],df.iloc[:,1],linewidth=0.5,zorder=1, label = "Force1"]
ax1.plot[df.iloc[:,0],df.iloc[:,2],linewidth=0.5,zorder=1, label = "Force2"]
4

Bạn sẽ thấy một cốt truyện trông khá ngẫu nhiên, như thế này:

Nhìn thoáng qua con số này cho thấy rằng không có mối tương quan đáng kể nào giữa thu nhập và tỷ lệ thất nghiệp.

Mặc dù một âm mưu phân tán là một công cụ tuyệt vời để có được ấn tượng đầu tiên về mối tương quan có thể xảy ra, nhưng nó chắc chắn là bằng chứng dứt khoát về một kết nối. Để biết tổng quan về các mối tương quan giữa các cột khác nhau, bạn có thể sử dụng

figure, ax1 = plt.subplots[]
ax1.plot[df.iloc[:,0],df.iloc[:,1],linewidth=0.5,zorder=1, label = "Force1"]
ax1.plot[df.iloc[:,0],df.iloc[:,2],linewidth=0.5,zorder=1, label = "Force2"]
04. Nếu bạn nghi ngờ mối tương quan giữa hai giá trị, thì bạn có một số công cụ theo ý của bạn để xác minh linh cảm của bạn và đo mức độ tương quan mạnh mẽ như thế nào.

Mặc dù vậy, hãy nhớ rằng ngay cả khi một mối tương quan tồn tại giữa hai giá trị, điều đó vẫn không có nghĩa là một sự thay đổi trong cái này sẽ dẫn đến sự thay đổi trong vấn đề kia. Nói cách khác, mối tương quan không ngụ ý nhân quả.

Phân tích dữ liệu phân loại

Để xử lý các khối thông tin lớn hơn, tâm trí con người một cách có ý thức và vô thức sắp xếp dữ liệu thành các danh mục. Kỹ thuật này thường rất hữu ích, nhưng nó khác xa với hoàn hảo.

Đôi khi chúng tôi đặt mọi thứ vào một thể loại, khi kiểm tra thêm, aren tất cả tương tự như vậy. Trong phần này, bạn sẽ biết một số công cụ để kiểm tra các danh mục và xác minh xem một phân loại nhất định có ý nghĩa hay không.

Nhiều bộ dữ liệu đã chứa một số phân loại rõ ràng hoặc tiềm ẩn. Trong ví dụ hiện tại, 173 chuyên ngành được chia thành 16 loại.

Nhóm

Một cách sử dụng cơ bản của các danh mục là nhóm và tổng hợp. Bạn có thể sử dụng

figure, ax1 = plt.subplots[]
ax1.plot[df.iloc[:,0],df.iloc[:,1],linewidth=0.5,zorder=1, label = "Force1"]
ax1.plot[df.iloc[:,0],df.iloc[:,2],linewidth=0.5,zorder=1, label = "Force2"]
05 để xác định mức độ phổ biến của từng danh mục trong bộ dữ liệu chính của trường đại học:

>>>

figure, ax1 = plt.subplots[]
ax1.plot[df.iloc[:,0],df.iloc[:,1],linewidth=0.5,zorder=1, label = "Force1"]
ax1.plot[df.iloc[:,0],df.iloc[:,2],linewidth=0.5,zorder=1, label = "Force2"]
5

Bạn sẽ thấy một cốt truyện trông khá ngẫu nhiên, như thế này:

Nhìn thoáng qua con số này cho thấy rằng không có mối tương quan đáng kể nào giữa thu nhập và tỷ lệ thất nghiệp.

>>>

figure, ax1 = plt.subplots[]
ax1.plot[df.iloc[:,0],df.iloc[:,1],linewidth=0.5,zorder=1, label = "Force1"]
ax1.plot[df.iloc[:,0],df.iloc[:,2],linewidth=0.5,zorder=1, label = "Force2"]
6

Bạn sẽ thấy một cốt truyện trông khá ngẫu nhiên, như thế này:

Nhìn thoáng qua con số này cho thấy rằng không có mối tương quan đáng kể nào giữa thu nhập và tỷ lệ thất nghiệp.

Mặc dù một âm mưu phân tán là một công cụ tuyệt vời để có được ấn tượng đầu tiên về mối tương quan có thể xảy ra, nhưng nó chắc chắn là bằng chứng dứt khoát về một kết nối. Để biết tổng quan về các mối tương quan giữa các cột khác nhau, bạn có thể sử dụng
figure, ax1 = plt.subplots[]
ax1.plot[df.iloc[:,0],df.iloc[:,1],linewidth=0.5,zorder=1, label = "Force1"]
ax1.plot[df.iloc[:,0],df.iloc[:,2],linewidth=0.5,zorder=1, label = "Force2"]
04. Nếu bạn nghi ngờ mối tương quan giữa hai giá trị, thì bạn có một số công cụ theo ý của bạn để xác minh linh cảm của bạn và đo mức độ tương quan mạnh mẽ như thế nào.

Mặc dù vậy, hãy nhớ rằng ngay cả khi một mối tương quan tồn tại giữa hai giá trị, điều đó vẫn không có nghĩa là một sự thay đổi trong cái này sẽ dẫn đến sự thay đổi trong vấn đề kia. Nói cách khác, mối tương quan không ngụ ý nhân quả.

Phân tích dữ liệu phân loại

>>>

figure, ax1 = plt.subplots[]
ax1.plot[df.iloc[:,0],df.iloc[:,1],linewidth=0.5,zorder=1, label = "Force1"]
ax1.plot[df.iloc[:,0],df.iloc[:,2],linewidth=0.5,zorder=1, label = "Force2"]
7

Bạn sẽ thấy một cốt truyện trông khá ngẫu nhiên, như thế này:

Nhìn thoáng qua con số này cho thấy rằng không có mối tương quan đáng kể nào giữa thu nhập và tỷ lệ thất nghiệp.

Mặc dù một âm mưu phân tán là một công cụ tuyệt vời để có được ấn tượng đầu tiên về mối tương quan có thể xảy ra, nhưng nó chắc chắn là bằng chứng dứt khoát về một kết nối. Để biết tổng quan về các mối tương quan giữa các cột khác nhau, bạn có thể sử dụng

figure, ax1 = plt.subplots[]
ax1.plot[df.iloc[:,0],df.iloc[:,1],linewidth=0.5,zorder=1, label = "Force1"]
ax1.plot[df.iloc[:,0],df.iloc[:,2],linewidth=0.5,zorder=1, label = "Force2"]
04. Nếu bạn nghi ngờ mối tương quan giữa hai giá trị, thì bạn có một số công cụ theo ý của bạn để xác minh linh cảm của bạn và đo mức độ tương quan mạnh mẽ như thế nào.

Mặc dù vậy, hãy nhớ rằng ngay cả khi một mối tương quan tồn tại giữa hai giá trị, điều đó vẫn không có nghĩa là một sự thay đổi trong cái này sẽ dẫn đến sự thay đổi trong vấn đề kia. Nói cách khác, mối tương quan không ngụ ý nhân quả.

Phân tích dữ liệu phân loại

Để xử lý các khối thông tin lớn hơn, tâm trí con người một cách có ý thức và vô thức sắp xếp dữ liệu thành các danh mục. Kỹ thuật này thường rất hữu ích, nhưng nó khác xa với hoàn hảo.

>>>

figure, ax1 = plt.subplots[]
ax1.plot[df.iloc[:,0],df.iloc[:,1],linewidth=0.5,zorder=1, label = "Force1"]
ax1.plot[df.iloc[:,0],df.iloc[:,2],linewidth=0.5,zorder=1, label = "Force2"]
8

Bạn sẽ nhận được một biểu đồ mà bạn có thể so sánh với biểu đồ của tất cả các chuyên ngành từ đầu:

Phạm vi thu nhập trung bình chính có phần nhỏ hơn, bắt đầu từ 40.000 đô la. Phân phối gần với bình thường hơn, mặc dù đỉnh của nó vẫn ở bên trái. Vì vậy, ngay cả khi bạn đã quyết định chọn một chuyên ngành trong danh mục kỹ thuật, sẽ là khôn ngoan khi lặn sâu hơn và phân tích các lựa chọn của bạn kỹ lưỡng hơn.

Sự kết luận

Trong hướng dẫn này, bạn đã học cách bắt đầu trực quan hóa bộ dữ liệu của mình bằng Python và Thư viện Pandas. Bạn đã thấy làm thế nào một số sơ đồ cơ bản có thể cung cấp cho bạn cái nhìn sâu sắc về dữ liệu của bạn và hướng dẫn phân tích của bạn.visualizing your dataset using Python and the pandas library. You’ve seen how some basic plots can give you insight into your data and guide your analysis.

Trong hướng dẫn này, bạn đã học được cách:

  • Nhận tổng quan về phân phối dữ liệu của bạn với biểu đồhistogram
  • Khám phá mối tương quan với một âm mưu phân tánscatter plot
  • Phân tích các danh mục với các lô thanh và tỷ lệ của chúng với các lô bánhbar plots and their ratios with pie plots
  • Xác định lô nào phù hợp nhất với nhiệm vụ hiện tại của bạnmost suited to your current task

Sử dụng

cols = df.columns
figure, ax1 = plt.subplots[]
ax1.plot[df[cols[0]],df[cols[1]],linewidth=0.5,zorder=1, label = "Force1"]
ax1.plot[df[cols[0]],df[cols[2]],linewidth=0.5,zorder=1, label = "Force2"]
2 và một khung dữ liệu nhỏ, bạn đã phát hiện ra khá nhiều khả năng cung cấp hình ảnh dữ liệu của bạn. Bây giờ bạn đã sẵn sàng để xây dựng kiến ​​thức này và khám phá những hình ảnh tinh vi hơn nữa.

Nếu bạn có câu hỏi hoặc nhận xét, sau đó xin vui lòng đặt chúng vào phần bình luận bên dưới.

Đọc thêm

Mặc dù gấu trúc và matplotlib làm cho việc hình dung dữ liệu của bạn khá đơn giản, nhưng có những khả năng vô tận để tạo ra những lô đất tinh vi, đẹp hoặc hấp dẫn hơn.

Một nơi tuyệt vời để bắt đầu là phần vẽ đồ thị của tài liệu Pandas DataFrame. Nó chứa cả một cái nhìn tổng quan tuyệt vời và một số mô tả chi tiết về nhiều tham số bạn có thể sử dụng với các khung dữ liệu của mình.

Nếu bạn muốn hiểu rõ hơn về nền tảng của âm mưu với gấu trúc, thì hãy làm quen với matplotlib. Mặc dù tài liệu đôi khi có thể quá sức, giải phẫu của matplotlib thực hiện một công việc tuyệt vời để giới thiệu một số tính năng nâng cao.

Nếu bạn muốn gây ấn tượng với khán giả của mình bằng trực quan tương tác và khuyến khích họ khám phá dữ liệu cho chính họ, thì hãy biến Bokeh thành điểm dừng tiếp theo của bạn. Bạn có thể tìm thấy một cái nhìn tổng quan về các tính năng của Bokeh, trong trực quan hóa dữ liệu tương tác trong Python với Bokeh. Bạn cũng có thể định cấu hình gấu trúc để sử dụng bokeh thay vì matplotlib với thư viện

figure, ax1 = plt.subplots[]
ax1.plot[df.iloc[:,0],df.iloc[:,1],linewidth=0.5,zorder=1, label = "Force1"]
ax1.plot[df.iloc[:,0],df.iloc[:,2],linewidth=0.5,zorder=1, label = "Force2"]
16

Nếu bạn muốn tạo trực quan hóa để phân tích thống kê hoặc cho một bài báo khoa học, thì hãy xem Seaborn. Bạn có thể tìm thấy một bài học ngắn về Seaborn trong biểu đồ Python.

Xem bây giờ hướng dẫn này có một khóa học video liên quan được tạo bởi nhóm Python thực sự. Xem nó cùng với hướng dẫn bằng văn bản để làm sâu sắc thêm sự hiểu biết của bạn: Cấu trúc với Pandas: Python Dữ liệu Basicization This tutorial has a related video course created by the Real Python team. Watch it together with the written tutorial to deepen your understanding: Plot With Pandas: Python Data Visualization Basics

Làm thế nào để bạn vẽ các giá trị cụ thể trong Python?

Output:..
Xác định trục x và giá trị trục y tương ứng như danh sách ..
Vẽ chúng trên canvas bằng hàm .plot [] ..
Đặt tên cho trục x và trục y bằng các hàm .xlabel [] và .ylabel [] ..
Đưa ra một tiêu đề cho cốt truyện của bạn bằng hàm .title [] ..
Cuối cùng, để xem cốt truyện của bạn, chúng tôi sử dụng chức năng .show [] ..

Làm cách nào để có được các cột cụ thể trong gấu trúc?

Sử dụng dataFrame.loc [] và dataFrame.iloc [] để chọn một cột hoặc nhiều cột từ Pandas DataFrame theo tên/nhãn hoặc vị trí chỉ mục. loc[] and DataFrame. iloc[] to select a single column or multiple columns from pandas DataFrame by column names/label or index position respectively.

Làm thế nào để bạn cắt một cột trong một khung dữ liệu trong Python?

Khi bạn muốn cắt một dataFrame theo phạm vi của các cột, hãy cung cấp tên cột bắt đầu và dừng ...
Bằng cách không cung cấp cột bắt đầu, loc [] chọn từ đầu ..
Bằng cách không cung cấp dừng, loc [] chọn tất cả các cột từ nhãn bắt đầu ..
Cung cấp cả bắt đầu và dừng, chọn tất cả các cột ở giữa ..

Làm cách nào để thêm một cột vào khung dữ liệu?

Trong Pandas, bạn có thể thêm/nối một cột mới vào DataFrame hiện có bằng phương thức DataFrame.insert [], phương thức này cập nhật DataFrame hiện có với một cột mới.Khung dữ liệu.gán [] cũng được sử dụng để chèn một cột mới, phương thức này trả về một dataFrame mới sau khi thêm một cột mới.DataFrame. insert[] method, this method updates the existing DataFrame with a new column. DataFrame. assign[] is also used to insert a new column however, this method returns a new Dataframe after adding a new column.

Bài Viết Liên Quan

Chủ Đề