Hướng dẫn how does python calculate ecdf? - python tính toán ecdf như thế nào?

Xuất bản ngày 26 tháng 2 năm 2018 được cập nhật ngày 22 tháng 5 năm 2018

ECDF: Chức năng phân phối tích lũy thần kinh: Hàm phân phối thực nghiệm là hàm liên quan đến thước đo thực nghiệm của một mẫu. Hàm phân phối tích lũy này là một hàm bước nhảy lên 1/N tại mỗi điểm dữ liệu N. Giá trị của nó ở bất kỳ giá trị được chỉ định nào của biến đo được là phần quan sát của biến đo được nhỏ hơn hoặc bằng giá trị được chỉ định. Đặt [x1,,, xn] là độc lập, các biến ngẫu nhiên thực được phân phối giống hệt với hàm phân phối tích lũy chung F [t]. Sau đó, hàm phân phối thực nghiệm được định nghĩa là: Nguồn: Emperical Cumulative Distribution Function:
An empirical distribution function is the function associated with the empirical measure of a sample. This cumulative distribution function is a step function that jumps up by 1/n at each of the n data points. Its value at any specified value of the measured variable is the fraction of observations of the measured variable that are less than or equal to the specified value.
Let [x1, …, xn] be independent, identically distributed real random variables with the common cumulative distribution function F[t]. Then the empirical distribution function is defined as:Source

Đến quan điểm của tôi, thật khó để tìm một giải pháp thay thế cho chức năng ecdf [] của r trong python. Có một vài mã trực tuyến có sẵn, nhưng điều này được xác minh là phù hợp nhất có thể với hàm ECDF [] của R. Nó tuân theo thuật toán đằng sau việc tính toán ECDF của một dữ liệu nhất định.

Nếu bạn muốn tự mình tính toán nó, thì đó không phải là một chức năng lớn [về mặt LỘC].

Giả sử chúng tôi được cung cấp một mảng 1-D mà chúng tôi đặt tên là dữ liệu.

  data = [101, 118, 121, 103, 142, 111, 119, 122, 128, 112, 117,157]

Trước tiên chúng tôi sẽ chuyển đổi nó thành một mảng numpy.

  raw_data = np.array[data]

Bây giờ chúng tôi sẽ tìm thấy các giá trị x và y tương ứng đại diện cho CDF thực tế của dữ liệu.

  # create a sorted series of unique data
    cdfx = np.sort[data.unique[]]
  # x-data for the ECDF: evenly spaced sequence of the uniques
  		x_values = np.linspace[start=min[cdfx],
  			stop=max[cdfx],num=len[cdfx]]
    
    # size of the x_values
    	size_data = raw_data.size
    # y-data for the ECDF:
        y_values = []
      	for i in x_value:
        # all the values in raw data less than the ith value in x_values
            temp = raw_data[raw_data 

Bài Viết Liên Quan

Chủ Đề