Hướng dẫn python heapq nlargest time complexity - python heapq nlargest thời gian phức tạp
Người nói là sai trong trường hợp này. Chi phí thực tế là 8. Heapify chỉ được gọi trên các yếu tố 9 đầu tiên của Itable. Đó là 0, nhưng không đáng kể nếu 9 nhỏ hơn nhiều so với 2. Sau đó, tất cả các yếu tố còn lại được thêm vào "đống nhỏ" này thông qua 3, mỗi lần một. Điều đó mất 4 thời gian cho mỗi lần gọi 3. Độ dài của đống vẫn còn 9 trong suốt. Cuối cùng, đống được sắp xếp, có giá 7, nhưng điều đó cũng không đáng kể nếu 9 nhỏ hơn nhiều so với 2. Show
Vui vẻ với lý thuyết ;-)Có nhiều cách dễ dàng để tìm ra yếu tố lớn nhất trong thời gian 0 dự kiến; Ví dụ, xem ở đây. Có nhiều cách khó hơn để làm điều đó trong trường hợp xấu nhất 0 thời gian. Sau đó, trong một lần vượt qua đầu vào, bạn có thể xuất ra các yếu tố 9> = lớn nhất (với các biến chứng tẻ nhạt trong trường hợp trùng lặp). Vì vậy, toàn bộ công việc có thể được thực hiện trong thời gian 0.Nhưng những cách đó yêu cầu bộ nhớ 0 quá. Python không sử dụng chúng. Một lợi thế của những gì thực sự được thực hiện là gánh nặng bộ nhớ "thêm" trong trường hợp xấu nhất là 0 và điều đó có thể rất có ý nghĩa khi đầu vào, ví dụ, một trình tạo tạo ra nhiều giá trị lớn. Steve bước vào phòng cấp cứu lúc 2 giờ chiều với cơn đau bụng dữ dội. Vào lúc 2:01, Allen bị ho nặng. Vào lúc 2:02, Shirley vấp ngã với một vết thương do dao ở bên cạnh. Một khi bác sĩ được tự do, ai nên được nhìn thấy trước? Hầu hết chúng ta sẽ nói rằng Quay trở lại blog Bởi John Lekberg vào ngày 01 tháng 11 năm 2020. Bài đăng trên blog Python tuần này là về mô -đun HEAPQ của Python. Bạn sẽ học:
Tại sao bạn nên quan tâm đến đống và from heapq import nsmallest nsmallest(10, data) 6Bạn nên quan tâm đến đống vì chúng là một cấu trúc dữ liệu cho phép bạn nhanh chóng truy cập các yếu tố nhỏ nhất (hoặc lớn nhất) của bộ dữ liệu mà không cần phải sắp xếp toàn bộ bộ dữ liệu. Ví dụ. Tôi muốn nhận được 10 số nhỏ nhất từ bộ dữ liệu gồm 10.000.000 số. Sắp xếp và trượt đều mất 3,8 giây, nhưng sử dụng một đống mất 0,3 s!
Mô-đun HEAPQ của Python thực hiện các bản heaps nhị phân bằng danh sách. Nó cung cấp một API để trực tiếp tạo và thao tác các đống, cũng như một bộ chức năng tiện ích cấp cao hơn: heapq.nsmallest, heapq.nlargest và heapq.merge. Có được các bản ghi nhỏ nhất (và lớn nhất) từ bộ dữ liệuNếu bạn có bộ dữ liệu, bạn có thể có được K nhỏ nhất hoặc lớn nhất bằng cách sắp xếp và cắt nó. Nhưng, nó có thể hiệu quả hơn khi sử dụng heapq.nsmallest và heapq.nlargest. Ví dụ. Tôi muốn 10 bản ghi nhỏ nhất từ bộ dữ liệu với 10.000.000 bản ghi:
Và, tôi cũng có thể sử dụng Heapq.nsmallest để làm điều này:
Nhưng Heapq.nsmallest chạy một thứ tự nhanh hơn. Ví dụ. 0,29 giây so với 3,91 giây: 0 12 3Điều này là do độ phức tạp về thời gian của việc lấy K bản ghi nhỏ nhất từ bộ dữ liệu của N phần tử là ...
Vì vậy, bạn nên sử dụng Sắp xếp hoặc Danh sách.Sort? Còn Min và Max thì sao?
Lý do mà tôi nói "nếu k là 'nhỏ'" là bởi vì - theo lý thuyết, mặc dù độ phức tạp về thời gian của heapq.nsmallest sẽ luôn luôn tốt như điều đó, o (n log n) - trong Thực hành, Timsort của Python có thể nhanh hơn khi k gần n. Cách tốt nhất để tìm ra nếu bạn nên sử dụng heapq.nsmallest hoặc được sắp xếp là thử cả hai và đo kết quả. Hợp nhất các bộ dữ liệu được sắp xếp thành một bộ dữ liệu được sắp xếpNếu bạn có một số bộ dữ liệu được sắp xếp và bạn muốn hợp nhất chúng thành một bộ dữ liệu được sắp xếp duy nhất, bạn có thể kết hợp chúng và sắp xếp kết quả. . Ví dụ. Tôi có 7 bộ dữ liệu được sắp xếp - trong các tệp trên đĩa - với 1.000.000 bản ghi: 4Tôi muốn hợp nhất các bộ dữ liệu này thành một bộ dữ liệu được sắp xếp - trên đĩa. Tôi có thể làm điều này bằng cách kết hợp các bộ dữ liệu với itertools.chain.from_iterable và sau đó sử dụng chức năng tích hợp được sắp xếp: 5Hoặc, tôi cũng có thể hợp nhất các bộ dữ liệu này với Heapq.merge: 6Mặc dù Heapq.merge chạy chậm hơn một chút - ví dụ: 10,9 s so với 6,7 giây - nó sử dụng bộ nhớ ít hơn nhiều - ví dụ: 144 kb so với 811.036 kb:slower -- e.g., 10.9 s vs. 6.7 s -- it uses much less memory -- e.g., 144 kB vs. 811,036 kB: 7 89 01 23 4Sự cảnh báo ở đây là các bộ dữ liệu đầu vào phải được sắp xếp. Tạo và thao tác các đốngHeapq cung cấp một API để tạo trực tiếp và điều khiển một min-heap nhị phân. Heapq đại diện cho một danh sách tối thiểu nhị phân làm danh sách, vì vậy một đống trống chỉ là một danh sách trống: 5 5Một danh sách có thể được biến thành một đống tại chỗ bằng cách sử dụng Heapq.Heapify:in-place using heapq.heapify: 7 8Phần tử tối thiểu là phần tử đầu tiên của danh sách: 9 01
Bạn có thể đẩy các phần tử lên đống bằng Heapq.HeAppush và bạn có thể bật các phần tử ra khỏi đống bằng Heapq.HeAppop: 3 85 07 89 0Heapq cũng cung cấp các phương thức phím tắt Heapq.HeAppushpop và Heapq.Heapreplace:
Nếu bạn muốn tạo một đống kích thước cố định:
Nếu bạn muốn tạo một heap tối đa (thay vì một min-heap):
Tóm lại là...Trong bài đăng tuần này, bạn đã tìm hiểu về mô -đun HEAPQ của Python. Bạn đã học cách trực tiếp tạo và thao tác các mục tiêu tối thiểu nhị phân, cũng như cách sử dụng các hàm tiện ích cấp cao để có được K nhỏ nhất (hoặc lớn nhất) từ bộ dữ liệu và hợp nhất nhiều bộ dữ liệu được sắp xếp vào một bộ dữ liệu được sắp xếp. Thử thách của tôi với bạn:
Nếu bạn thích bài đăng trong tuần này, hãy chia sẻ nó với bạn bè của bạn và theo dõi bài đăng vào tuần tới. Gặp bạn sau! (Nếu bạn phát hiện ra bất kỳ lỗi hoặc lỗi chính tả nào trên bài đăng này, liên hệ với tôi qua trang liên hệ của tôi.) Độ phức tạp về thời gian cho Heapq Nlargest là gì?Chi phí thực tế là o (n * log (t)). Heapify chỉ được gọi trên các yếu tố T đầu tiên của Itable. Đó là o (t), nhưng không đáng kể nếu t nhỏ hơn n nhiều. Sau đó, tất cả các yếu tố còn lại được thêm vào "đống nhỏ" này thông qua Heppushpop, mỗi lần một.O(n * log(t)) . Heapify is called only on the first t elements of the iterable. That's O(t) , but is insignificant if t is much smaller than n . Then all the remaining elements are added to this "little heap" via heappushpop , one at a time.
Độ phức tạp thời gian là gì?Heapq là một đống nhị phân, với O (log n) đẩy và o (log n) pop.Xem mã nguồn Heapq.Thuật toán bạn hiển thị lấy o (n log n) để đẩy tất cả các mục lên đống, sau đó O ((n-k) log n) để tìm phần tử lớn nhất thứ k.Vì vậy, độ phức tạp sẽ là o (n log n).Nó cũng yêu cầu O (N) thêm không gian.O(log n) push and O(log n) pop . See the heapq source code. The algorithm you show takes O(n log n) to push all the items onto the heap, and then O((n-k) log n) to find the kth largest element. So the complexity would be O(n log n). It also requires O(n) extra space.
Heapq có nhanh không?HEAPQ nhanh hơn so với sắp xếp trong trường hợp nếu bạn cần thêm các phần tử trên con ruồi, tức là bổ sung và chèn có thể theo thứ tự không xác định.Thêm phần tử mới bảo tồn thứ tự bên trong trong bất kỳ heap nào nhanh hơn so với mảng nghỉ dưỡng sau mỗi lần chèn. i.e. additions and insertions could come in unspecified order. Adding new element preserving inner order in any heap is faster than resorting array after each insertion.
Heapq nlargest lớn nhất trong Python là gì?HEAPQ.nlargest (n, itable, key = none) trả về một danh sách với các phần tử lớn nhất từ bộ dữ liệu được xác định bởi ITable.Khóa, nếu được cung cấp, chỉ định hàm của một đối số được sử dụng để trích xuất một khóa so sánh từ mỗi phần tử trong ITable (ví dụ: key = str.Lower).Return a list with the n largest elements from the dataset defined by iterable. key, if provided, specifies a function of one argument that is used to extract a comparison key from each element in iterable (for example, key=str.lower ). |