Python có tốt cho việc dọn dẹp dữ liệu không?
Dữ liệu là mạch máu của mọi công ty và trong cài đặt học máy, dữ liệu được tạo từ nhiều nguồn. Làm sạch dữ liệu là rất quan trọng để cài đặt máy học hoạt động chính xác. Nhưng làm thế nào để bạn thực hiện làm sạch dữ liệu? Show
Trong hướng dẫn này, bạn sẽ tìm hiểu làm sạch dữ liệu là gì và cách làm sạch dữ liệu bằng các công cụ Python để bạn có thể tận hưởng dữ liệu sạch và mới điều kiện tiên quyếtHướng dẫn này sẽ là một cuộc biểu tình thực hành. Nếu bạn muốn làm theo, hãy chắc chắn rằng bạn có những điều sau đây
Có liên quan. Bạn cài đặt Python 3 như thế nào. 6?
Nhập dữ liệu Làm sạch Thư viện Python PandasPython có một số thư viện tích hợp để giúp làm sạch dữ liệu. Hai thư viện phổ biến nhất là pandas và numpy, nhưng bạn sẽ sử dụng pandas cho hướng dẫn này. Thư viện gấu trúc cho phép bạn làm việc với khung dữ liệu gấu trúc để phân tích và thao tác dữ liệu Trước khi bạn có thể thực hiện làm sạch dữ liệu bằng gấu trúc Python, trước tiên hãy nhập thư viện gấu trúc và tập dữ liệu của bạn (tệp CSV) Có liên quan. Trăn 101. Cách quản lý và đọc CSV bằng Python Khởi chạy JupyterLab của bạn, sau đó kéo và thả bộ dữ liệu Pokémon vào JupyterLab của bạn Bây giờ, hãy chạy các lệnh bên dưới theo thứ tự để đọc tập dữ liệu và hiển thị bản xem trước của dữ liệu, để bạn có thể kiểm tra xem mình có bất kỳ lỗi nhập nào không
Xóa khoảng trắng trong DatasetsBây giờ bạn đã nhập tập dữ liệu của mình, bạn có thể bắt đầu làm sạch dữ liệu của mình. Có nhiều cách để làm sạch tập dữ liệu của bạn, chẳng hạn như xóa khoảng trắng. Khoảng trắng làm tăng kích thước của tập dữ liệu trong cơ sở dữ liệu của bạn một cách không cần thiết và khiến việc tìm kiếm dữ liệu trùng lặp trở thành một thách thức 1. Kiểm tra tập dữ liệu của bạn nếu có khoảng trắng như những gì bạn thấy trong các cột Tên, Loại và Điểm yếu bên dưới. Bạn sẽ loại bỏ những phần không liên quan này của dữ liệu một cách có hệ thống 2. Sao chép và dán các mã sau vào trình bao mã của bạn và nhấn tổ hợp phím Shift+Enter để thực thi mã. Mã bên dưới chuyển tên cột tới hàm 3 để xóa các khoảng trắng ở đầu và cuối trong tập dữ liệu của bạnCó liên quan. Bắt đầu. Hàm Python cho người mới
3. Cuối cùng, hãy kiểm tra lại tập dữ liệu của bạn để xác nhận rằng các khoảng trắng đã biến mất tương tự như bên dưới Loại bỏ các giá trị trùng lặpKhoảng trắng không phải là thứ duy nhất bạn cần chú ý trong tập dữ liệu. Với hàng tấn dữ liệu trong tập dữ liệu của bạn, bạn có thể đã bỏ qua một số dữ liệu trùng lặp. Vậy quá trình phát hiện và loại bỏ trùng lặp là gì? Mỗi mục nhập trong tập dữ liệu của bạn phải có dữ liệu duy nhất trong cột Tên. Nhưng như bạn có thể thấy bên dưới, Blastoise có hai mục, một ở hàng 10 và một ở hàng 11. Vì cột Chiều cao chỉ nên chứa số nên bạn sẽ xóa mục nhập ở hàng 11 có văn bản inch thừa trong cột Chiều cao Chạy các lệnh sau để loại bỏ 4 trùng lặp đầu tiên và giữ lại lần xuất hiện ( 5) cuối cùng
Như bạn có thể thấy bên dưới, phần trùng lặp trên hàng 10 hiện đã biến mất, vì vậy bạn không phải lo lắng về việc sửa chuỗi "inch" thừa đó nữa Điền vào các giá trị còn thiếuCho đến nay, bạn đã xử lý việc loại bỏ dữ liệu dư thừa (khoảng trắng và dữ liệu trùng lặp), nhưng còn dữ liệu bị thiếu thì sao?
1. Chạy lệnh 7 bên dưới để kiểm tra các giá trị còn thiếu trong tập dữ liệu của bạn________số 8 Có tổng cộng 151 mục nhập trong bộ dữ liệu. Trong kết quả hiển thị bên dưới, bạn có thể biết rằng ba cột bị thiếu dữ liệu. Cả hai cột Chiều cao và Cân nặng đều có 150 mục nhập và cột Loại chỉ có 149 mục nhập 2. Tiếp theo, hãy chạy lệnh sau để hiển thị tất cả các mục có ít nhất một ( 8) dữ liệu bị thiếu 9 1Lưu ý bên dưới rằng các cột Chiều cao, Cân nặng và Loại có giá trị Không phải là Số (NaN). Các giá trị NaN cho biết các cột có dữ liệu rỗng hoặc thiếu Trong kết quả bên dưới, bạn có thể thấy Golbat thiếu dữ liệu Chiều cao và Cân nặng mà bạn sẽ điền vào trong bước tiếp theo, vì vậy hãy nhớ lưu ý số mục nhập của Golbat (42) 3. Tìm kiếm thông tin của Golbat trên trang web Pokémon trên trình duyệt web của bạn. Trong dữ liệu của Golbat bên dưới, bạn có thể thấy giá trị Chiều cao là 5′ 03″ (63 inch), trong khi giá trị Cân nặng là 121. 3 cân Anh. Lưu ý giá trị chiều cao và cân nặng để điền vào dữ liệu còn thiếu cho Golbat trong tập dữ liệu của bạn Bây giờ, hãy chạy các lệnh sau để điền dữ liệu còn thiếu của Golbat vào tập dữ liệu của bạn
25. Chạy lệnh 0 bên dưới, trong đó 1 là số ID của mục nhập, để liệt kê dữ liệu của mục nhập và kiểm tra bất kỳ giá trị trống nào_______52 6Dưới đây, bạn có thể thấy rằng tất cả dữ liệu của Golbat đều được điền đầy đủ
6. Cuối cùng, lặp lại các bước tương tự (ba đến năm) để điền dữ liệu còn thiếu cho các mục nhập khác Sửa lỗi định dạngThay vì thiếu dữ liệu, một tình huống điển hình khác trong tập dữ liệu là lỗi định dạng. Hồ sơ không chính xác có thể gây khó chịu, nhưng đừng lo, bạn vẫn có thể sửa chúng Có lẽ bạn có một mục nhập trong tập dữ liệu của mình với các từ được phân tách bằng dấu gạch ngang như từ bên dưới thay vì dấu phẩy và dấu cách. Nếu vậy, chạy các lệnh 3 và 3 sẽ thực hiện thủ thuật1. Chạy lệnh bên dưới để xem dữ liệu trông như thế nào trong khung dữ liệu của bạn. Thay thế 5 bằng số mục nhập của dữ liệu có lỗi định dạng 02 Tiếp theo, hãy chạy lệnh bên dưới để thay thế dấu gạch ngang bằng dấu phẩy ( 6) trong cột Điểm yếu ( 7) của mục nhập dữ liệu 33. Chạy lại lệnh 8 như bạn đã làm ở bước một để kiểm tra xem có dấu gạch ngang nào trong dữ liệu không 0Như bạn có thể thấy bên dưới, đầu ra hiển thị dấu phẩy hiện phân tách các từ Sửa từ sai chính tảBên cạnh lỗi định dạng, các từ sai chính tả trong tập dữ liệu cũng có thể gây khó khăn cho việc phân tích dữ liệu. Tin vui là bạn có thể sử dụng một số thư viện Python kiểm tra chính tả được tạo sẵn. Nhưng vì bạn đã cài đặt pandas, bạn không phải lo lắng về việc cài đặt bất cứ thứ gì khác 1. Chạy các lệnh sau để liệt kê tất cả các từ duy nhất 9 trong cột 0. Thay thế 0 nếu bạn muốn liệt kê các từ duy nhất từ các cột khác 0Như bạn có thể thấy bên dưới, có hai từ viết sai chính tả (Posion và Fie) đáng lẽ phải là “Poison” và “Fire”. ” Bây giờ bạn có thể xem qua tập dữ liệu, tìm những hàng có từ sai chính tả và sửa chúng Chạy lệnh bên dưới để hiển thị tất cả các hàng mà 2từ 3 từ cột 0. Đối số regex được đặt thành false ( 5) để coi chuỗi ( 3) là chuỗi ký tự và không phải là biểu thức chính quy 1Trong kết quả sau đây, có bốn hàng (Arbok(24), Nidorina(30), Nidoqueen(30) và Nidoran(32)), có từ viết sai chính tả Posion trong cột Loại 3. Bây giờ, hãy chạy các lệnh bên dưới để thay thế 3 cho tất cả các mục trong cột 0 bằng từ 9 2Nếu thay thế thành công, bạn sẽ thấy mình đã sửa các từ sai chính tả từ “Posion” thành “Poison” trong mục nhập số 24 và 30-32 4. Cuối cùng, lặp lại các bước (hai đến ba) để sửa các từ sai chính tả khác Phần kết luậnTrong hướng dẫn này, bạn đã học cách thực hiện làm sạch dữ liệu bằng Python theo nhiều cách cho các trường hợp sử dụng khác nhau. Bạn cũng nhận ra rằng pandas, một thư viện Python phổ biến, ở ngay gần đó để giúp bạn tiết kiệm thời gian dọn dẹp dữ liệu Với kiến thức mới này, tại sao bạn không tìm hiểu thêm về các kỹ thuật pandas tiện dụng trong Python để thao tác dữ liệu? Ghét quảng cáo? Khám phá sách hướng dẫn ATAThông tin khác từ ATA Learning & Partners
|