Cách xóa dữ liệu trong Excel

Priyanka là một doanh nhân & chuyên gia tiếp thị nội dung. Cô ấy viết blog về công nghệ và có chuyên môn về MS Office, Excel và các chủ đề công nghệ khác. Nghệ thuật đặc biệt của cô ấy trong việc trình bày thông tin công nghệ bằng ngôn ngữ dễ hiểu rất ấn tượng. Khi không viết lách, cô ấy thích những chuyến du lịch không có kế hoạch

Hai bài đăng blog tiếp theo này sẽ được dành toàn bộ như một bản tóm tắt của hội thảo đào tạo mà tôi đã tổ chức gần đây cùng với BusinessOne, một câu lạc bộ tư vấn chuyên nghiệp do sinh viên điều hành có trụ sở tại Đại học Melbourne

Hội thảo nhằm mục đích giúp các nhóm dự án tại BusinessOne tìm hiểu các kỹ thuật làm sạch dữ liệu cơ bản bằng Microsoft Excel, cũng như giới thiệu Microsoft Power BI như một công cụ để xây dựng bảng điều khiển tương tác truyền đạt thông tin chuyên sâu chính trong tập dữ liệu

Bài đăng trên blog hôm nay sẽ tập trung vào nửa đầu của hội thảo, đó là sử dụng Excel để thực hiện kiểm tra dữ liệu đơn giản và làm sạch dữ liệu

Xem bản ghi đầy đủ của hội thảo dưới đây

Các tài liệu được sử dụng cho hội thảo cũng có thể được tìm thấy trên GitHub của tôi tại đây

Giới thiệu

Microsoft Excel là một phần của bộ sản phẩm phần mềm Microsoft Office. Đó là một bảng tính không chỉ cho phép dữ liệu được lưu trữ ở dạng bảng mà tôi. e. hàng và cột, mà còn có các chức năng tính toán, công cụ vẽ đồ thị, bảng tổng hợp, v.v.

Với mục đích của bài viết này, chúng tôi sẽ chủ yếu tập trung vào cách làm việc với dữ liệu trong Excel, thực hiện các kiểm tra cơ bản và làm sạch dữ liệu, cũng như một số phép tính cơ bản

Tab Trang chủ trong Microsoft Excel;

Mỗi ô trong bảng tính được tham chiếu bằng bảng chữ cái theo sau là số e. g. ô A1, A2, v.v.

Thay đổi kích thước cột

Bảng trước chiều rộng cột autofit;

Giả sử chúng ta được khách hàng cung cấp tập dữ liệu thô cụ thể này và chúng ta có nhiệm vụ làm sạch, phân tích và giải thích dữ liệu

Trước hết, chúng ta sẽ nhận thấy gần như ngay lập tức rằng các cột không có kích thước phù hợp, điều này khiến chúng ta không thể nhìn thấy giá trị đầy đủ trong mỗi ô. Để giải quyết vấn đề này, chúng tôi có thể thay đổi kích thước từng cột để chúng trở nên đủ rộng để ghi lại từ dài nhất trong mỗi cột

Trước tiên, chúng ta cần đánh dấu toàn bộ bảng thông qua Ctrl + A và khi bảng được đánh dấu, hãy nhấn Alt, sau đó là H, O và I. Điều này sẽ tự động điều chỉnh tất cả các cột để điều chỉnh độ rộng của chúng

Bảng sau autofit chiều rộng cột;

Trước khi chúng tôi bắt đầu bất kỳ quá trình làm sạch hoặc phân tích nào, điều quan trọng là trước tiên chúng tôi phải hiểu rõ về tập dữ liệu mà chúng tôi đang làm việc với

Ở đây, chúng ta có thể quan sát một bảng có vẻ là một tập dữ liệu giao dịch, trong đó mỗi hàng đại diện cho một khách hàng mua một sản phẩm vào một ngày nhất định tại một cửa hàng cụ thể. Di chuyển qua các cột, chúng tôi được cung cấp thêm thông tin như tên sản phẩm, số lượng, tổng doanh số, cùng với các thuộc tính của khách hàng như giai đoạn sống và cấp độ cao cấp của họ

Trước tiên, luôn luôn là một phương pháp hay để kiểm tra các hàng và cột của một tập dữ liệu, đặc biệt là dữ liệu mà chúng ta chưa từng thấy hoặc làm việc với nó trước đây, vì điều này sẽ giúp cho chúng ta biết những điều cần chú ý khi thực hiện kiểm tra dữ liệu và sau đó là làm sạch dữ liệu

Đổi tên tên cột

Để đổi tên hoặc thay thế giá trị trong một ô, chỉ cần chọn ô bạn muốn thay đổi và bắt đầu nhập giá trị mới

Giả sử ở đây chúng ta muốn đổi tên tất cả tên cột trong bảng

  • LYLTY_CARD_NBR. Số thẻ khách hàng thân thiết
  • NGÀY THÁNG. Ngày tháng
  • CỬA HÀNG_NBR. Số cửa hàng
  • TXN_ID. ID giao dịch
  • SẢN PHẨM_NBR. Số sản phẩm
  • SẢN PHẨM_NAME. tên sản phẩm
  • SẢN PHẨM_QTY. Chất lượng sản phẩm
  • TOT_SALES. Tổng doanh thu
  • CHẶN ĐƯỜNG ĐỜI. Chặn đường đời
  • PREMIUM_CUSTOMER. Khách hàng cao cấp
Chuyển đổi kiểu dữ liệu chung thành ngày ngắn

Mỗi ô trong Excel được gán một kiểu dữ liệu xác định cách dữ liệu được lưu trữ và hiển thị

Chúng ta có thể thấy trong cột B rằng các ngày không hiển thị như bình thường và đó là do chúng được đặt làm kiểu dữ liệu chung. Để giải quyết vấn đề này, chúng ta cần chuyển đổi cột thành ngày ngắn

Đầu tiên, đánh dấu cột B và thay đổi kiểu dữ liệu từ chung thành ngày ngắn

Thay đổi loại dữ liệu từ chung thành ngày ngắn;

Trong cột F, chúng ta có thể thấy các mẫu khoảng cách bất thường xảy ra trong tên sản phẩm. Để giải quyết vấn đề này, chúng ta có thể sử dụng hàm trim trong Excel và chuyển tên sản phẩm làm đối số của nó

Chức năng cắt bỏ tất cả các mẫu giãn cách bất thường;

Hơn nữa, trong cột I, chúng tôi quan sát thấy rằng các văn bản đều được viết hoa. Sử dụng chức năng thích hợp, chúng ta chỉ có thể viết hoa chữ cái đầu tiên của mỗi từ và giữ các chữ cái còn lại dưới dạng chữ thường

Hàm thích hợp viết hoa chữ cái đầu tiên của mỗi từ;

Bản sao là bản sao chính xác của cùng một bản ghi trong tập dữ liệu và chúng phải bị xóa vì chúng không thêm bất kỳ giá trị bổ sung nào

Xóa trùng lặp trong Excel rất đơn giản. Trong tab Dữ liệu, chọn loại bỏ trùng lặp

Loại bỏ các bản sao;

Ở đây, chúng tôi định nghĩa một bản sao là bất kỳ bản ghi nào là một bản sao chính xác trên tất cả các trường trong bảng, do đó lý do tại sao chúng tôi đã bao gồm tất cả các cột trong danh sách lựa chọn ở trên

Khi bạn nhấn OK, Excel sẽ thông báo cho bạn số lượng bản sao được tìm thấy và tự động xóa chúng khỏi bảng

Thêm ký hiệu đô la vào cột tổng doanh thu

Vì tổng doanh thu là số liệu đô la, nên chỉ cần thêm ký hiệu đô la bên cạnh các số

Để thực hiện việc này, chỉ cần đánh dấu cột và chuyển đổi cột thành định dạng số kế toán, được biểu thị bằng ký hiệu đô la trong tab Trang chủ

Flash điền kích thước gói từ tên sản phẩm

Flash fill là một chức năng tiên đoán mạnh mẽ trong Excel. Nó có thể cảm nhận một mẫu logic mà bạn đang cố gắng thực hiện và tự động áp dụng mẫu đó cho toàn bộ cột

Để chứng minh điều này, giả sử chúng tôi muốn trích xuất kích thước gói ra khỏi tên sản phẩm trong cột F. Chúng ta có thể thấy rằng các kích cỡ gói, ví dụ: 175g, 150g, 210g, v.v. nằm ở cuối mỗi tên sản phẩm. Do đó, chúng tôi có thể tận dụng flash fill để nhận ra mẫu này và sau đó điền vào một cột mới với kích thước gói từ sản phẩm tương ứng

Thực tế mà nói, để bắt đầu flash fill, trước tiên chúng ta phải nhập kích thước gói đầu tiên, trong trường hợp này là 175g và chuyển sang hàng tiếp theo. Khi bạn bắt đầu nhập 150g cho tên sản phẩm tiếp theo, bạn sẽ thấy một tùy chọn bật lên trong đó Excel đang cố gắng lấp đầy toàn bộ cột bằng tất cả các kích cỡ gói. Chỉ cần nhấn Enter trên bàn phím của bạn để áp dụng màu flash

Ngoài ra, nếu tùy chọn không xuất hiện, hãy nhấn Ctrl + E, đây là phím tắt để điền flash

Flash lấp đầy kích thước gói từ tên sản phẩm;

Giả sử chúng ta không thực sự quan tâm đến hương vị của sản phẩm mà thay vào đó, chúng ta chỉ muốn tên thương hiệu. Cách dễ nhất để làm điều này là trích xuất từ ​​đầu tiên trong mỗi tên sản phẩm. Để thực hiện điều này, chúng ta cần hai chức năng riêng biệt. trái và tìm

Left trả về số ký tự đã chỉ định từ đầu chuỗi văn bản. Mặt khác, Find trả về vị trí bắt đầu của một chuỗi văn bản trong một chuỗi văn bản khác

Công thức kết hợp việc sử dụng hai hàm này như sau

LEFT[[Product Name], WHICH[" ", [Product Name]]-1]

Nói một cách đơn giản, công thức về cơ bản cho biết tìm vị trí trước ký tự khoảng trắng đầu tiên và trả về tất cả các ký tự từ tên sản phẩm cho đến vị trí đó. Kết quả là, chúng tôi nhận được như sau

Trích xuất từ ​​đầu tiên trong tên sản phẩm;

Sau khi lấy tên thương hiệu từ các sản phẩm, chúng tôi có thể phát hiện ra một số tên không nhất quán trong đó một số sản phẩm được dán nhãn. Một số ví dụ bao gồm

  • Infzns và Infuzions
  • Snbts và Sunbites
  • WW và Woolworths
  • RRD và Red Rock Deli

Ghi nhãn tên sản phẩm không nhất quán;

Là nhà khoa học dữ liệu siêng năng như chúng tôi, điều này cần được giải quyết đúng cách trước khi có thể thực hiện bất kỳ phân tích nào nữa

Có một số cách để thực hiện việc này nhưng phương pháp mà tôi đã trình bày trong hội thảo là sử dụng tìm và thay thế, phím tắt Ctrl+H

Chỉ định từ bạn muốn tìm và từ bạn muốn thay thế bằng từ đó và để Excel thực hiện phần còn lại. Tuy nhiên, hãy nhớ rằng phương pháp này cũng sẽ ghi đè lên từ nếu xuất hiện ở nơi khác trong cùng một bảng tính. Tiến hành thận trọng

Xóa ngoại lệ

Nói về việc trở thành một nhà khoa học dữ liệu siêng năng, một điều khác cần chú ý khi thực hiện kiểm tra dữ liệu là các ngoại lệ

Ngoại lệ là các điểm dữ liệu sai lệch đáng kể so với phân phối của phần còn lại của dữ liệu. Điều quan trọng là chúng ta phải loại bỏ chúng vì chúng không chỉ bóp méo quan điểm của chúng ta về một biến mà còn tác động tiêu cực đến mô hình của chúng ta nếu và khi chúng ta xây dựng một biến.

Có hai ngoại lệ trong bộ dữ liệu giao dịch của chúng tôi. Điều này có thể thấy qua cột số lượng sản phẩm và tổng doanh số. Cụ thể, một khách hàng cụ thể có số thẻ khách hàng thân thiết 226000 đã mua 200 gói chip với tổng doanh số là 650 USD vào hai dịp riêng biệt

Với mục đích của hội thảo này, chúng tôi sẽ loại bỏ những ngoại lệ này khỏi bảng

Thiếu ngày

Cuối cùng nhưng không kém phần quan trọng, chúng tôi có một ngày bị thiếu trong dữ liệu, điều mà tôi phải thừa nhận là khó khăn đối với những người mới bắt đầu phát hiện nhưng dù sao, đây là một bước quan trọng trong nỗ lực của chúng tôi nhằm làm sạch hoàn toàn bộ dữ liệu

Để tìm ngày bị thiếu, chúng ta cần chuyển toàn bộ cột ngày vào một hàm gọi là duy nhất, hàm này chỉ trả về các giá trị duy nhất trong một mảng đã cho. Sau đó, sắp xếp ngày từ cũ nhất đến mới nhất

Mặc dù không có cách đơn giản nào để tìm ngày bị thiếu trong Excel, nhưng chúng ta vẫn có thể nghĩ ra cách tiếp cận linh hoạt của riêng mình để có được những gì chúng ta cần. Cụ thể, chúng ta có thể xây dựng câu lệnh if-else như sau

IF[[Tomorrow] - [Today] = 1, "Yes", "No"]

Điều này có nghĩa là nếu chênh lệch giữa ngày mai và ngày hôm nay bằng một, thì ngày đó là tuần tự và do đó là chính xác. Nếu không, có một ngày mất tích

Nếu làm đúng ta sẽ thấy ngày thiếu rơi vào ngày 25/12/2018, tức là ngày Noel. Điều này là hợp lý vì cửa hàng bán lẻ có thể đóng cửa trong ngày lễ và do đó, không đăng ký bất kỳ doanh số bán hàng nào cho ngày cụ thể đó

Mặc dù Excel có thể không phải là công cụ linh hoạt và toàn diện nhất để làm sạch dữ liệu, tuy nhiên, nó cung cấp một cách rất nhanh chóng và dễ dàng để kiểm tra tập dữ liệu và loại bỏ một số tác vụ cơ bản

Để bổ sung cho bài viết này, tôi thực sự khuyên bạn nên xem toàn bộ video trên kênh YouTube của mình, nơi tôi sẽ trình bày chi tiết hơn từng bước được trình bày tại đây

Nếu bạn tìm thấy bất kỳ giá trị nào từ bài viết này và chưa phải là thành viên Phương tiện, điều đó sẽ có ý nghĩa rất lớn đối với tôi cũng như những người viết khác trên nền tảng này nếu bạn đăng ký thành viên bằng liên kết bên dưới. Nó khuyến khích chúng tôi tiếp tục đưa ra nội dung chất lượng cao và nhiều thông tin giống như nội dung này — cảm ơn bạn trước

Chủ Đề