Hướng dẫn dùng data structure trong PHP

Trong khoa học máy tính, cấu trúc dữ liệu là một cách lưu dữ liệu trong máy tính sao cho nó có thể được sử dụng một cách hiệu quả.

Cấu trúc dữ liệu là hình thức tổ chức một nhóm dữ liệu bao gồm các chức năng:

  • Lưu trữ dữ liệu
  • Cung cấp các phương thức để thao tác với dữ liệu.

Trong thiết kế nhiều loại chương trình, việc chọn cấu trúc dữ liệu là vấn đề quan trọng. Kinh nghiệm trong việc xây dựng các hệ thống lớn cho thấy khó khăn của việc triển khai chương trình, chất lượng và hiệu năng của kết quả cuối cùng phụ thuộc rất nhiều vào việc chọn cấu trúc dữ liệu tốt nhất.

Mỗi loại cấu trúc dữ liệu phù hợp với một vài loại ứng dụng khác nhau, một số cấu trúc dữ liệu dành cho những công việc đặc biệt. Ví dụ, các B-tree đặc biệt phù hợp trong việc thiết kế cơ sở dữ liệu. Sau khi cấu trúc dữ liệu được chọn, người ta thường dễ nhận thấy thuật toán cần sử dụng. Đôi khi trình tự công việc diễn ra theo thứ tự ngược lại: cấu trúc dữ liệu được chọn do những bài toán quan trọng nhất định có thuật toán chạy tốt nhất với một số cấu trúc dữ liệu cụ thể. Trong cả hai trường hợp, việc lựa chọn cấu trúc dữ liệu là rất quan trọng.

Cấu trúc dữ liệu là một khái niệm rất quan trọng trong lập trình, bởi vì nó ảnh hưởng rất lớn đến hiệu năng của hệ thống. Việc lựa chọn được cấu trúc dữ liệu phù hợp trong từng bài toán sẽ giúp cho hiệu năng của hệ thống được đảm bảo tốt nhất. Ngược lại, nếu không sử dụng đúng cấu trúc dữ liệu cần thiết thì có thể gây ảnh hưởng rất lớn đến hoạt động của hệ thống, hậu quả có thể là rất lớn.

Trong một cấu trúc dữ liệu thì có 2 thành phần quan trọng chính là container và element.

  • Container: Là lớp chứa dữ liệu và cung cấp các phương thức để thao tác với dữ liệu
  • Elements: Chính là các phần tử dữ liệu

Ví dụ:

  • Lớp ArrayList là cấu trúc danh sách, lưu trữ nhiều giá trị liên tiếp nhau
  • Các phương thức được cung cấp để thực hiện các thao tác với ArrayList là: Thêm phần tử, xoá phần tử, duyệt phần tử, tìm kiếm…

Các cấu trúc dữ liệu thông dụng

  • Set (Tập hợp): Nhóm các phần tử không trùng nhau
  • List (Danh sách): Nhóm ác phần tử có thể trùng nhau
  • Stack: Nhóm các phần tử theo trật tự first-in/last-out (vào trước/ra sau)
  • Queue: Nhóm các phần tử theo trật tự first-in/first-out (vào trước/ra trước)
  • Map (Bản đồ): Lưu trữ các cặp key/value
  • Tree (Cây): Lưu trữ các phần tử theo mối quan hệ cha-con
  • Graph (Đồ thị): Lưu trữ các phần tử theo mối quan hệ mạng lưới

  • Cấu trúc dữ liệu (Data Structure) là gì ?
  • Đặc điểm của một Cấu trúc dữ liệu
  • Tại sao Cấu trúc dữ liệu là cần thiết ?
  • Độ phức tạp thời gian thực thi trong cấu trúc dữ liệu và giải thuật
  • Thuật ngữ cơ bản trong Cấu trúc dữ liệu

Cấu trúc dữ liệu (Data Structure) là gì ?

Cấu trúc dữ liệu là cách lưu trữ, tổ chức dữ liệu có thứ tự, có hệ thống để dữ liệu có thể được sử dụng một cách hiệu quả.

Dưới đây là hai khái niệm nền tảng hình thành nên một cấu trúc dữ liệu:

  • Interface: Mỗi cấu trúc dữ liệu có một Interface. Interface biểu diễn một tập hợp các phép tính mà một cấu trúc dữ liệu hỗ trợ. Một Interface chỉ cung cấp danh sách các phép tính được hỗ trợ, các loại tham số mà chúng có thể chấp nhận và kiểu trả về của các phép tính này.
  • Implementation (có thể hiểu là sự triển khai): Cung cấp sự biểu diễn nội bộ của một cấu trúc dữ liệu. Implementation cũng cung cấp phần định nghĩa của giải thuật được sử dụng trong các phép tính của cấu trúc dữ liệu.

Đặc điểm của một Cấu trúc dữ liệu

  • Chính xác: Sự triển khai của Cấu trúc dữ liệu nên triển khai Interface của nó một cách chính xác.
  • Độ phức tạp về thời gian (Time Complexity): Thời gian chạy hoặc thời gian thực thi của các phép tính của cấu trúc dữ liệu phải là nhỏ nhất có thể.
  • Độ phức tạp về bộ nhớ (Space Complexity): Sự sử dụng bộ nhớ của mỗi phép tính của cấu trúc dữ liệu nên là nhỏ nhất có thể.

Tại sao Cấu trúc dữ liệu là cần thiết ?

Ngày nay, các ứng dụng ngày càng phức tạp và lượng dữ liệu ngày càng lớn với nhiều kiểu đa dạng. Việc này làm xuất hiện 3 vấn đề lớn mà mỗi lập trình viên phải đối mặt:

  • Tìm kiếm dữ liệu: Giả sử có 1 triệu hàng hóa được lưu giữ vào trong kho hàng hóa. Và giả sử có một ứng dụng cần để tìm kiếm một hàng hóa. Thì mỗi khi thực hiện tìm kiếm, ứng dụng này sẽ phải tìm kiếm 1 hàng hóa trong 1 triệu hàng hóa. Khi dữ liệu tăng lên thì việc tìm kiếm sẽ càng trở lên chậm và tốn kém hơn.
  • Tốc độ bộ vi xử lý: Mặc dù bộ vi xử lý có tốc độ rất cao, tuy nhiên nó cũng có giới hạn và khi lượng dữ liệu lên tới hàng tỉ bản ghi thì tốc độ xử lý cũng sẽ không còn được nhanh nữa.
  • Đa yêu cầu: Khi hàng nghìn người dùng cùng thực hiện một phép tính tìm kiếm trên một Web Server thì cho dù Web Server đó có nhanh đến mấy thì việc phải xử lý hàng nghìn phép tính cùng một lúc là thực sự rất khó.

Để xử lý các vấn đề trên, các cấu trúc dữ liệu là một giải pháp tuyệt vời. Dữ liệu có thể được tổ chức trong cấu trúc dữ liệu theo một cách để khi thực hiện tìm kiếm một phần tử nào đó thì dữ liệu yêu cầu sẽ được tìm thấy ngay lập tức.

Độ phức tạp thời gian thực thi trong cấu trúc dữ liệu và giải thuật

Có 3 trường hợp thường được sử dụng để so sánh thời gian thực thi của các cấu trúc dữ liệu khác nhau:

  • Trường hợp xấu nhất (Worst Case): là tình huống mà một phép tính của cấu trúc dữ liệu nào đó tốn thời gian tối đa (thời gian dài nhất). Ví dụ với ba số 1, 2, 3 thì nếu sắp xếp theo thứ tự giảm dần thì thời gian thực thi sẽ là dài nhất (và đây là trường hợp xấu nhất); còn nếu sắp xếp theo thứ tự tăng dần thì thời gian thực thi sẽ là ngắn nhất (và đây là trường hợp tốt nhất).
  • Trường hợp trung bình (Average Case): miêu tả thời gian thực thi trung bình một phép tính của một cấu trúc dữ liệu.
  • Trường hợp tốt nhất (Best Case): là tình huống mà thời gian thực thi một phép tính của một cấu trúc dữ liệu là ít nhất. Ví dụ như trên.

Thuật ngữ cơ bản trong Cấu trúc dữ liệu

  • Dữ liệu: Dữ liệu là các giá trị hoặc là tập hợp các giá trị.
  • Phần tử dữ liệu: Phần tử dữ liệu là một đơn vị đơn lẻ của giá trị.
  • Các phần tử nhóm: Phần tử dữ liệu mà được chia thành các phần tử con thì được gọi là các phần tử nhóm.
  • Các phần tử cơ bản: Phần tử dữ liệu mà không thể bị chia nhỏ thành các phần tử con thì gọi là các phần tử cơ bản.
  • Thuộc tính và Thực thể: Một thực thể là cái mà chứa một vài thuộc tính nào đó, và các thuộc tính này có thể được gán các giá trị.
  • Tập hợp thực thể: Các thực thể mà có các thuộc tính tương tự nhau thì cấu thành một tập hợp thực thể.
  • Trường: Trường là một đơn vị thông tin cơ bản biểu diễn một thuộc tính của một thực thể.
  • Bản ghi: Bản ghi là một tập hợp các giá trị trường của một thực thể đã cho.
  • File: Là một tập hợp các bản ghi của các thực thể trong một tập hợp thực thể đã cho.