Làm cách nào để tìm từ phổ biến nhất trong văn bản python?

Quay trở lại ví dụ đang chạy của chúng tôi về văn bản từ Màn 2 của Romeo và Juliet, Cảnh 2, chúng ta có thể viết một chương trình sử dụng kỹ thuật của phần trước để in ra mười từ phổ biến nhất trong văn bản như sau

Phần đầu tiên của chương trình đọc tệp và tạo/điền vào từ điển ánh xạ từng từ theo số lần từ đó xuất hiện trong tài liệu. Đối với chương trình này, thay vì chỉ in ra các số đếm và kết thúc chương trình, chúng tôi xây dựng một danh sách các bộ dữ liệu [val, key] và sau đó sắp xếp danh sách theo thứ tự ngược lại

Vì giá trị là đầu tiên, nó sẽ được sử dụng để so sánh. Nếu có nhiều hơn một bộ có cùng giá trị, nó sẽ xem xét phần tử thứ hai [khóa], do đó, các bộ có giá trị bằng nhau sẽ được sắp xếp tiếp theo thứ tự bảng chữ cái đảo ngược của khóa

Cuối cùng, chúng tôi viết một vòng lặp for đẹp mắt thực hiện lặp lại nhiều nhiệm vụ và in ra mười từ phổ biến nhất bằng cách lặp qua một lát của danh sách [lst[:10]]

Bây giờ, đầu ra cuối cùng trông giống như những gì chúng ta muốn cho phân tích tần số từ của chúng ta

61 i
42 and
40 romeo
34 to
34 the
32 thou
32 juliet
30 that
29 my
24 thee

Thực tế là việc phân tích và phân tích dữ liệu phức tạp này có thể được thực hiện bằng một chương trình Python dễ hiểu là một lý do tại sao Python là một lựa chọn tốt để làm ngôn ngữ khám phá thông tin

    11-9-2. Điều nào sau đây sử dụng chính xác toán tử lát cắt để lấy 5 mục đầu tiên của danh sách 'lst'?

  • lst[1. 5]
  • Không đúng. Hãy nhớ rằng, các chỉ số danh sách bắt đầu từ 0, không phải 1. Thử lại
  • lst[. 5]
  • Chính xác. Dòng mã này lát danh sách lst từ giá trị đầu tiên đến giá trị thứ năm của nó
  • lst[0. 4]
  • Không đúng. Toán tử lát dừng tại chỉ mục trước giá trị sau dấu hai chấm. Thử lại
  • lst[. 4]
  • Không đúng. Toán tử lát dừng tại chỉ mục trước giá trị sau dấu hai chấm. Thử lại

    11-9-3. Đoạn mã sau sẽ được sắp xếp như thế nào sau khi đoạn mã này được chạy?

    weather = {'Reykjavik': 60, 'Buenos Aires': 55, 'Cairo': 96, 'Berlin': 89, 'Caloocan': 78}
    sorted_weather = weather.sort[]
    

  • Tên thành phố đầu tiên [theo bảng chữ cái], sau đó là nhiệt độ [thấp nhất đến cao nhất]
  • Không đúng. Hãy nhớ rằng, một số phương pháp chỉ có thể được sử dụng trên các loại dữ liệu cụ thể. Thử lại
  • Nhiệt độ đầu tiên [cao nhất đến thấp nhất], sau đó là tên thành phố [theo bảng chữ cái]
  • Không đúng. Hãy nhớ rằng, một số phương pháp chỉ có thể được sử dụng trên các loại dữ liệu cụ thể. Thử lại
  • Tên thành phố đầu tiên [theo bảng chữ cái], sau đó là nhiệt độ [cao nhất đến thấp nhất]
  • Không đúng. Hãy nhớ rằng, một số phương pháp chỉ có thể được sử dụng trên các loại dữ liệu cụ thể. Thử lại
  • Đầu tiên là nhiệt độ [thấp nhất đến cao nhất], sau đó là tên thành phố [theo bảng chữ cái]
  • Không đúng. Hãy nhớ rằng, một số phương pháp chỉ có thể được sử dụng trên các loại dữ liệu cụ thể. Thử lại
  • Một lỗi sẽ xảy ra
  • Chính xác. Không thể sử dụng phương thức sort[] trên từ điển. Thay vào đó, trước tiên hãy thêm dữ liệu từ từ điển vào danh sách

Xây dựng một khối mã sử dụng các bộ dữ liệu để theo dõi số lượng từ trong tệp 'heineken. txt'. Sau đó, in ra 10 từ xuất hiện thường xuyên nhất trước số lần chúng xuất hiện

Đếm số lượng từ cụ thể trong một tệp là điều bạn cần biết với tư cách là một lập trình viên. Đếm những từ xuất hiện nhiều nhất trong một tệp là một trong những câu hỏi viết mã mà bạn có thể giải quyết trong bất kỳ cuộc phỏng vấn viết mã nào. Vì vậy, nếu bạn muốn tìm hiểu cách tìm những từ phổ biến nhất trong một tệp, thì bài viết này là dành cho bạn. Trong bài viết này, tôi sẽ hướng dẫn bạn cách viết chương trình Python để đếm các từ xuất hiện nhiều nhất trong một tệp

Chương trình Python để đếm các từ thường dùng nhất trong một tệp

Viết một chương trình để đếm những từ xuất hiện nhiều nhất trong một tệp là một câu hỏi phỏng vấn lập trình quan trọng mà bạn có thể nhận được trong bất kỳ cuộc phỏng vấn viết mã nào. Bạn có thể nhận câu hỏi dựa trên logic này theo nhiều cách. Tại đây, bạn sẽ được cung cấp một tệp và bạn sẽ được yêu cầu tìm những từ xuất hiện nhiều nhất trong tệp đó cùng với số lần chúng xuất hiện. Vì vậy, đây là cách bạn có thể viết một chương trình Python để đếm các từ xuất hiện nhiều nhất trong một tệp

Xem ý chính này trên GitHub

[['the', 5], ['you', 5], ['Python', 4], ['is', 4], ['of', 3]]

Trong đoạn mã trên, trước tiên tôi đọc một tệp văn bản từ máy tính của mình, sau đó tôi tách tất cả các từ và lưu trữ chúng vào danh sách Python. Sau đó, tôi đếm tần suất của tất cả các từ trong danh sách bằng cách sử dụng phương thức Counter của mô-đun bộ sưu tập trong Python. Cuối cùng, tôi đang in 5 từ thường xuyên nhất trong tệp

Bản tóm tắt

Vì vậy, đây là cách bạn có thể viết một chương trình để đếm các từ xuất hiện nhiều nhất từ ​​bất kỳ tệp nào. Viết một chương trình để đếm những từ xuất hiện nhiều nhất trong một tệp là một câu hỏi phỏng vấn lập trình quan trọng mà bạn có thể nhận được trong bất kỳ cuộc phỏng vấn viết mã nào. Bạn có thể nhận câu hỏi dựa trên logic này theo nhiều cách. Tôi hy vọng bạn thích bài viết này về cách viết chương trình Python để đếm các từ xuất hiện nhiều nhất trong một tệp. Vui lòng đặt câu hỏi có giá trị của bạn trong phần bình luận bên dưới

Chủ Đề