Quay trở lại ví dụ đang chạy của chúng tôi về văn bản từ Màn 2 của Romeo và Juliet, Cảnh 2, chúng ta có thể viết một chương trình sử dụng kỹ thuật của phần trước để in ra mười từ phổ biến nhất trong văn bản như sau
Phần đầu tiên của chương trình đọc tệp và tạo/điền vào từ điển ánh xạ từng từ theo số lần từ đó xuất hiện trong tài liệu. Đối với chương trình này, thay vì chỉ in ra các số đếm và kết thúc chương trình, chúng tôi xây dựng một danh sách các bộ dữ liệu [val, key]
và sau đó sắp xếp danh sách theo thứ tự ngược lại
Vì giá trị là đầu tiên, nó sẽ được sử dụng để so sánh. Nếu có nhiều hơn một bộ có cùng giá trị, nó sẽ xem xét phần tử thứ hai [khóa], do đó, các bộ có giá trị bằng nhau sẽ được sắp xếp tiếp theo thứ tự bảng chữ cái đảo ngược của khóa
Cuối cùng, chúng tôi viết một vòng lặp for
đẹp mắt thực hiện lặp lại nhiều nhiệm vụ và in ra mười từ phổ biến nhất bằng cách lặp qua một lát của danh sách [lst[:10]
]
Bây giờ, đầu ra cuối cùng trông giống như những gì chúng ta muốn cho phân tích tần số từ của chúng ta
61 i 42 and 40 romeo 34 to 34 the 32 thou 32 juliet 30 that 29 my 24 thee
Thực tế là việc phân tích và phân tích dữ liệu phức tạp này có thể được thực hiện bằng một chương trình Python dễ hiểu là một lý do tại sao Python là một lựa chọn tốt để làm ngôn ngữ khám phá thông tin
- lst[1. 5]
- Không đúng. Hãy nhớ rằng, các chỉ số danh sách bắt đầu từ 0, không phải 1. Thử lại
- lst[. 5]
- Chính xác. Dòng mã này lát danh sách lst từ giá trị đầu tiên đến giá trị thứ năm của nó
- lst[0. 4]
- Không đúng. Toán tử lát dừng tại chỉ mục trước giá trị sau dấu hai chấm. Thử lại
- lst[. 4]
- Không đúng. Toán tử lát dừng tại chỉ mục trước giá trị sau dấu hai chấm. Thử lại
11-9-2. Điều nào sau đây sử dụng chính xác toán tử lát cắt để lấy 5 mục đầu tiên của danh sách 'lst'?
11-9-3. Đoạn mã sau sẽ được sắp xếp như thế nào sau khi đoạn mã này được chạy?
weather = {'Reykjavik': 60, 'Buenos Aires': 55, 'Cairo': 96, 'Berlin': 89, 'Caloocan': 78} sorted_weather = weather.sort[]
Xây dựng một khối mã sử dụng các bộ dữ liệu để theo dõi số lượng từ trong tệp 'heineken. txt'. Sau đó, in ra 10 từ xuất hiện thường xuyên nhất trước số lần chúng xuất hiện
Đếm số lượng từ cụ thể trong một tệp là điều bạn cần biết với tư cách là một lập trình viên. Đếm những từ xuất hiện nhiều nhất trong một tệp là một trong những câu hỏi viết mã mà bạn có thể giải quyết trong bất kỳ cuộc phỏng vấn viết mã nào. Vì vậy, nếu bạn muốn tìm hiểu cách tìm những từ phổ biến nhất trong một tệp, thì bài viết này là dành cho bạn. Trong bài viết này, tôi sẽ hướng dẫn bạn cách viết chương trình Python để đếm các từ xuất hiện nhiều nhất trong một tệp
Chương trình Python để đếm các từ thường dùng nhất trong một tệp
Viết một chương trình để đếm những từ xuất hiện nhiều nhất trong một tệp là một câu hỏi phỏng vấn lập trình quan trọng mà bạn có thể nhận được trong bất kỳ cuộc phỏng vấn viết mã nào. Bạn có thể nhận câu hỏi dựa trên logic này theo nhiều cách. Tại đây, bạn sẽ được cung cấp một tệp và bạn sẽ được yêu cầu tìm những từ xuất hiện nhiều nhất trong tệp đó cùng với số lần chúng xuất hiện. Vì vậy, đây là cách bạn có thể viết một chương trình Python để đếm các từ xuất hiện nhiều nhất trong một tệp
Xem ý chính này trên GitHub
[['the', 5], ['you', 5], ['Python', 4], ['is', 4], ['of', 3]]
Trong đoạn mã trên, trước tiên tôi đọc một tệp văn bản từ máy tính của mình, sau đó tôi tách tất cả các từ và lưu trữ chúng vào danh sách Python. Sau đó, tôi đếm tần suất của tất cả các từ trong danh sách bằng cách sử dụng phương thức Counter của mô-đun bộ sưu tập trong Python. Cuối cùng, tôi đang in 5 từ thường xuyên nhất trong tệp
Bản tóm tắt
Vì vậy, đây là cách bạn có thể viết một chương trình để đếm các từ xuất hiện nhiều nhất từ bất kỳ tệp nào. Viết một chương trình để đếm những từ xuất hiện nhiều nhất trong một tệp là một câu hỏi phỏng vấn lập trình quan trọng mà bạn có thể nhận được trong bất kỳ cuộc phỏng vấn viết mã nào. Bạn có thể nhận câu hỏi dựa trên logic này theo nhiều cách. Tôi hy vọng bạn thích bài viết này về cách viết chương trình Python để đếm các từ xuất hiện nhiều nhất trong một tệp. Vui lòng đặt câu hỏi có giá trị của bạn trong phần bình luận bên dưới