Đám mây từ python từ danh sách

Chào mừng bạn đến với một bài viết thú vị về thế hệ đám mây từ. Các đám mây từ là những cách tuyệt vời để tóm tắt những mẩu thông tin khổng lồ một cách trực quan. Chúng thường được sử dụng để mô tả siêu dữ liệu trên các trang web. Cỡ chữ của từ khóa càng lớn thì mức độ quan trọng của nó trên trang web càng cao. Trong bài viết này, chúng tôi sẽ mã hóa một chương trình để tạo các đám mây từ tùy chỉnh

Cài đặt

Chúng tôi sẽ cài đặt các gói cần thiết cho hướng dẫn này trong môi trường ảo. Chúng tôi sẽ sử dụng

>>> import nltk
>>> nltk.download['popular']
1 để tạo một môi trường ảo. Để biết thêm thông tin cài đặt, hãy tham khảo trang web Anaconda Package Manager

Tạo môi trường ảo mới bằng cách gõ lệnh trong terminal. Thực hiện việc này sau khi cài đặt trình quản lý gói anaconda bằng hướng dẫn được đề cập trên trang web của Anaconda

conda create -n wordcloud python=3.6

Điều này sẽ tạo ra một môi trường ảo với Python 3. 6

Chúng tôi sẽ cài đặt các gói sau

  1. matplotlib
  2. nltk
  3. đám mây từ

Kích hoạt môi trường ảo bằng lệnh,

>>> import nltk
>>> nltk.download['popular']
2 Sau khi kích hoạt môi trường ảo, chúng ta sẽ cài đặt cục bộ các gói này trong môi trường ảo. Để sử dụng các gói này, chúng tôi phải luôn kích hoạt môi trường ảo có tên
>>> import nltk
>>> nltk.download['popular']
3 trước khi tiếp tục. Bạn cũng có thể sử dụng tên bạn chọn cho môi trường ảo. Chỉ cần thay thế
>>> import nltk
>>> nltk.download['popular']
3 bằng tên bạn chọn

Để cài đặt các gói, chúng tôi sẽ sử dụng các lệnh sau

  1. matplotlib.
    >>> import nltk
    >>> nltk.download['popular']
    
    5
  2. nltk.
    >>> import nltk
    >>> nltk.download['popular']
    
    0
  3. đám mây từ.
    >>> import nltk
    >>> nltk.download['popular']
    
    1

Ghi chú. Nếu bạn gặp lỗi trong quá trình cài đặt, hãy cài đặt 1. 19. 3 phiên bản của numpy. Sử dụng lệnh

>>> import nltk
>>> nltk.download['popular']
2 Để biết thêm thông tin về lỗi, hãy tham khảo cuộc thảo luận này

Cài đặt NLTK. Trên cơ sở bộ cài đặt được sử dụng, bạn có thể cần hoặc không cần chạy các lệnh sau. Nếu bạn gặp lỗi liên quan đến gói

>>> import nltk
>>> nltk.download['popular']
3 hoặc
>>> import nltk
>>> nltk.download['popular']
4 trong khi chạy mã, hãy chạy các lệnh sau

>>> import nltk
>>> nltk.download['popular']

Giao diện người dùng đồ họa bật lên. Nếu bạn không chắc chắn nên tải xuống cái gì, hãy tham khảo câu hỏi này trên Stack Overflow

Sau khi cài đặt, hãy kiểm tra xem các gói đã được cài đặt đúng chưa. Chạy đoạn mã sau trong phiên bản trình bao python [được kích hoạt bằng cách chạy

>>> import nltk
>>> nltk.download['popular']
5] trong thiết bị đầu cuối của bạn và bạn sẽ nhận được đầu ra hợp lệ cho số phiên bản

________số 8

Nếu bạn nhận được đầu ra hợp lệ, bạn đã cài đặt gói thành công và có thể tiếp tục với phần còn lại của bài viết. Chúng ta sẽ nhận được đầu ra sau

>>> import matplotlib
>>> matplotlib.__version__
'3.3.3'
>>> import nltk
>>> nltk.__version__
'3.5'
>>> import wordcloud
>>> wordcloud.__version__
'1.8.1'

Thế hệ đám mây từ

Bây giờ chúng ta hãy xem mã để tạo ra các đám mây từ. Đầu vào của chương trình sẽ là một đoạn văn được sao chép từ bất kỳ trang web nào bạn chọn. Với đoạn văn là đầu vào, chúng tôi sẽ xử lý trước đoạn văn đó và gửi nó đến gói

>>> import nltk
>>> nltk.download['popular']
3

Hãy bắt đầu nào

Như đã đề cập ở trên, chúng tôi sử dụng các thư viện sau

  1. matplotlib. Một công cụ trực quan hóa và vẽ đồ thị được sử dụng rộng rãi trong Python
  2. nltk. kho văn bản. ngưng từ. Bộ công cụ ngôn ngữ tự nhiên, được gọi là
    >>> import nltk
    >>> nltk.download['popular']
    
    7 là một thư viện được xây dựng để thực hiện các tác vụ Xử lý ngôn ngữ tự nhiên [NLP] khác nhau. Đó là một thư viện rộng lớn với các công cụ để xử lý trước, làm sạch dữ liệu, trực quan hóa dữ liệu, mô hình hóa dữ liệu, v.v. Chúng tôi sẽ sử dụng danh sách các từ dừng cho tiếng Anh. Từ dừng là những từ dư thừa không thêm ý nghĩa quan trọng cho dữ liệu
  3. nltk. token hóa. word_tokenize. Mã thông báo là quá trình chia nhỏ văn bản thành các đơn vị nhỏ hơn được gọi là mã thông báo. Các mã thông báo có thể là từ, từ phụ hoặc cụm từ. Chúng tôi sẽ sử dụng mã thông báo có sẵn trong
    >>> import nltk
    >>> nltk.download['popular']
    
    8
  4. đám mây từ. Đó là một thư viện lấy danh sách các từ và xuất ra một hình ảnh đám mây từ. Được phát triển bởi Andreas Mueller, nó khá mở rộng và linh hoạt về các tính năng

Mã số

Chúng tôi định nghĩa một lớp có tên là

>>> import nltk
>>> nltk.download['popular']
9 và định nghĩa các phương thức sau trong lớp

  1. sơ chế. Chúng tôi chuyển đầu vào

    >>> import nltk
    >>> print[ntlk.__version__]
    >>> import matplotlib
    >>> print[matplotlib.__version__]
    >>> import wordcloud
    >>> print[wordcloud.__version__]
    
    0 thông qua mã thông báo.
    >>> import nltk
    >>> print[ntlk.__version__]
    >>> import matplotlib
    >>> print[matplotlib.__version__]
    >>> import wordcloud
    >>> print[wordcloud.__version__]
    
    0 được chuyển đổi thành chữ thường và được mã hóa. Tokenization dẫn đến một danh sách các từ. Danh sách các từ này được lọc thêm. Quá trình lọc chỉ sao chép các từ sang
    >>> import nltk
    >>> print[ntlk.__version__]
    >>> import matplotlib
    >>> print[matplotlib.__version__]
    >>> import wordcloud
    >>> print[wordcloud.__version__]
    
    2 nếu từ đó không phải là từ dừng

  2. tạo_word_cloud. Hàm này lấy danh sách các từ đã xử lý và gọi đối tượng lớp

    >>> import nltk
    >>> print[ntlk.__version__]
    >>> import matplotlib
    >>> print[matplotlib.__version__]
    >>> import wordcloud
    >>> print[wordcloud.__version__]
    
    3. Phương thức
    >>> import nltk
    >>> print[ntlk.__version__]
    >>> import matplotlib
    >>> print[matplotlib.__version__]
    >>> import wordcloud
    >>> print[wordcloud.__version__]
    
    4 trong lớp
    >>> import nltk
    >>> print[ntlk.__version__]
    >>> import matplotlib
    >>> print[matplotlib.__version__]
    >>> import wordcloud
    >>> print[wordcloud.__version__]
    
    3 trả về hình ảnh của đám mây từ. Sử dụng thư viện
    >>> import nltk
    >>> print[ntlk.__version__]
    >>> import matplotlib
    >>> print[matplotlib.__version__]
    >>> import wordcloud
    >>> print[wordcloud.__version__]
    
    6, chúng tôi vẽ hình ảnh

>>> import nltk
>>> nltk.download['popular']
0

Đầu ra của mã bật lên trong một cửa sổ riêng. Nó sẽ trông giống như hình ảnh hiển thị bên dưới.

Sự kết luận

Đây là một thử nghiệm thú vị mà chúng tôi đã mã hóa bằng Python. Chúng tôi đã giới thiệu cách tạo môi trường ảo bằng Anaconda và cách cài đặt các gói cần thiết để tạo đám mây từ. Tôi khuyến khích bạn thử nghiệm chương trình với nhiều đầu vào khác nhau và thử nghiệm mã. học tập vui vẻ

Thư viện wordcloud trong python là gì?

Word Cloud là kỹ thuật trực quan hóa dữ liệu được sử dụng để biểu diễn dữ liệu văn bản trong đó kích thước của mỗi từ cho biết tần suất hoặc tầm quan trọng của từ đó . Các điểm dữ liệu văn bản quan trọng có thể được đánh dấu bằng cách sử dụng đám mây từ.

Bạn có thể tạo một đám mây từ với các cụm từ không?

Trong đám mây từ, chọn từ bạn muốn kết hợp với các từ khác [ví dụ: “thuận tiện”]. Nhập từ hoặc cụm từ mà bạn muốn kết hợp với từ đó [ví dụ: nhập “dễ dàng”] và nhấn Enter . Lặp lại quy trình này cho tất cả các từ hoặc cụm từ khác mà bạn muốn kết hợp [ví dụ: "dễ dàng"], cho đến khi bạn sử dụng hết các từ đồng nghĩa.

Chủ Đề