Cài đặt lập bảng python ubuntu

Bất kể bạn muốn truy cập loại dữ liệu nào, điều quan trọng nhất phải là lưu dữ liệu. Do đó, tôi muốn biết cách xử lý các bảng và lưu chúng vào định dạng đa dụng nhất, đó là CSV
  • 1. Mục đích
  • 2. Mục tiêu
  • 3. Các bước
  • 3. 1 Đọc bảng
  • 3. 2 Kích thước của DataFrame
  • 3. 3 Truy cập các cột của bảng
  • 3. 4 Truy cập các hàng của bảng
  • 3. 5 Hàng và cột truy cập
  • 3. 6 Filter rows
  • 3. 7 Sử dụng TO_CSV để lưu bảng
  • 3. 8 Delete the column
  • 3. 9 Chuyển đổi các loại
  • 3. 10 Lọc hàng xa hơn
  • Bên cạnh đó, tôi muốn giao tiếp với bạn qua tay ở đây. Vì vậy, nếu bạn thích câu chuyện này, xin vui lòng thưởng cho tôi 1 trận 3 [Tái bút, hãy nhấp vào 👏 mà không cần khuyết phần tay của bạn có thể vỗ tay liên tiếp. ];
  • Hiểu khung dữ liệu
  • Hiểu các chức năng trong Python
  • Thực hiện
  • Ưu điểm của việc tạo mã tái sử dụng
  • Làm thế nào để bạn sử dụng các bảng trong Python?
  • Làm thế nào để bạn quản lý dữ liệu trong Python?
  • Làm thế nào để bạn tạo một chương trình bàn trong Python?
  • Các bảng được gọi là trong Python là gì?
  • Bất kể bạn muốn truy cập loại dữ liệu nào, điều quan trọng nhất phải là lưu dữ liệu. Do đó, tôi muốn biết cách xử lý các bảng và lưu chúng vào định dạng đa dụng nhất, đó là CSV

    1. Mục đích

    a] Xử lý các bảng khác nhau [ví dụ. CSV, Excel, v. v. ]

    b] Sử dụng nó để trở thành một tập dữ liệu đại diện cho máy học [mỗi hàng là viết tắt của một đối tượng, mỗi cột đại diện cho một đặc tính của đối tượng]

    c] Tích hợp thuận tiện với thư viện đồ thị phổ biến để vẽ đồ thị đẹp

    Các bảng có thể được xử lý bởi gấu trúc. https. //gấu trúc. pydata. org/pandas-docs/stable/user_guide/io. html

    2. Mục tiêu

    Tôi sử dụng bộ dữ liệu TED Kaggle để thực hiện các loại cơ bản của gấu trúc. Kaggle là cộng đồng khoa học dữ liệu lớn nhất thế giới, thường có đầy đủ các bộ dữ liệu và các cuộc thi AI. Tôi sử dụng bộ dữ liệu truy cập của mình, đó là về các cuộc nói chuyện của TED để thực hiện hành động xuất sắc về kiến ​​trúc. https. //www. kaggle. com/rounakbanik/ted-TalksKaggle là cộng đồng khoa học dữ liệu lớn nhất thế giới thường chứa đầy các bộ dữ liệu và cuộc thi AI. Tôi sử dụng bộ dữ liệu tiếp theo của mình, đó là về các bài nói chuyện của TED để thực hành Pandas. https. //www. kaggle. com/rounakbanik/ted-talk

    ⚠ đăng nhập là bắt buộc trước khi tải xuống

    ⚠ Chỉ cần có ted_main. csv trong trang để phân tích

    3. Các bước

    3. 1 Đọc bảng

    Pandas chỉ có 2 loại dữ liệu. DataFrame và Series1. Nhiều hàng * Nhiều Cols -> DataFrame2. một cột * một hoặc nhiều hàng -> sê -ri
    1. nhiều hàng * nhiều cột -> DataFrame
    2. một cột * một hoặc nhiều hàng -> Chuỗi

    [Mã][Đầu ra]

    3. 2 Kích thước của DataFrame

    4. 2. 1. Bởi vì chúng ta có 2 chiều bây giờ, chúng ta không thể sử dụng LEN nữa. Thay vào đó, chúng ta nên sử dụng. Shape to have been 2 chiều4. 2. 2. . Shape is an tuple, because that the first element [0] is number of your rows, the second section
    4. 2. 2. . hình dạng là một bộ, vì vậy phần tử đầu tiên [0] là số hàng của bạn, phần tử thứ hai

    [mã][Đầu ra]

    3. 3 Truy cập các cột của bảng

    4. 3. 1 Columns

    [mã][đầu ra]

    3. 3. 2 Nhiều cột

    Chúng ta phải gắn các thẻ mà chúng ta muốn vào một danh sách và sau đó gửi nó đến các cột [], vì vậy hai [] đại diện cho các ý nghĩa khác nhau. Bên ngoài [] là các DataFrame cột từ;

    [mã][đầu ra]

    3. 4 Truy cập các hàng của bảng

    4. 4. 1 Khi truy cập các hàng hóa, chúng tôi sử dụng. loc [ít được sử dụng. Chúng tôi chỉ sử dụng nó khi chúng tôi tạo các thẻ hàng của riêng mình. ] And ILOC [được sử dụng nhiều hơn. 0. ]

    3. 4. 2 Chúng tôi sẽ nhận dữ liệu tương tự như một danh sách khi sử dụng. iloc. Sau đó, chúng tôi có thể sử dụng nó như chúng tôi sử dụng một danh sách

    3. 4. 3. ILOC -> [1 1, thứ 2, thứ 2, thứ 3

    [Mã] Đầu ra của DF. ILOC [0]

    3. 5 Hàng và cột truy cập

    [mã][đầu ra]

    3. 6 Filter rows

    4. 6. 1 Lọc dữ liệu là để giữ hàng câu trả lời mong đợi của tôi và loại bỏ các bộ phận không thành công

    4. 6. 2 Khái niệm lọc là chúng tôi tạo ra một danh sách boolean lớn như số lượng dữ liệu của chúng tôi và chúng tôi giữ cho dữ liệu khớp đúng và loại bỏ dữ liệu phù hợp với sai

    [mã][đầu ra]

    3. 7 Sử dụng TO_CSV để lưu bảng

    3. 7. 1 Đối số cần thiết. Vị trí tệp

    3. 7. 2 Đối số tùy chọn. Mã hóa

    3. 7. 3 Đối số tùy chọn. Chỉ mục [default is true]

    [mã][đầu ra]

    3. 8 Delete the column

    [mã][đầu ra]

    3. 9 Chuyển đổi các loại

    gấu trúc. Apply[] là hàm quan trọng nhất giúp bạn chuyển đổi tất cả các ô trong một cột. Chúng ta có thể thấy thời gian trong bộ dữ liệu của TED Strange như dưới đây. in sao vậy?

    Unknown time

    This is call is unix time or POSIX time. It is the seconds has been floated through known from the Unix Unix time; . 00. 00 UTC vào ngày 1 tháng 1 năm 1970. Chúng ta có thể dễ dàng chuyển đổi nó sang định dạng thời gian quen thuộc của chúng ta bằng Datatime của các mô-đun sẵn có. 00. 00. 00 UTC ngày 1 tháng 1 năm 1970. Chúng tôi có thể dễ dàng chuyển đổi nó sang định dạng thời gian quen thuộc của mình theo thời gian dữ liệu của các mô-đun sẵn có

    [mã][đầu ra]

    3. 10 Lọc hàng xa hơn

    3. 10. 1 Chúng ta có thể xác định bộ lọc luồng của riêng mình

    3. 10. 2 Sử dụng Áp dụng để lọc trong loạt ảnh của chúng tôi

    3. 10. 3 phải trả lại đúng hoặc sai trong bộ lọc của chúng tôi

    [mã][đầu ra][mã][đầu ra]

    Bên cạnh đó, tôi muốn giao tiếp với bạn qua tay ở đây. Vì vậy, nếu bạn thích câu chuyện này, xin vui lòng thưởng cho tôi 1 trận 3 [Tái bút, hãy nhấp vào 👏 mà không cần khuyết phần tay của bạn có thể vỗ tay liên tiếp. ];

    Bài viết này đã được xuất bản dưới dạng một phần của & NBSP;

    Python is a ngôn ngữ lập trình tuyệt vời để tự động hóa công cụ. Nó chứa nhiều thư viện cho phép bạn tạo mã tái sinh sử dụng tuyệt vời. Một thư viện như vậy là Python-docx

    Thư viện này rất hữu ích cho một loạt các nhiệm vụ xử lý tài liệu, chẳng hạn như

    1. Thêm tiêu đề

    2. Đọc đoạn văn

    3. Viết đoạn văn

    4. Add image

    5. Create and save file tài liệu

    6. Tìm và thay thế văn bản

    7. Thao tác với tệp tài liệu hiện có

    8. Add ngắt trang, and more than nữa

    Tuy nhiên, trong bài viết này, chúng tôi sẽ thảo luận về một chức năng cụ thể của thư viện DOCX trong Python. Chúng tôi sẽ tạo một tập lệnh Python theo cách mà nó sẽ tạo ra nhiều khung dữ liệu như số lượng bảng để các bảng này có thể được lưu trữ dưới dạng tệp riêng biệt [có thể là CSV] và có ích để sử dụng. Mặc dù thư viện Python-DOCX có thể tạo và cập nhật các tệp Microsoft Word, chúng tôi sẽ sử dụng nó để-

    1. Trong từng đoạn trong tài liệu

    2. Đọc tất cả các bảng trong tài liệu Word và chuyển đổi chúng thành các khung dữ liệu

    3. In number from of each đoạn and number from the total document

    Tài liệu cho thư viện bị hạn chế nhưng có thể đọc thêm thông tin qua liên kết này. https. // trăn-docx. đọcthedocs. io/vi/mới nhất/

    Hiểu khung dữ liệu

    Trước khi chúng tôi bắt đầu với mã thực tế, chúng tôi sẽ thảo luận rút gọn về các khung dữ liệu. Khung dữ liệu là cấu trúc bảng dữ liệu hai chiều. Nó bao gồm các hàng và cột. Nó bao gồm các yếu tố không đồng nhất. Ví dụ. nếu chúng tôi xem xét khung dữ liệu của nhân viên. Các cột có thể được gọi tên là người khác Kết quả cấu trúc của các khung dữ liệu như sau -

    Từ hình trên, chúng ta thấy các thành phần không đồng nhất. Các giới hạn chẳng hạn như tên là chuỗi dữ liệu, tuổi là số, giới tính là một ký tự, tiền lương là gấp đôi và ngày tham gia là trường loại

    Chúng tôi có thể tạo khung dữ liệu bằng danh sách, từ điển hoặc đơn giản bằng cách nhập tệp. Data partition lớn, thao tác dữ liệu, trích xuất, v. v. , could be done after watching the data under frame data

    Chúng tôi sẽ sử dụng tài liệu sau đây để mã hóa, như được hiển thị bên dưới. Tài liệu này chứa hai bảng. Do đó, mã của chúng tôi cũng sẽ tạo hai khung dữ liệu

    Hiểu các chức năng trong Python

    Hàm là một tập hợp các lệnh thực hiện một nhiệm vụ được xác định rõ nhất. Chức năng tránh lặp lại chức năng và là một cách tuyệt vời để tạo ra các thành phần có thể tái sử dụng. Nó chia chương trình thành các mô-đun. Nó làm cho mã dễ dàng hơn để quản lý và hiểu biết. Các chức năng được viết bằng Python bằng cách sử dụng từ khóa là def def. Nó được theo sau bởi chức năng độc quyền và các đối số truyền thông. Một đại tràng [. ] Đánh dấu phần cuối của chức năng tiêu đề. Một chức năng có thể có hoặc không có câu trả lời. Một câu lệnh trả về đánh dấu đường ra của hàm. Và sau đó kiểm soát trở về nơi gọi. Nó phụ thuộc vào chất lượng của nhiệm vụ mà chức năng được viết. Chúng ta có thể gọi chức năng trong một chức năng hoặc chương trình khác bằng tên chức năng. Chúng ta có thể vượt qua các tham số nếu hàm được xác định để chấp nhận tham số

    Trong bài viết của chúng tôi, chúng tôi đã xác định một hàm có tên là Creat Creat_DF_From_Table. Nó chấp nhận hai đối số hoặc tham số. Họ là những người khác C C và Tab Tab. Tham số đầu tiên là một số nguyên có giá trị bắt đầu bằng 0. Tham số thứ hai là đầu bảng từ tài liệu. những cái bàn"

    Thực hiện

    1. Nhập thư viện

    Chúng tôi sẽ sử dụng hai thư viện - docx và gấu trúc. Python-DOCX là một thư viện Python có thể xử lý các tệp Microsoft Word. Pandas là một thư viện Python được sử dụng để phân tích dữ liệu

    import docx
    import pandas as pd

    2. Đọc tài liệu từ

    Please to us create an document from sample with TestDoc name. docx. File tài liệu này chứa một tiêu đề. Có hai bảng và hai đoạn văn. First table has the table of the lines and ba column, not bao gồm các tiêu đề hàng. Bảng thứ hai có hai hàng và hai cột, không bao gồm các tiêu đề hàng. Đối tượng tài liệu của người Viking được sử dụng để đọc tệp docx

    document = docx.Document['testdoc.docx']

    3. Trong đoạn văn

    Có hai đoạn văn trong tài liệu. Tiêu đề cũng được coi là một đoạn. Hai bảng có trong tài liệu không được xem là một đoạn văn bản trong mô-đun DOCX. Hai đoạn tương tự với tiêu đề tài liệu được hiển thị khi các lệnh bên dưới được chạy

    para_text_list = []
    for each_par in the document.paragraphs:
        print[each_par.text]
        para_text_list.append[each_par.text]

    4. Tạo khung dữ liệu từ bảng

    Chúng tôi sẽ tạo ra một chức năng có thể sử dụng lại để đọc các bảng. Chức năng của chúng tôi nên được tạo theo cách mà nó tìm thấy tất cả các bảng trong tài liệu và tạo các khung dữ liệu riêng cho tất cả. Trong định nghĩa này, chúng tôi giả định rằng mỗi bảng có một tiêu đề. First row will be coi as the column name and the other section of them are the value of the row. Chúng tôi sẽ ưu tiên các tên khung dữ liệu của chúng tôi với kết quả của Google_df_ và số lượng bắt đầu bằng 0. Ví dụ. if have ba table in Word document, then the data name frames are created is result_df_0, result_df_1 and result_df_2

    def create_df_from_table[c, tab]:
        list_name = str[c]+"_result_list"
        list_name = []
        for i,each_row in enumerate[each_tab.rows]:
            text = [each_cell.text for each_cell in each_row.cells]
            if i == 0:
                keys = tuple[text]
            else:
                each_dict_val = dict[zip[keys, text]]
                list_name.append[each_dict_val]
        result_df = pd.DataFrame[list_name]
        return result_df
    for c, each_tab in enumerate[document.tables]:
        globals[][f'result_df_{c}'] = create_df_from_table[c, each_tab]

    Hai khung dữ liệu được tạo như hình dưới đây

    5. Đọc số từ của từng đoạn và số lượng từ

    Chúng tôi sẽ tính toán độ dài của từng phần tài liệu từ. Chức năng của LEN LEN và các chức năng của Sum Sum được sử dụng để tìm số từ

    words_each_list = [len[each_sent.split[]] for each_sent in para_text_list]
    print[words_each_list]
    total_no_of_words = sum[words_each_list]
    print[total_no_of_words]

    Ưu điểm của việc tạo mã tái sử dụng

    Trong bài viết này, chúng tôi đã cố gắng tạo đoạn mã có thể hoạt động cho bất kỳ bảng nào trong tài liệu Word. Đây là những lợi ích tiềm năng của công việc tạo mã có thể sử dụng lại-

    1. Lưu thời gian phát triển - Viết đoạn trích dẫn có thể được tích hợp và sử dụng trong một ứng dụng khác dẫn đến tiết kiệm thời gian tiết kiệm để phát triển quan trọng hơn

    2. Cung cấp cấu trúc - Trong khi tất cả các mã tự động hóa có thể được đặt ở một nơi duy nhất, nó mang lại cho các nhà phát triển một cái nhìn tốt và khả năng hiểu biết

    3. Rớt rủi ro - Khi mã được phát triển, nó sẽ trải qua kiểm tra lỗ hổng trước khi khai thác. Những kiểm tra này có thể dễ dàng tránh được

    4. Dễ dàng bảo trì - Thật dễ dàng để duy trì sản phẩm. Một bản sửa lỗi ở một nơi có thể dẫn đến một bản sửa lỗi tổng thể cho tất cả các thành phần được liên kết với nhau

    5. Một cách làm hiệu quả - các chức năng có thể được giữ tại một vị trí trung tâm và có thể được sử dụng khi cần thiết. Điều này sẽ làm cho chương trình mô-đun -đun và gọn gàng hơn

    Trong bài viết này,

    1.  

    A] Thư viện DOCX có thể được cài đặt trong Python bằng PIP Cài đặt Python-DOCX

    b] Các thao tác như lưu tệp docx, thêm các đoạn văn, làm nổi bật các cụm từ trong tài liệu, thêm hình ảnh vào tài liệu, thêm tiêu đề, thay đổi thuộc tính phông chữ, v. v. , could be done by module Docx

    c] Chúng tôi đã tạo một chức năng có thể sử dụng lại để chuyển đổi tất cả các bảng thành các khung dữ liệu

    2.   . Chúng tôi đã tạo ra một sự hiểu biết ngắn gọn về khung dữ liệu.

    3.   . Đã thảo luận về tầm quan trọng của việc viết mã có thể sử dụng lại.

    Đọc thêm bài viết trên blog của chúng tôi

    Hình ảnh Nguồn. Tác giả

    Các phương tiện truyền thông được hiển thị trong bài viết này không thuộc quyền sở hữu của Analytics Vidhya và được sử dụng theo quyết định của tác giả

    Làm thế nào để bạn sử dụng các bảng trong Python?

    Create a table by Python. .

    Thiết lập kết nối với cơ sở dữ liệu bằng phương thức Connect[]

    Tạo một đối tượng con trỏ bằng cách gọi phương thức con trỏ [] trên các đối tượng kết nối được tạo ở trên

    Bây giờ, hãy thực hiện câu lệnh CREATE TABLE bằng phương thức Execute[] của lớp con trỏ

    Làm thế nào để bạn quản lý dữ liệu trong Python?

    Sử dụng Python để quản lý và báo cáo dữ liệu. .

    Máy tính xách tay Jupyter

    Cài đặt Notebook Jupyter, mở một cuốn sổ tay và đặt kernel

    Connected to server Notebook Jupyter

    Kiểm tra dữ liệu trong một khung dữ liệu

    Viết báo cáo

    Sự kết luận

    Làm thế nào để bạn tạo một chương trình bàn trong Python?

    Làm thế nào để dễ dàng tạo bảng trong Python. .

    Cài đặt bảng. Trước tiên, tôi cài đặt bảng thư viện bằng cách cài đặt PIP trong dòng lệnh. PIP Cài đặt bảng

    Chủ Đề