Hướng dẫn install contractions python error - lỗi python cài đặt co thắt
Tôi đã chạy ain't -> am not ain't -> are not ain't -> is not ain't -> has not ain't -> have not0 trong ain't -> am not ain't -> are not ain't -> is not ain't -> has not ain't -> have not1 và nó không cài đặt các cơn co thắt thư viện với hiển thị thông báo bên dưới; ERROR:
Một thư viện Python để mở rộng và tạo các cơn co thắt tiếng Anh thông thường trong văn bản. Điều này rất hữu ích cho việc giảm kích thước bằng cách bình thường hóa văn bản trước khi tạo các vectơ từ hoặc ký tự. Nó thực hiện co lại bằng các quy tắc thay thế đơn giản của các cơn co thắt tiếng Anh thường được sử dụng. Mặt khác, mở rộng không đơn giản như nó đòi hỏi kiến thức theo ngữ cảnh để chọn các từ thay thế chính xác. Xem xét các quy tắc sau: I'd -> I would I'd -> I had Làm thế nào để tự động quyết định quy tắc nào sẽ sử dụng cho mỗi trận đấu trong văn bản sau?
Thư viện này có một cách tiếp cận ba thông. Đầu tiên, các cơn co thắt đơn giản chỉ có một quy tắc duy nhất được thay thế. Trên đường chuyền thứ hai nếu có bất kỳ cơn co thắt nào có mặt với nhiều quy tắc, chúng tôi tiến hành thay thế tất cả các kết hợp các quy tắc để tạo ra tất cả các văn bản có thể. Mỗi văn bản sau đó được chuyển qua trình kiểm tra ngữ pháp và từ khoảng cách mover (WMD) được tính toán giữa nó và văn bản gốc. Các giả thuyết sau đó được sắp xếp theo số lượng lỗi ngữ pháp ít nhất và khoảng cách ngắn nhất từ văn bản gốc và giả thuyết hàng đầu được trả về dưới dạng hình thức mở rộng. Số lượng lỗi ngữ pháp loại bỏ các lựa chọn tồi tệ nhất, nhưng có nhiều trường hợp không có hoặc cùng một số lỗi ngữ pháp. Trong những trường hợp này, WMD hoạt động như một người phá vỡ. WMD là chi phí tích lũy có trọng số tối thiểu cần thiết để chuyển tất cả các từ từ văn bản gốc sang mỗi giả thuyết. Điều này tận dụng Word2VEC, găng tay hoặc fasttext bên dưới hoặc bất kỳ mô hình vectơ ngữ nghĩa nào được chọn. Vì sự khác biệt giữa mỗi giả thuyết chỉ là sự thay thế của một sự co thắt với sự mở rộng của nó, nên giả thuyết gần nhất với văn bản gốc sẽ là với khoảng cách Euclide tối thiểu giữa cặp co và cặp mở rộng trong không gian nhúng. Sử dụng mô hình được đào tạo trước của Google News mang lại kết quả tốt nhưng vẫn có một số trường hợp có thể gây ra vấn đề. Xem xét các quy tắc sau: ain't -> am not ain't -> are not ain't -> is not ain't -> has not ain't -> have not Và câu sau:
Các giả thuyết đầu ra sử dụng mô hình Google sẽ trông như thế này (Giả thuyết, WMD, # Lỗi ngữ pháp): [('We have not all the same', 0.6680542214210519, 0), ('We are not all the same', 0.7372250927409768, 0), ('We has not all the same', 0.7223834627019157, 1), ('We am not all the same', 0.8113022453418426, 1), ('We is not all the same', 0.6954222661000212, 2)] Lưu ý rằng người kiểm tra ngữ pháp loại bỏ những kẻ phạm tội tồi tệ nhất, nhưng hai người vẫn không có lỗi ngữ pháp. Trong số các lý do khác, các nhiệm vụ trong quá khứ thường được nhúng giữa các chúng tôi và không phải là các loại thuốc hiện tại trong bộ dữ liệu của Google News, do đó, nó mang lại chi phí di chuyển thấp hơn cho Giả thuyết 1 so với Giả thuyết 2. Thử Fasttext 1 triệu chữ vector 300 chiều mà chúng ta thấy: [('We have not all the same', 0.45723494251012825, 0), ('We are not all the same', 0.46916066501924986, 0), ('We has not all the same', 0.49631577238129004, 1), ('We am not all the same', 0.5491228638094231, 1), ('We is not all the same', 0.4898885599267869, 2)] Trong khi kết quả đầu tiên vẫn không chính xác, nhưng lần thứ hai và thứ ba đã hoán đổi vị trí theo khoảng cách. Mô hình này gần hơn nhiều để cung cấp mở rộng chính xác. Giống như bất cứ điều gì sử dụng các mô hình, số dặm của bạn sẽ thay đổi dựa trên mô hình nhúng bạn sử dụng và mức độ phù hợp với dữ liệu của bạn. Tuy nhiên, nói chung, cách tiếp cận hoạt động đủ tốt cho nhiều nhiệm vụ xử lý trước. Đối với hiệu suất, một phiên bản tối ưu hóa hoạt động theo giả định rằng mọi trường hợp của một cơn co thắt cụ thể nên được mở rộng giống nhau. Đây thường là trường hợp trong các văn bản ngắn như tweet hoặc trò chuyện IRC. Đối với các văn bản dài hơn như nhận xét hoặc trang web, cách tiếp cận chậm hơn nhưng chính xác hơn sẽ mang lại kết quả tốt hơn. Ví dụ sử dụng
Phiên bản ít chính xác hơn là mặc định:
Lưu ý lỗi trong văn bản đầu tiên là chính xác bên dưới khi sử dụng chính xác = true:precise=True:
Để chèn các cơn cocontract_texts method:
Sự khác biệt về hiệu suất bằng cách sử dụng phiên bản chính xác trên Core (R) Core (TM) I7-4790 CPU @ 3.60GHz:precise version on an Intel(R) Core(TM) i7-4790 CPU @ 3.60GHz: ________số 8Cài đặtĐể cài đặt qua PIP: $ pip install pycontractions Điều kiện tiên quyết
Kiểm tra ngôn ngữ phụ thuộc vào gói Java Languagetool, do đó gói này phụ thuộc vào nó (và Java 6.0+). Trình cài đặt kiểm tra ngôn ngữ nên chăm sóc tải xuống cho bạn, nhưng có thể mất vài phút tùy thuộc vào kết nối internet. |