Hướng dẫn install contractions python error - lỗi python cài đặt co thắt

Tôi đã chạy

ain't -> am not
ain't -> are not
ain't -> is not
ain't -> has not
ain't -> have not
0 trong
ain't -> am not
ain't -> are not
ain't -> is not
ain't -> has not
ain't -> have not
1 và nó không cài đặt các cơn co thắt thư viện với hiển thị thông báo bên dưới;

ERROR:

Lệnh bị lỗi với trạng thái thoát 1: Lệnh: 'C: \ Users \ Tassa \ anaconda3 \ python.exe' -u -c 'nhập sys, setuptools, tokenize; sys.argv [0] = '"'" 'C: \ users \ tassa \ appdata \ local \ temp \ pip-install-6m7bhg7o \ pyahocorasick \ setup.py' "'"' '; File = '"'" 'C: \ Users \ Tassa \ AppData \ Local \ Temp \ Pip-Install-6M7BHG7O \ Pyahocorasick \ setup.py' "'"'; "'"', mở) (tệp); code = f.Read (). f.close (); exec (compile (mã, tệp, '"'" 'exec' "'' '')) 'CWD: C: \ Users \ Tassa \ AppData \ Local \ Temp \ Pip-Install-6M7BHG7O bắt buộc. Nhận nó với "Công cụ xây dựng Microsoft C ++": https://visualstudio.microsoft.com/visual-cpp-build-tools/ ------------------------------------------------------------------------------------------------ ------------------ Lỗi: Bánh xe xây dựng thất bại cho Pyahocorasick Lỗi: Lệnh bị lỗi với trạng thái thoát 1: lệnh: 'C: \ users \ Tassa \ Anaconda3 \ Python.exe '-u -c' nhập sys, setuptools, tokenize; sys.argv [0] = '"'" 'C: \ users \ tassa \ appdata \ local \ temp \ pip-install-6m7bhg7o \ pyahocorasick \ setup.py' "'"' '; File = '"'" 'C: \ Users \ Tassa \ AppData \ Local \ Temp \ Pip-Install-6M7BHG7O \ Pyahocorasick \ setup.py' "'"'; "'"', mở) (tệp); code = f.Read (). f.close (); exec (compile (mã, tệp, '"'" 'exec' "'' '' ')) b10kt37w \ install-record.txt '--single-version-externally-được quản lý--compile-install-hallers' c: \ users \ tassa \ anaconda3 \ bao gồm \ pyahocorasick ' Cục bộ Nhận nó với "Công cụ xây dựng Microsoft C ++": https://visualstudio.microsoft.com/visual-cpp-build-tools/ ------------------------------------------------------------------------------------------------ ------------------ Lỗi: Lệnh bị lỗi với trạng thái thoát 1: 'C: \ Users \ Tassa \ Anaconda3 \ Python.exe' -u -c 'Nhập SYS setuptools, tokenize; sys.argv [0] = '"'" 'C: \ users \ tassa \ appdata \ local \ temp \ pip-install-6m7bhg7o \ pyahocorasick \ setup.py' "'"' '; File = '"'" 'C: \ Users \ Tassa \ AppData \ Local \ Temp \ Pip-Install-6M7BHG7O \ Pyahocorasick \ setup.py' "'"'; "'"', mở) (tệp); code = f.Read (). f.close (); exec (compile (mã, tệp, '"'" 'exec' "'' '' ')) b10kt37w \ install-record.txt '--single-version-externally-được quản lý--compile-install-hall' c: \ users \ tassa \ anaconda3 \ bao gồmfile='"'"'C:\Users\tassa\AppData\Local\Temp\pip-install-6m7bhg7o\pyahocorasick\setup.py'"'"';f=getattr(tokenize, '"'"'open'"'"', open)(file);code=f.read().replace('"'"'\r\n'"'"', '"'"'\n'"'"');f.close();exec(compile(code, file, '"'"'exec'"'"'))' bdist_wheel -d 'C:\Users\tassa\AppData\Local\Temp\pip-wheel-jh2m54oo' cwd: C:\Users\tassa\AppData\Local\Temp\pip-install-6m7bhg7o\pyahocorasick\ Complete output (5 lines): running bdist_wheel running build
running build_ext building 'ahocorasick' extension error: Microsoft Visual C++ 14.0 or greater is required. Get it with "Microsoft C++ Build Tools": https://visualstudio.microsoft.com/visual-cpp-build-tools/
---------------------------------------- ERROR: Failed building wheel for pyahocorasick ERROR: Command errored out with exit status 1: command: 'C:\Users\tassa\anaconda3\python.exe' -u -c 'import sys, setuptools, tokenize; sys.argv[0] = '"'"'C:\Users\tassa\AppData\Local\Temp\pip-install-6m7bhg7o\pyahocorasick\setup.py'"'"'; file='"'"'C:\Users\tassa\AppData\Local\Temp\pip-install-6m7bhg7o\pyahocorasick\setup.py'"'"';f=getattr(tokenize, '"'"'open'"'"', open)(file);code=f.read().replace('"'"'\r\n'"'"', '"'"'\n'"'"');f.close();exec(compile(code, file, '"'"'exec'"'"'))' install --record 'C:\Users\tassa\AppData\Local\Temp\pip-record-b10kt37w\install-record.txt' --single-version-externally-managed --compile --install-headers 'C:\Users\tassa\anaconda3\Include\pyahocorasick' cwd: C:\Users\tassa\AppData\Local\Temp\pip-install-6m7bhg7o\pyahocorasick
Complete output (5 lines): running install running build running build_ext building 'ahocorasick' extension error: Microsoft Visual C++ 14.0 or greater is required. Get it with "Microsoft C++ Build Tools": https://visualstudio.microsoft.com/visual-cpp-build-tools/ ---------------------------------------- ERROR: Command errored out with exit status 1: 'C:\Users\tassa\anaconda3\python.exe' -u -c 'import sys, setuptools, tokenize; sys.argv[0] = '"'"'C:\Users\tassa\AppData\Local\Temp\pip-install-6m7bhg7o\pyahocorasick\setup.py'"'"'; file='"'"'C:\Users\tassa\AppData\Local\Temp\pip-install-6m7bhg7o\pyahocorasick\setup.py'"'"';f=getattr(tokenize, '"'"'open'"'"', open)(file);code=f.read().replace('"'"'\r\n'"'"', '"'"'\n'"'"');f.close();exec(compile(code, file, '"'"'exec'"'"'))' install --record 'C:\Users\tassa\AppData\Local\Temp\pip-record-b10kt37w\install-record.txt' --single-version-externally-managed --compile --install-headers 'C:\Users\tassa\anaconda3\Include\pyahocorasick' Check the logs for full command output.

Một thư viện Python để mở rộng và tạo các cơn co thắt tiếng Anh thông thường trong văn bản. Điều này rất hữu ích cho việc giảm kích thước bằng cách bình thường hóa văn bản trước khi tạo các vectơ từ hoặc ký tự. Nó thực hiện co lại bằng các quy tắc thay thế đơn giản của các cơn co thắt tiếng Anh thường được sử dụng.

Mặt khác, mở rộng không đơn giản như nó đòi hỏi kiến ​​thức theo ngữ cảnh để chọn các từ thay thế chính xác. Xem xét các quy tắc sau:

I'd -> I would
I'd -> I had

Làm thế nào để tự động quyết định quy tắc nào sẽ sử dụng cho mỗi trận đấu trong văn bản sau?

Tôi muốn biết làm thế nào tôi đã làm điều đó!

Thư viện này có một cách tiếp cận ba thông. Đầu tiên, các cơn co thắt đơn giản chỉ có một quy tắc duy nhất được thay thế. Trên đường chuyền thứ hai nếu có bất kỳ cơn co thắt nào có mặt với nhiều quy tắc, chúng tôi tiến hành thay thế tất cả các kết hợp các quy tắc để tạo ra tất cả các văn bản có thể. Mỗi văn bản sau đó được chuyển qua trình kiểm tra ngữ pháp và từ khoảng cách mover (WMD) được tính toán giữa nó và văn bản gốc. Các giả thuyết sau đó được sắp xếp theo số lượng lỗi ngữ pháp ít nhất và khoảng cách ngắn nhất từ ​​văn bản gốc và giả thuyết hàng đầu được trả về dưới dạng hình thức mở rộng.

Số lượng lỗi ngữ pháp loại bỏ các lựa chọn tồi tệ nhất, nhưng có nhiều trường hợp không có hoặc cùng một số lỗi ngữ pháp. Trong những trường hợp này, WMD hoạt động như một người phá vỡ. WMD là chi phí tích lũy có trọng số tối thiểu cần thiết để chuyển tất cả các từ từ văn bản gốc sang mỗi giả thuyết. Điều này tận dụng Word2VEC, găng tay hoặc fasttext bên dưới hoặc bất kỳ mô hình vectơ ngữ nghĩa nào được chọn. Vì sự khác biệt giữa mỗi giả thuyết chỉ là sự thay thế của một sự co thắt với sự mở rộng của nó, nên giả thuyết gần nhất với văn bản gốc sẽ là với khoảng cách Euclide tối thiểu giữa cặp co và cặp mở rộng trong không gian nhúng.

Sử dụng mô hình được đào tạo trước của Google News mang lại kết quả tốt nhưng vẫn có một số trường hợp có thể gây ra vấn đề. Xem xét các quy tắc sau:

ain't -> am not
ain't -> are not
ain't -> is not
ain't -> has not
ain't -> have not

Và câu sau:

Chúng tôi đều giống nhau

Các giả thuyết đầu ra sử dụng mô hình Google sẽ trông như thế này (Giả thuyết, WMD, # Lỗi ngữ pháp):

[('We have not all the same', 0.6680542214210519, 0),
 ('We are not all the same', 0.7372250927409768, 0),
 ('We has not all the same', 0.7223834627019157, 1),
 ('We am not all the same', 0.8113022453418426, 1),
 ('We is not all the same', 0.6954222661000212, 2)]

Lưu ý rằng người kiểm tra ngữ pháp loại bỏ những kẻ phạm tội tồi tệ nhất, nhưng hai người vẫn không có lỗi ngữ pháp. Trong số các lý do khác, các nhiệm vụ trong quá khứ thường được nhúng giữa các chúng tôi và không phải là các loại thuốc hiện tại trong bộ dữ liệu của Google News, do đó, nó mang lại chi phí di chuyển thấp hơn cho Giả thuyết 1 so với Giả thuyết 2. Thử Fasttext 1 triệu chữ vector 300 chiều mà chúng ta thấy:

[('We have not all the same', 0.45723494251012825, 0),
 ('We are not all the same', 0.46916066501924986, 0),
 ('We has not all the same', 0.49631577238129004, 1),
 ('We am not all the same', 0.5491228638094231, 1),
 ('We is not all the same', 0.4898885599267869, 2)]

Trong khi kết quả đầu tiên vẫn không chính xác, nhưng lần thứ hai và thứ ba đã hoán đổi vị trí theo khoảng cách. Mô hình này gần hơn nhiều để cung cấp mở rộng chính xác. Giống như bất cứ điều gì sử dụng các mô hình, số dặm của bạn sẽ thay đổi dựa trên mô hình nhúng bạn sử dụng và mức độ phù hợp với dữ liệu của bạn. Tuy nhiên, nói chung, cách tiếp cận hoạt động đủ tốt cho nhiều nhiệm vụ xử lý trước.

Đối với hiệu suất, một phiên bản tối ưu hóa hoạt động theo giả định rằng mọi trường hợp của một cơn co thắt cụ thể nên được mở rộng giống nhau. Đây thường là trường hợp trong các văn bản ngắn như tweet hoặc trò chuyện IRC. Đối với các văn bản dài hơn như nhận xét hoặc trang web, cách tiếp cận chậm hơn nhưng chính xác hơn sẽ mang lại kết quả tốt hơn.

Ví dụ sử dụng

>>> from pycontractions import Contractions

# Load your favorite semantic vector model in gensim keyedvectors format from disk
>>> cont = Contractions('GoogleNews-vectors-negative300.bin')

# or specify any model from the gensim.downloader api
>>> cont = Contractions(api_key="glove-twitter-100")

# or train or load your own keyedvectors model and pass it in
>>> cont = Contractions(kv_model=mykvmodel)

# optional, prevents loading on first expand_texts call
>>> cont.load_models()

Phiên bản ít chính xác hơn là mặc định:

>>> list(cont.expand_texts(["I'd like to know how I'd done that!",
                            "We're going to the zoo and I don't think I'll be home for dinner.",
                            "Theyre going to the zoo and she'll be home for dinner."]))
 [u'I had like to know how I had done that!',
  u'we are going to the zoo and I do not think I will be home for dinner.',
  u'they are going to the zoo and she will be home for dinner.']

Lưu ý lỗi trong văn bản đầu tiên là chính xác bên dưới khi sử dụng chính xác = true:precise=True:

>>> list(cont.expand_texts(["I'd like to know how I'd done that!",
                            "We're going to the zoo and I don't think I'll be home for dinner.",
                            "Theyre going to the zoo and she'll be home for dinner."], precise=True))
 [u'I would like to know how I had done that!',
  u'we are going to the zoo and I do not think I will be home for dinner.',
  u'they are going to the zoo and she will be home for dinner.']

Để chèn các cơn cocontract_texts method:

>>> list(cont.contract_texts(["I would like to know how I had done that!",
                              "We are not driving to the zoo, it will take too long.",
                              "I have already tried that and i could not figure it out"]))
 [u"I'd like to know how I'd done that!",
  u"We aren't driving to the zoo, it'll take too long.",
  u"I've already tried that and i couldn't figure it out"]

Sự khác biệt về hiệu suất bằng cách sử dụng phiên bản chính xác trên Core (R) Core (TM) I7-4790 CPU @ 3.60GHz:precise version on an Intel(R) Core(TM) i7-4790 CPU @ 3.60GHz:

________số 8

Cài đặt

Để cài đặt qua PIP:

$ pip install pycontractions

Điều kiện tiên quyết

  • language-check

  • GENSIM

Kiểm tra ngôn ngữ phụ thuộc vào gói Java Languagetool, do đó gói này phụ thuộc vào nó (và Java 6.0+). Trình cài đặt kiểm tra ngôn ngữ nên chăm sóc tải xuống cho bạn, nhưng có thể mất vài phút tùy thuộc vào kết nối internet.