Có thể sử dụng Dịch vụ nhận thức để thực hiện dịch lời nói thành lời nói của tệp video hoặc video được phát trực tuyến không?
Cảm ơn,
Chris
Hiển thị nhận xét 0
Bình luận
5. Cần 1600 ký tự còn lại ký tự
▼
tệp đính kèm. Có thể sử dụng tối đa 10 tệp đính kèm [bao gồm cả hình ảnh] với tối đa 3. 0 MiB mỗi cái và 30. tổng cộng 0 MiB
YutongTie-MSFT đã trả lời • 12 tháng 4, '21
Xin chào,
Cảm ơn bạn đã liên hệ với chúng tôi. Có một cuộc gọi dịch vụ Dịch giọng nói trong Azure Speech Service https. // tài liệu. Microsoft. com/en-us/azure/cognitive-services/speech-service/speech-translation
Tài liệu trên mô tả các lợi ích và khả năng của dịch vụ dịch giọng nói, cho phép dịch giọng nói thành lời nói và lời nói thành văn bản theo thời gian thực, đa ngôn ngữ và dịch lời nói thành văn bản của các luồng âm thanh. Với Speech SDK, các ứng dụng, công cụ và thiết bị của bạn có quyền truy cập vào bản ghi nguồn và đầu ra bản dịch cho âm thanh được cung cấp. Kết quả phiên âm và dịch tạm thời được trả về khi giọng nói được phát hiện và kết quả cuối cùng có thể được chuyển đổi thành giọng nói tổng hợp
Hi vọng điêu nay co ich
Trân trọng,
Yutong
Bình luận
Hiển thị nhận xét 0
Bình luận
5. Cần 1600 ký tự còn lại ký tự
▼
tệp đính kèm. Có thể sử dụng tối đa 10 tệp đính kèm [bao gồm cả hình ảnh] với tối đa 3. 0 MiB mỗi cái và 30. tổng cộng 0 MiB
chrishooper-3870 đã trả lời • 12 tháng 4, '21
Cảm ơn đã chỉ đạo. Đã bắt đầu và có thể thực hiện nhận dạng giọng nói. Cảm ơn nhiều
Đã cố thực thi mã để dịch nhưng nhận được lỗi sau
[Đang chạy] python -u "c. \Users\chris\OneDrive\Documents\IntroTo Python Development\Translate2. py"
Truy nguyên [lần gọi gần đây nhất].
Tệp "c. \Users\chris\OneDrive\Documents\IntroTo Python Development\Translate2. py", dòng 4, trong
speech_key, service_region = os. môi trường ['56f56d2e6c1d4777bc2c9ede17ee308d'], hệ điều hành. environ['eastus']
Tệp "C. \Users\chris\AppData\Local\Programs\Python\Python39\lib\os. py", dòng 679, trong getitem
tăng KeyError[key] từ Không
KeyError. '56f56d2e6c1d4777bc2c9ede17ee308d'
thực thi mã
nhập hệ điều hành
nhập Azure. dịch vụ nhận thức. lời nói dưới dạng speechsdk
speech_key, service_region = os. môi trường ['56f56d2e6c1d4777bc2c9ede17ee308d'], hệ điều hành. environ['eastus']
from_language, to_language = 'en-US', 'de'
def translate_speech_to_text[].
translation_config = speechsdk. dịch. SpeechTranslationConfig[
subscription=speech_key, region=service_region]
translation_config.speech_recognition_language = from_language
translation_config.add_target_language[to_language]
# See: //aka.ms/speech/sdkregion#standard-and-neural-voices
translation_config.voice_name = 'de-DE-Hedda'
recognizer = speechsdk.translation.TranslationRecognizer[
translation_config=translation_config]
def synthesis_callback[evt]:
size = len[evt.result.audio]
print[f'Audio synthesized: {size} byte[s] {"[COMPLETED]" if size == 0 else ""}']
if size > 0:
file = open['translation.wav', 'wb+']
file.write[evt.result.audio]
file.close[]
recognizer.synthesizing.connect[synthesis_callback]
print[f'Say something in "{from_language}" and we\'ll translate into "{to_language}".']
result = recognizer.recognize_once[]
print[get_result_text[reason=result.reason, result=result]]
def get_result_text[lý do, kết quả].
reason_format = {
speechsdk. Kết quảLý do. DịchBài Phát Biểu.
f'Được công nhận "{from_language}". {kết quả. text}\n' +
f'Được dịch sang "{to_language}"". {kết quả. bản dịch[to_language]}',
speechsdk. Kết quảLý do. Tiếng nói được công nhận. f'Được công nhận. "{kết quả. text}"',
speechsdk. Kết quảLý do. Không có trận đấu. f'Không thể nhận dạng giọng nói. {kết quả. no_match_details}',
speechsdk. Kết quảLý do. Đã hủy. f'Speech Recognition bị hủy. {kết quả. cancel_details}'
}
return reason_format. get[lý do, 'Không thể nhận dạng giọng nói']
translate_speech_to_text[]
Bình luận
Hiển thị nhận xét 0
Bình luận
5. Cần 1600 ký tự còn lại ký tự
▼
tệp đính kèm. Có thể sử dụng tối đa 10 tệp đính kèm [bao gồm cả hình ảnh] với tối đa 3. 0 MiB mỗi cái và 30. tổng cộng 0 MiB
StuKennedy-5325 đã trả lời • Ngày 2 tháng 8, '22 | ChenMiracle-0664 đã nhận xét • Ngày 26 tháng 10 năm 22
API để chuyển giọng nói thành giọng nói là gì
Cách duy nhất tôi có thể tìm ra để làm điều đó là sdk. TranslationRecognizer để chuyển từ âm thanh sang văn bản.
Và sau đó sdk. SpeechSynthesizer để tổng hợp văn bản dịch.
Có cách nào để thực hiện trong một bước không?
Ngoài ra, trình nhận dạng bản dịch dường như ngừng hoạt động sớm [sau 30 giây] hoặc khi gặp phải khoảng dừng trong âm thanh.
Làm cách nào để nó xử lý toàn bộ tệp và tiếp tục vượt qua các lần tạm dừng?
Bình luận
Nhận xét · Hiển thị 1
Bình luận
5. Cần 1600 ký tự còn lại ký tự
▼
tệp đính kèm. Có thể sử dụng tối đa 10 tệp đính kèm [bao gồm cả hình ảnh] với tối đa 3. 0 MiB mỗi cái và 30. tổng cộng 0 MiB
ChenMiracle-0664 · 26 tháng 10 lúc 02. 09 giờ sáng
có trường hợp tương tự, nếu sử dụng lời nói thành văn bản rồi chuyển văn bản thành lời nói, dịch liên tục lời nói thành văn bản có thể khiến nhiều kết quả gọi tổng hợp lời nói, có thể gây nhầm lẫn, nếu có API lời nói trực tiếp thành lời nói thì càng tốt