Hướng dẫn python split words without spaces - python chia từ không có dấu cách

Câu trả lời của con người chung chung là tuyệt vời. Nhưng việc thực hiện tốt nhất về điều này mà tôi từng thấy là viết chính Peter Norvig trong cuốn sách 'Dữ liệu đẹp' của mình.

Trước khi tôi dán mã của anh ấy, hãy để tôi mở rộng về lý do tại sao phương pháp của Norvig chính xác hơn [mặc dù chậm hơn một chút và lâu hơn về mã].

Dữ liệu tốt hơn một chút - cả về kích thước và về độ chính xác [anh ta sử dụng số từ thay vì xếp hạng đơn giản]
Quan trọng hơn, đó là logic đằng sau N-gram thực sự làm cho cách tiếp cận rất chính xác.

Ví dụ anh ấy cung cấp trong cuốn sách của mình là vấn đề chia một chuỗi 'sitdown'. Bây giờ, một phương thức phân chia chuỗi không phải là Bigram sẽ xem xét P ['SIT'] * P ['Down'] và nếu điều này ít hơn P ['SITDOWN'] - sẽ là trường hợp khá thường xuyên - nó sẽ không chia tách Nó, nhưng chúng tôi muốn nó [hầu hết thời gian].

Tuy nhiên, khi bạn có mô hình bigram, bạn có thể coi trọng P ['ngồi xuống'] với tư cách là một bigram vs p ['sitdown'] và các chiến thắng trước đây. Về cơ bản, nếu bạn không sử dụng các bigram, nó sẽ coi xác suất của các từ bạn đang phân tách là độc lập, đó không phải là trường hợp, một số từ có nhiều khả năng xuất hiện lần lượt. Thật không may, đó cũng là những từ thường bị mắc kẹt với nhau trong rất nhiều trường hợp và nhầm lẫn bộ chia.

Dưới đây là liên kết đến dữ liệu [dữ liệu cho 3 vấn đề và phân đoạn riêng biệt chỉ là một. Vui lòng đọc chương để biết chi tiết]: //norvig.com/ngrams/

Và đây là liên kết đến mã: //norvig.com/ngrams/ngrams.py

Các liên kết này đã được tăng một thời gian, nhưng tôi sẽ sao chép phần phân đoạn của mã ở đây

import re, string, random, glob, operator, heapq
from collections import defaultdict
from math import log10

def memo[f]:
    "Memoize function f."
    table = {}
    def fmemo[*args]:
        if args not in table:
            table[args] = f[*args]
        return table[args]
    fmemo.memo = table
    return fmemo

def test[verbose=None]:
    """Run some tests, taken from the chapter.
    Since the hillclimbing algorithm is randomized, some tests may fail."""
    import doctest
    print 'Running tests...'
    doctest.testfile['ngrams-test.txt', verbose=verbose]

################ Word Segmentation [p. 223]

@memo
def segment[text]:
    "Return a list of words that is the best segmentation of text."
    if not text: return []
    candidates = [[first]+segment[rem] for first,rem in splits[text]]
    return max[candidates, key=Pwords]

def splits[text, L=20]:
    "Return a list of all possible [first, rem] pairs, len[first]


				
					

                 
	Bài Viết Liên Quan
	
	 	
		
		   
		   
		   
		
		
			Hướng dẫn what is null coalescing operator in javascript? - toán tử liên kết null trong javascript là gì?

		
	

		
		
		   
		   
		   
		
		
			Hướng dẫn it is missing from your system install or enable phps simplexml extension - nó bị thiếu trong cài đặt hệ thống của bạn hoặc kích hoạt tiện ích mở rộng phps simplexml

		
	

		
		
		   
		   
		   
		
		
			Hướng dẫn php code sniffer online - trình tìm hiểu mã php trực tuyến

		
	

		
		
		   
		   
		   
		
		
			Hướng dẫn how do you make a 3 digit number in python? - làm thế nào để bạn tạo một số có 3 chữ số trong python?

		
	

		
		
		   
		   
		   
		
		
			Hướng dẫn how do you solve simple equations in python? - làm thế nào để bạn giải quyết các phương trình đơn giản trong python?

		
	

		
		
		   
		   
		   
		
		
			Hướng dẫn how to print quotes in python - làm thế nào để in dấu ngoặc kép trong python

		
	

		
		
		   
		   
		   
		
		
			Hướng dẫn what are the javascript relational operators? - các toán tử quan hệ javascript là gì?

		
	

		
		
		   
		   
		   
		
		
			Hướng dẫn css line arrow generator - trình tạo mũi tên dòng css

		
	

		
		
		   
		   
		   
		
		
			Hướng dẫn how do you shuffle in python? - làm thế nào để bạn xáo trộn trong python?

		
	

		
		
		   
		   
		   
		
		
			Hướng dẫn dùng re replace trong PHP

		
	

		
		
		   
		   
		   
		
		
			Hướng dẫn python session cookies - cookie phiên python

		
	

		
		
		   
		   
		   
		
		
			Hướng dẫn how do i get all the properties of a class in python? - làm cách nào để lấy tất cả các thuộc tính của một lớp trong python?

		
	

		
		
		   
		   
		   
		
		
			Hướng dẫn what is fibonacci series in python using function? - chuỗi fibonacci trong python sử dụng hàm là gì?

		
	

		
		
		   
		   
		   
		
		
			Tăng dung lượng logical volume linux

		
	

		
		
		   
		   
		   
		
		
			Sinh năm 2023 mệnh gì hợp màu gì

		
	

		
		
		   
		   
		   
		
		
			Hướng dẫn dùng define exceptions trong PHP

		
	

		
		
		   
		   
		   
		
		
			Hướng dẫn can python handle binary files? - python có thể xử lý các tệp nhị phân không?

		
	

		
		
		   
		   
		   
		
		
			Hướng dẫn how to call a variable in python - cách gọi một biến trong python

		
	

		
		
		   
		   
		   
		
		
			Hướng dẫn python turtle circle direction - trăn con rùa hướng vòng tròn

		
	

		
		
		   
		   
		   
		
		
			Hướng dẫn addslashes php - addlashes php

		
	

	
	




Toplist mới

 
	
	 
		#1
		
			Top 4 uống nước chanh sả mật ong có tác dụng gì 2023
			7 tháng trước
		
	



	
	 
		#2
		
			Top 10 bài tập làm văn số 5 lớp 7 de 4 2023
			7 tháng trước
		
	



	
	 
		#3
		
			Top 3 vừa chơi đã có tài khoản vương giả chap 1 2023
			7 tháng trước
		
	



	
	 
		#4
		
			Top 6 anh sẽ on thôi cover phạm nguyên ngọc lyrics 2023
			7 tháng trước
		
	



	
	 
		#5
		
			Top 7 tài liệu quản lý nhà nước và quản lý ngành giáo dục đào tạo 2023
			7 tháng trước
		
	



	
	 
		#6
		
			Top 7 hãy ra khỏi người đó đi hợp âm 2023
			7 tháng trước
		
	



	
	 
		#7
		
			Top 6 giáo án thơ về thăm nhà bác 2023
			7 tháng trước
		
	



	
	 
		#8
		
			Top 8 giáo án ngữ văn 6 cánh diều 2023
			7 tháng trước
		
	



	
	 
		#9
		
			Top 9 tinh bột tham gia phản ứng nào 2023
			7 tháng trước
		
	






		


	Bài mới nhất
	
	 	
		
		   
		   
		   
		
		
			Thôn tân hải xã hải lộc hậu lộc thanh hóa năm 2024

		
	

		
		
		   
		   
		   
		
		
			Bài tập trắc nghiệm kinh tế lượng ols năm 2024

		
	

		
		
		   
		   
		   
		
		
			Thương hiệu đồng hồ carnival của nước nào năm 2024

		
	

		
		
		   
		   
		   
		
		
			Khắc phục lỗi media offline trong adobe premiere pro năm 2024

		
	

		
		
		   
		   
		   
		
		
			My heart will go on sáo trúc lỗi mp3 năm 2024

		
	

		
		
		   
		   
		   
		
		
			208b nguyễn hữu tiến đồg văn duy tiên hà nam năm 2024

		
	

		
		
		   
		   
		   
		
		
			Luực lượng sản xuất có tính xã hội hóa năm 2024

		
	

		
		
		   
		   
		   
		
		
			155 lê văn khương quận 12 hồ chí minh năm 2024

		
	

		
		
		   
		   
		   
		
		
			Cách khắc phục lỗi dt oppo không tải được game năm 2024

		
	

		
		
		   
		   
		   
		
		
			Bài tập về các thì quá khứ có đáp án năm 2024

		
	

	
	
                 
	Chủ Đề
	
	
	
		  programming
		  Hỏi Đáp
		  Mẹo Hay
		  Toplist
		  Là gì
		  Địa Điểm Hay
		  Học Tốt
		  mẹo hay
		  Công Nghệ
		  Nghĩa của từ
		  Khỏe Đẹp
		  Bao nhiêu
		  đánh giá
		  Top List
		  bao nhieu
		  bao nhiêu
		  hướng dẫn
		  So Sánh
		  Bài tập
		  Tiếng anh
		  So sánh
		  Xây Đựng
		  Sản phẩm tốt
		  Ngôn ngữ
		  Bài Tập
		  Máy tính
		  javascript
		  Ở đâu
		  Thế nào
		  Hướng dẫn
		  Dịch 
		  Tại sao
		  Đại học
		  Món Ngon
		  Facebook
		  Khoa Học