Hướng dẫn find most common phrases in text python - tìm các cụm từ phổ biến nhất trong văn bản python

Tôi có một loạt các mục văn bản- HTML thô từ cơ sở dữ liệu MySQL. Tôi muốn tìm các cụm từ phổ biến nhất trong các mục này [không phải là cụm từ phổ biến nhất và lý tưởng nhất, không thực thi kết hợp từ chữ cái].

Ví dụ của tôi là bất kỳ đánh giá nào trên Yelp.com, hiển thị 3 đoạn trích từ hàng trăm đánh giá về một nhà hàng nhất định, ở định dạng:

"Hãy thử Hamburger" [trong 44 đánh giá]

ví dụ: phần "Đánh giá nổi bật" của trang này:

//www.yelp.com/biz/sushi-gen-los-angeles/

Tôi đã cài đặt NLTK và tôi đã chơi xung quanh nó một chút, nhưng thật sự bị choáng ngợp bởi các tùy chọn. Đây có vẻ như là một vấn đề khá phổ biến và tôi không thể tìm thấy một giải pháp đơn giản bằng cách tìm kiếm ở đây.

Đã hỏi ngày 16 tháng 3 năm 2010 lúc 8:42Mar 16, 2010 at 8:42

Tôi nghi ngờ bạn không chỉ muốn các cụm từ phổ biến nhất, mà là bạn muốn các cuộc hợp tác thú vị nhất. Nếu không, bạn có thể kết thúc với một sự thể hiện quá mức các cụm từ được tạo thành từ những từ phổ biến và ít cụm từ thú vị và nhiều thông tin hơn.collocations. Otherwise, you could end up with an overrepresentation of phrases made up of common words and fewer interesting and informative phrases.

Để làm điều này, về cơ bản bạn sẽ muốn trích xuất N-gram từ dữ liệu của mình và sau đó tìm những dữ liệu có thông tin tương hỗ điểm cao nhất [PMI] điểm cao nhất. Đó là, bạn muốn tìm thấy những từ kết hợp với nhau nhiều hơn bạn mong đợi một cách tình cờ.

Các kết hợp NLTK How-to-to bao gồm cách thực hiện điều này trong khoảng 7 dòng mã, ví dụ:

import nltk
from nltk.collocations import *
bigram_measures = nltk.collocations.BigramAssocMeasures[]
trigram_measures = nltk.collocations.TrigramAssocMeasures[]

# change this to read in your data
finder = BigramCollocationFinder.from_words[
    nltk.corpus.genesis.words['english-web.txt']]

# only bigrams that appear 3+ times
finder.apply_freq_filter[3]

# return the 10 n-grams with the highest PMI
finder.nbest[bigram_measures.pmi, 10]

Soroush

9952 Huy hiệu vàng18 Huy hiệu bạc25 Huy hiệu đồng2 gold badges18 silver badges25 bronze badges

Đã trả lời ngày 16 tháng 3 năm 2010 lúc 9:35Mar 16, 2010 at 9:35

Dmcerdmcerdmcer

8.0961 Huy hiệu vàng34 Huy hiệu bạc41 Huy hiệu đồng1 gold badge34 silver badges41 bronze badges

Tôi nghĩ những gì bạn đang tìm kiếm là chunking. Tôi đề nghị đọc Chương 7 của cuốn sách NLTK hoặc có thể là bài viết của riêng tôi về trích xuất chunk. Cả hai người này đều có kiến thức về gắn thẻ một phần giọng nói, được đề cập trong Chương 5.

Đã trả lời ngày 15 tháng 4 năm 2010 lúc 2:37Apr 15, 2010 at 2:37

JacobjacobJacob

4.1741 Huy hiệu vàng24 Huy hiệu bạc25 Huy hiệu đồng1 gold badge24 silver badges25 bronze badges

Nếu bạn chỉ muốn lớn hơn 3 ngram, bạn có thể thử điều này. Tôi cho rằng bạn đã tước bỏ tất cả rác như HTML, v.v.

import nltk
ngramlist=[]
raw=

x=1
ngramlimit=6
tokens=nltk.word_tokenize[raw]

while x


				
					

                 
	Bài Viết Liên Quan
	
	 	
		
		   
		   
		   
		
		
			Cơ cấu tổ chức chính phủ nhiệm kì 2022-2023

		
	

		
		
		   
		   
		   
		
		
			Hướng dẫn php curl upload file - tập tin tải lên php curl

		
	

		
		
		   
		   
		   
		
		
			Hướng dẫn can you put php in a javascript function? - bạn có thể đặt php trong một hàm javascript không?

		
	

		
		
		   
		   
		   
		
		
			Hướng dẫn histogram python matplotlib - biểu đồ con trăn matplotlib

		
	

		
		
		   
		   
		   
		
		
			Hướng dẫn how wait until a condition is met in python? - Làm thế nào để chờ đợi cho đến khi một điều kiện được đáp ứng trong python?

		
	

		
		
		   
		   
		   
		
		
			Hướng dẫn what is the command to install package in python? - lệnh cài đặt gói trong python là gì?

		
	

		
		
		   
		   
		   
		
		
			Hướng dẫn render html to pdf python - kết xuất html sang pdf python

		
	

		
		
		   
		   
		   
		
		
			Hướng dẫn python best fit line scipy - Python phù hợp nhất với dòng scipy

		
	

		
		
		   
		   
		   
		
		
			RX 2023

		
	

		
		
		   
		   
		   
		
		
			Tính điểm vòng loại world cup 2023

		
	

		
		
		   
		   
		   
		
		
			Hướng dẫn c++ array practice - thực hành mảng c ++

		
	

		
		
		   
		   
		   
		
		
			Hướng dẫn unable to read file in python - không thể đọc tệp trong python

		
	

		
		
		   
		   
		   
		
		
			Hướng dẫn how to compare two times in php? - làm thế nào để so sánh hai lần trong php?

		
	

		
		
		   
		   
		   
		
		
			Hướng dẫn what are python sequence types explain with example? - Các loại trình tự python giải thích với ví dụ là gì?

		
	

		
		
		   
		   
		   
		
		
			Hướng dẫn hàm concat trong python

		
	

		
		
		   
		   
		   
		
		
			Phú yên tuyển dụng công chức 2023

		
	

		
		
		   
		   
		   
		
		
			Hướng dẫn how to print full month date in php? - làm thế nào để in ngày tháng đầy đủ trong php?

		
	

		
		
		   
		   
		   
		
		
			Hướng dẫn how do i change mysql version in mysql workbench? - làm cách nào để thay đổi phiên bản mysql trong bàn làm việc mysql?

		
	

		
		
		   
		   
		   
		
		
			Hướng dẫn thư viện css

		
	

		
		
		   
		   
		   
		
		
			Hướng dẫn 14th row of pascals triangle - Hàng thứ 14 của tam giác pascal

		
	

	
	




Toplist mới

 
	
	 
		#1
		
			Top 4 uống nước chanh sả mật ong có tác dụng gì 2023
			6 tháng trước
		
	



	
	 
		#2
		
			Top 10 bài tập làm văn số 5 lớp 7 de 4 2023
			6 tháng trước
		
	



	
	 
		#3
		
			Top 3 vừa chơi đã có tài khoản vương giả chap 1 2023
			6 tháng trước
		
	



	
	 
		#4
		
			Top 6 anh sẽ on thôi cover phạm nguyên ngọc lyrics 2023
			6 tháng trước
		
	



	
	 
		#5
		
			Top 7 tài liệu quản lý nhà nước và quản lý ngành giáo dục đào tạo 2023
			6 tháng trước
		
	



	
	 
		#6
		
			Top 7 hãy ra khỏi người đó đi hợp âm 2023
			6 tháng trước
		
	



	
	 
		#7
		
			Top 6 giáo án thơ về thăm nhà bác 2023
			6 tháng trước
		
	



	
	 
		#8
		
			Top 8 giáo án ngữ văn 6 cánh diều 2023
			6 tháng trước
		
	



	
	 
		#9
		
			Top 9 tinh bột tham gia phản ứng nào 2023
			6 tháng trước
		
	






		


	Bài mới nhất
	
	 	
		
		   
		   
		   
		
		
			Mũi va mengoc bc2 là mũi gì năm 2024

		
	

		
		
		   
		   
		   
		
		
			Cung bọ cạp còn gọi là cung gì năm 2024

		
	

		
		
		   
		   
		   
		
		
			14 tháng 1 năm 2023 là ngày gì năm 2024

		
	

		
		
		   
		   
		   
		
		
			Bảng hệ thống tài khoản kế toán mới nhất 2023 năm 2024

		
	

		
		
		   
		   
		   
		
		
			Chi phí xăng dầu cho vào tài khoản nào năm 2024

		
	

		
		
		   
		   
		   
		
		
			Xài những sản phẩm gì của sum là tốt nhất năm 2024

		
	

		
		
		   
		   
		   
		
		
			Bị hạt gạo ở móng tay là bị gì năm 2024

		
	

		
		
		   
		   
		   
		
		
			Hiền tài sinh lỗi số trong tam quốc diễn nghĩa năm 2024

		
	

		
		
		   
		   
		   
		
		
			Http www.animesex.pro en search highschool 20dxd-top 1.html năm 2024

		
	

		
		
		   
		   
		   
		
		
			Lỗi không download được file đính kèm trong gmail năm 2024

		
	

	
	
                 
	Chủ Đề
	
	
	
		  programming
		  Hỏi Đáp
		  Mẹo Hay
		  Toplist
		  Là gì
		  Địa Điểm Hay
		  Học Tốt
		  mẹo hay
		  Công Nghệ
		  Nghĩa của từ
		  Bao nhiêu
		  Khỏe Đẹp
		  đánh giá
		  Top List
		  bao nhieu
		  bao nhiêu
		  hướng dẫn
		  So Sánh
		  Tiếng anh
		  Bài tập
		  So sánh
		  Xây Đựng
		  Sản phẩm tốt
		  Ngôn ngữ
		  Bài Tập
		  Máy tính
		  javascript
		  Ở đâu
		  Hướng dẫn
		  Thế nào
		  Dịch 
		  Tại sao
		  Đại học
		  Món Ngon
		  Facebook
		  Khoa Học