programming php Mb_convert_encoding

Php remove all non utf 8 characters

If you apply utf8_encode[] to an already UTF8 string it will return a garbled UTF8 output.

I made a function that addresses all this issues. It´s called Encoding::toUTF8[].

You dont need to know what the encoding of your strings is. It can be Latin1 [ISO8859-1], Windows-1252 or UTF8, or the string can have a mix of them. Encoding::toUTF8[] will convert everything to UTF8.

I did it because a service was giving me a feed of data all messed up, mixing those encodings in the same string.

Usage:

require_once['Encoding.php']; 
use \ForceUTF8\Encoding;  // It's namespaced now.

$utf8_string = Encoding::toUTF8[$mixed_string];

$latin1_string = Encoding::toLatin1[$mixed_string];

I've included another function, Encoding::fixUTF8[], which will fix every UTF8 string that looks garbled product of having been encoded into UTF8 multiple times.

Usage:

require_once['Encoding.php']; 
use \ForceUTF8\Encoding;  // It's namespaced now.

$utf8_string = Encoding::fixUTF8[$garbled_utf8_string];

Examples:

echo Encoding::fixUTF8["FÃ©dÃ©ration Camerounaise de Football"];
echo Encoding::fixUTF8["FÃÂ©dÃÂ©ration Camerounaise de Football"];
echo Encoding::fixUTF8["FÃÂÃÂ©dÃÂÃÂ©ration Camerounaise de Football"];
echo Encoding::fixUTF8["FÃÂ©dération Camerounaise de Football"];

will output:

Fédération Camerounaise de Football
Fédération Camerounaise de Football
Fédération Camerounaise de Football
Fédération Camerounaise de Football

Download:

//github.com/neitanod/forceutf8

Jason Aller

3,48128 gold badges40 silver badges37 bronze badges

answered Aug 19, 2010 at 11:44

Using a regex approach:

$regex = = 0x20] && [$current = 0xE000] && [$current = 0x10000] && [$current  'Hello from Denmark with æøå',
    'Non-printable chars'   => "\x7FHello with invalid chars\r \x00"
];

foreach[$arr as $k => $v]{
    echo "$k:\n---------\n";
    
    $len = strlen[$v];
    echo "$v\n[".$len."]\n";
    
    $strip = utf8_decode[utf8_filter[utf8_encode[$v]]];
    $strip_len = strlen[$strip];
    echo $strip."\n[".$strip_len."]\n\n";
    
    echo "Chars removed: ".[$len - $strip_len]."\n\n\n";
}

//www.tehplayground.com/q5sJ3FOddhv1atpR

answered Sep 10, 2019 at 13:16

clarkkclarkk

26.1k67 gold badges182 silver badges320 bronze badges

$string = preg_replace['~&[[a-z]{1,2}][acute|cedil|circ|grave|lig|orn|ring|slash|th|tilde|uml];~i', '$1', htmlentities[$string, ENT_COMPAT, 'UTF-8']];

answered Sep 9, 2009 at 23:53

Alix AxelAlix Axel

148k91 gold badges388 silver badges493 bronze badges

So the rules are that the first UTF-8 octlet has the high bit set as a marker, and then 1 to 4 bits to indicate how many additional octlets; then each of the additional octlets must have the high two bits set to 10.

The pseudo-python would be:

newstring = ''
cont = 0
for each ch in string:
  if cont:
    if [ch >> 6] != 2: # high 2 bits are 10
      # do whatever, e.g. skip it, or skip whole point, or?
    else:
      # acceptable continuation of multi-octlet char
      newstring += ch
    cont -= 1
  else:
    if [ch >> 7]: # high bit set?
      c = [ch = 0x20] && [$current = 0xE000] && [$current = 0x10000] && [$current


				
					

                 
	Bài Viết Liên Quan
	
	 	
		
		   
		   
		   
		
		
			Hướng dẫn dùng python accumulate python

		
	

		
		
		   
		   
		   
		
		
			Hướng dẫn docker-php-ext-install simplexml

		
	

		
		
		   
		   
		   
		
		
			How do you print if a number is odd or even in python?

		
	

		
		
		   
		   
		   
		
		
			Hướng dẫn dùng matlab fseek trong PHP

		
	

		
		
		   
		   
		   
		
		
			Hướng dẫn join mysql là gì

		
	

		
		
		   
		   
		   
		
		
			Hướng dẫn view trong php

		
	

		
		
		   
		   
		   
		
		
			Hướng dẫn tạo form html

		
	

		
		
		   
		   
		   
		
		
			Kế hoach phổ biến tuyên truyền giai đoạn 2022-2023

		
	

		
		
		   
		   
		   
		
		
			Hướng dẫn dùng define array trong PHP

		
	

		
		
		   
		   
		   
		
		
			Hướng dẫn dùng constant. trong PHP

		
	

		
		
		   
		   
		   
		
		
			Hướng dẫn create login in php

		
	

		
		
		   
		   
		   
		
		
			Hướng dẫn dùng split string python

		
	

		
		
		   
		   
		   
		
		
			Hướng dẫn dùng freecodecamp python

		
	

		
		
		   
		   
		   
		
		
			Hướng dẫn dùng key strings trong PHP

		
	

		
		
		   
		   
		   
		
		
			Hướng dẫn dùng negate binary trong PHP

		
	

		
		
		   
		   
		   
		
		
			Hướng dẫn dùng true 1 trong PHP

		
	

		
		
		   
		   
		   
		
		
			Hướng dẫn dùng xpath class trong PHP

		
	

		
		
		   
		   
		   
		
		
			Hướng dẫn dùng get header trong PHP

		
	

		
		
		   
		   
		   
		
		
			Câu lệnh điều kiện đăng đầy đủ trong python là

		
	

		
		
		   
		   
		   
		
		
			Những bộ phim kinh dị hay nhất năm 2023

		
	

	
	




Toplist mới

 
	
	 
		#1
		
			Top 4 uống nước chanh sả mật ong có tác dụng gì 2023
			6 tháng trước
		
	



	
	 
		#2
		
			Top 10 bài tập làm văn số 5 lớp 7 de 4 2023
			6 tháng trước
		
	



	
	 
		#3
		
			Top 3 vừa chơi đã có tài khoản vương giả chap 1 2023
			6 tháng trước
		
	



	
	 
		#4
		
			Top 6 anh sẽ on thôi cover phạm nguyên ngọc lyrics 2023
			6 tháng trước
		
	



	
	 
		#5
		
			Top 7 tài liệu quản lý nhà nước và quản lý ngành giáo dục đào tạo 2023
			6 tháng trước
		
	



	
	 
		#6
		
			Top 7 hãy ra khỏi người đó đi hợp âm 2023
			6 tháng trước
		
	



	
	 
		#7
		
			Top 6 giáo án thơ về thăm nhà bác 2023
			6 tháng trước
		
	



	
	 
		#8
		
			Top 8 giáo án ngữ văn 6 cánh diều 2023
			6 tháng trước
		
	



	
	 
		#9
		
			Top 9 tinh bột tham gia phản ứng nào 2023
			6 tháng trước
		
	






		


	Bài mới nhất
	
	 	
		
		   
		   
		   
		
		
			Cung bọ cạp còn gọi là cung gì năm 2024

		
	

		
		
		   
		   
		   
		
		
			Viết một đoạn văn ngắn nói về tình mẫu tử năm 2024

		
	

		
		
		   
		   
		   
		
		
			14 tháng 1 năm 2023 là ngày gì năm 2024

		
	

		
		
		   
		   
		   
		
		
			Chi phí xăng dầu cho vào tài khoản nào năm 2024

		
	

		
		
		   
		   
		   
		
		
			Mũi va mengoc bc2 là mũi gì năm 2024

		
	

		
		
		   
		   
		   
		
		
			Bảng hệ thống tài khoản kế toán mới nhất 2023 năm 2024

		
	

		
		
		   
		   
		   
		
		
			Bài tập về dòng điện trong điện môi năm 2024

		
	

		
		
		   
		   
		   
		
		
			Xài những sản phẩm gì của sum là tốt nhất năm 2024

		
	

		
		
		   
		   
		   
		
		
			Lỗi không download được file đính kèm trong gmail năm 2024

		
	

		
		
		   
		   
		   
		
		
			Câu hỏi và bài tập công nghệ 8 trang 171 năm 2024

		
	

	
	
                 
	Chủ Đề
	
	
	
		  programming
		  Hỏi Đáp
		  Mẹo Hay
		  Toplist
		  Là gì
		  Địa Điểm Hay
		  Học Tốt
		  mẹo hay
		  Công Nghệ
		  Nghĩa của từ
		  Bao nhiêu
		  Khỏe Đẹp
		  đánh giá
		  Top List
		  bao nhieu
		  bao nhiêu
		  hướng dẫn
		  So Sánh
		  Tiếng anh
		  Bài tập
		  So sánh
		  Xây Đựng
		  Sản phẩm tốt
		  Ngôn ngữ
		  Bài Tập
		  Máy tính
		  javascript
		  Ở đâu
		  Hướng dẫn
		  Thế nào
		  Dịch 
		  Tại sao
		  Đại học
		  Món Ngon
		  Facebook
		  Khoa Học