This is edited functions utf8_to_cp1251 and cp1251_to_utf8.
Changes: Check current string encoding.
<?php
function cp1251_to_utf8($s)
{
if ((mb_detect_encoding($s,'UTF-8,CP1251')) == "WINDOWS-1251")
{
$c209 = chr(209); $c208 = chr(208); $c129 = chr(129);
for($i=0; $i<strlen($s); $i++)
{
$c=ord($s[$i]);
if ($c>=192 and $c<=239) $t.=$c208.chr($c-48);
elseif ($c>239) $t.=$c209.chr($c-112);
elseif ($c==184) $t.=$c209.$c209;
elseif ($c==168) $t.=$c208.$c129;
else $t.=$s[$i];
}
return $t;
}
else
{
return $s;
}
}
function utf8_to_cp1251($s)
{
if ((mb_detect_encoding($s,'UTF-8,CP1251')) == "UTF-8")
{
for ($c=0;$c<strlen($s);$c++)
{
$i=ord($s[$c]);
if ($i<=127) $out.=$s[$c];
if ($byte2)
{
$new_c2=($c1&3)*64+($i&63);
$new_c1=($c1>>2)&5;
$new_i=$new_c1*256+$new_c2;
if ($new_i==1025)
{
$out_i=168;
} else {
if ($new_i==1105)
{
$out_i=184;
} else {
$out_i=$new_i-848;
}
}
$out.=chr($out_i);
$byte2=false;
}
if (($i>>5)==6)
{
$c1=$i;
$byte2=true;
}
}
return $out;
}
else
{
return $s;
}
}
?>
LV. Funciones iconv
Introducción
Este módulo contiene una interfaz con la facilidad de conversión de juegos de caracteres iconv. Con éste módulo, es posible convertir una cadena representada por un juego de caracteres local a una representada por otro juego de caracteres, que puede ser el juego de caracteres Unicode. Los juegos de caracteres soportados dependen de la implementación de iconv en su sistema. Note que la función iconv en algunos sistemas puede que no funcione como lo espera. En tal caso, sería una buena idea instalar la biblioteca libiconv GNU. Es muy probable que consiga unos resultados más consistentes.
A partir de PHP 5.0.0, esta extensión viene con varias funciones utilitarias que le ayudan a escribir scripts multi-lingües. Echemos un vistazo a las siguientes secciones para explorar las nuevas características.
Requisitos
No necesita de nada si el sistema que usa es uno de los sistemas recientes compatibles con POSIX, ya que las bibliotecas C estándar que vienen con ellos ofrecen la facilidad iconv. De otro modo, es necesario instalar la biblioteca libiconv en su sistema.
Instalación
Para usar las funciones de éste módulo, el binario PHP debe ser compilado con la siguiente línea de configuración: --with-iconv[=DIR].
Nota para Usuarios de Windows®: Para habilitar éste módulo en un entorno Windows®, necesita colocar un archivo DLL llamado iconv.dll o iconv-1.3.dll (antes de 4.2.1), el cual hace parte del paquete binario PHP/Win32, en un directorio especificado por la variable de entorno PATH o uno de los directorios de sistema de su instalación de Windows®.
Este módulo es parte de PHP a partir de PHP 5, por lo tanto iconv.dll y php_iconv.dll no se requieren más.
Configuración en tiempo de ejecución
El comportamiento de estas funciones está afectado por los valores definidos en php.ini.
Tabla 1. Opciones de configuración de iconv
| Nombre | Predeterminado | Modificable | Cambios |
|---|---|---|---|
| iconv.input_encoding | "ISO-8859-1" | PHP_INI_ALL | Disponible desde PHP 4.0.5. |
| iconv.output_encoding | "ISO-8859-1" | PHP_INI_ALL | Disponible desde PHP 4.0.5. |
| iconv.internal_encoding | "ISO-8859-1" | PHP_INI_ALL | Disponible desde PHP 4.0.5. |
| Aviso |
Algunos sistemas (como IBM AIX) usan "ISO8859-1" en lugar de "ISO-8859-1", así que este valor debe usado en las opciones de configuración y en los parámetros de función. |
Nota: La opción de configuración iconv.input_encoding actualmente no es usada en absoluto.
Tipos de recursos
Esta extensión no tiene ningún tipo de recurso definido.
Constantes predefinidas
Desde PHP 4.3.0, es posible identificar, en tiempo de ejecución, qué implementación de iconv es adoptada por esta extensión.
Tabla 2. Constantes de iconv
| Nombre | Tipo | Descripción |
|---|---|---|
| ICONV_IMPL | string | El nombre de la implementación |
| ICONV_VERSION | string | La versión de la implementación |
Nota: Escribir scripts que dependan de la implementación con éstas constantes no se recomienda en absoluto.
A partir de PHP 5.0.0, las siguientes constantes se encuentran disponibles también:
Tabla 3. Constantes de iconv disponibles desde PHP 5.0.0
| Nombre | Tipo | Descripción |
|---|---|---|
| ICONV_MIME_DECODE_STRICT | integer | Una máscara de bits usada para iconv_mime_decode() |
| ICONV_MIME_DECODE_CONTINUE_ON_ERROR | integer | Una máscara de bits usada para iconv_mime_decode() |
Ver también
Vea también las funciones GNU Recode.
- Tabla de contenidos
- iconv_get_encoding -- Retrieve internal configuration variables of iconv extension
- iconv_mime_decode_headers -- Decodes multiple MIME header fields at once
- iconv_mime_decode -- Decodes a MIME header field
- iconv_mime_encode -- Composes a MIME header field
- iconv_set_encoding -- Set current setting for character encoding conversion
- iconv_strlen -- Returns the character count of string
- iconv_strpos -- Finds position of first occurrence of a needle within a haystack
- iconv_strrpos -- Finds the last occurrence of a needle within the specified range of haystack
- iconv_substr -- Cut out part of a string
- iconv -- Convert string to requested character encoding
- ob_iconv_handler -- Convert character encoding as output buffer handler
iconv does not convert to sjis tildes unless you do something like this
<?PHP
$string = 'where are the (~) (~) tildes?'; // This is what we start off with, you can put any string in here that contains problematic characters in utf8 format
echo ('this is what we start with = '.$string.'<BR />'); //print string at start
$conv_str = iconv('utf-8','shift-jis'.'//TRANSLIT',$string);
echo ('this is not working = '.$conv_str.'<BR />'); //Just to show that this is not working.
$rstring = preg_replace ('/~/','1bytetilde',$string); //replace before conversion
echo ('this is modified string here = '.$rstring.'<BR />'); //This is the modified string
$conv_str2 = iconv('utf-8','shift-jis'.'//TRANSLIT',$rstring); //convert modified string
$rereplace=chr(126); //$rereplace is now a one byte tilde in shift_jis
$rerstring = preg_replace ('/1bytetilde/',$rereplace,$conv_str2); //rereplace with tildes
echo ('this is the correct result = '.$rerstring.'<BR />'); //the correct result
?>
Note that my mysql_iconv will not translate correctly the Hebrew dotting symbols (Niqqud) - they will be converted into question marks.
Here is a straightforward (and not very efficient) solution:
<?php
function utf8_to_windows1255($utf8) {
$windows1255 = "";
$chars = preg_split("//",$utf8);
for ($i=1; $i<count($chars)-1; $i++) {
$prefix = ord($chars[$i]);
$suffix = ord($chars[$i+1]);
//print ("<p>$prefix $suffix");
if ($prefix==215) {
$windows1255 .= chr($suffix+80);
$i++;
}
elseif ($prefix==214) {
$windows1255 .= chr($suffix+16);
$i++;
}
else {
$windows1255 .= $chars[$i];
}
}
return $windows1255;
}
?>
// Simple file translation.
$FileToconvert = "menu.xml";
$FileConverted = "menu2.xml";
echo "Converting $FileToconvert ...";
file_put_contents($FileConverted, iconv("ISO-8859-1","UTF-8",file_get_contents($FileToconvert)));
echo "File converted in $FileConverted";
If you need convert string from Windows-1251 to 866. Some characters of 1251 haven't representation on DOS 866. For example, long dash -- chr(150) will be converted to 0, after that iconv finish his work and other charactes will be skiped. Problem characters range in win1251 (128-159,163,165-167,169,171-174,177-182,187-190).
Use this:
//$text - input text in windows-1251
//$cout - output text in 866 (cp866, dos ru ascii)
for($i=0;$i<strlen($text);$i++) {
$ord=ord($text[$i]);
if($ord>=192&&$ord<=239) $cout.=chr($ord-64);
elseif($ord>=240&&$ord<=255) $cout.=chr($ord-16);
elseif($ord==168) $cout.=chr(240);
elseif($ord==184) $cout.=chr(241);
elseif($ord==185) $cout.=chr(252);
elseif($ord==150||$ord==151) $cout.=chr(45);
elseif($ord==147||$ord==148||$ord==171||$ord==187) $cout.=chr(34);
elseif($ord>=128&&$ord<=190) $i=$i; //нет представления данному символу
else $cout.=chr($ord);
}
There's one more special german character: ß (sometimes displayed as Ϋ)
so: case 159: $out .= "ß";break;
But this is a very slow method to convert this:
// function to change german umlauts into ue, oe, etc.
function cv_input($str){
Better try this:
$tr = array(chr(xyz) => '', chr(160) => ' '); // Just a simple example, put all your characters in there
$string = strtr($string, $tr);
In addition to Godfather's note below, you may find this function useful just as well.
// function to change german umlauts into ue, oe, etc.
function cv_input($str){
$out = "";
for ($i = 0; $i<strlen($str);$i++){
$ch= ord($str{$i});
switch($ch){
case 195: $out .= "";break;
case 164: $out .= "ae"; break;
case 188: $out .= "ue"; break;
case 182: $out .= "oe"; break;
case 132: $out .= "Ae"; break;
case 156: $out .= "Ue"; break;
case 150: $out .= "Oe"; break;
default : $out .= chr($ch) ;
}
}
return $out;
}
With this function you can translate the german Symbols from the character set UTF-8 in windows-1252.
function convert_text($str){
$out = '';
for ($i = 0; $i<strlen($str);$i++){
$ch = ord($str{$i});
switch($ch){
case 252: $out .= chr(129);break; //u Umlaut
case 220: $out .= chr(154);break;//U Umlaut
case 228: $out .= chr(132);break;//a Umlaut
case 196: $out .= chr(142);break;//A Umlaut
case 214: $out .= chr(153);break;//O Umlaut
case 246: $out .= chr(148);break;//o Umlaug
case 223: $out .= chr(225);break;//SZ
default : $out .= chr($ch) ;
}
}
return $out;
}
iconv now has been built-in, at least in PHP >= 5.0.1 for win32. You don't have to modify php.ini for this. Actually you should not. And clearly, libiconv does not need to be installed.
Windows users.
Personaly I leaved all php dlls in \php\dlls\ directory, just adding this path to my system path, and iconv.dll supplied with php 4.3.2 works fine, also leaving supplied php_iconv.dll in my \php\extensions\ directory. This was working fine with Apache and Omnihttpd server I use.
As soon I installed IIS on the same server, php complained about not finding php_iconv.dll in the extensions directory. In fact PHP with IIS loads all extensions in my \php\extensions directory correctly, except php_iconv.dll.
Although iconv.dll is in my system path, the only way to load php_iconv.dll was to copy iconv.dll file in \%winnt\system32 directory. With other servers, iconv.dll can be in anywhere in the system path.
I'm not sure how recent version of
glibc 2.x Slackware 7.x/8.x comes with, but
it's very likely that it comes with glibc 2.2.x.
In that case, you don't have to bother at all to
install libiconv in /usr/local. iconv(3) in glibc 2.2.x
is very good (thanks to Ulrich Drepper and
Bruno Haible. the latter is the author of libiconv).
libiconv is very handy for those outdated/non-standard-compliant Unix
and non-Unix systems that don't have
sufficiently good iconv(3) in their C library.
To compile libiconv under Slackware 7.0 or 8.0 without errors (either with the apache module of PHP or the CGI version), you must specify the full path of the libiconv installation.
Exemple :
--with-iconv=/usr/local
