[Openstandaarden] Weer een mailtje voor assistenten om na te kijken voor versturing

Sun Dec 7 13:56:20 CET 2003

On Sun, Dec 07, 2003 at 11:49:25AM +0100, Wim Borghs wrote:
> Frans Gerbosch Consulting wrote:
> 
> >'ASCII', 'iso-*', ... zijn standaarden die toch perfect naast elkaar
> >kunnen staan of niet ?   
> >Volgens mij sluit het een het ander niet uit.

Het probleem is eerder hoe weet ik in welke character set een
document geschreven is.  Bij UTF zijn daar speciale tekens voor
voorzien, BOM: Byte Order Mark.  Dit is eigenlijk vooral nodig
voor UTF-16 en UTF-32, die zowel in big als little endian
gebruikt kunnen worden, maar kan ook gebruikt worden om te zien
of een text UTF-8 is.

Spijtig genoeg hebben niet al de bestandsformaten een manier om
aanteduiden in welk characterset het geschreven is, en als het
dat wel heeft wordt het niet altijd gebruikt.  MIME voorziet het
bijvoorbeeld, maar het zou niet de eerste keer zijn dat ik een
bericht/webpage zie waar het ofwel verkeerd staat, of zelfs
totaal niet staat.

> Wat bedoel je met naast elkaar kunnen staan?
> ASCII is een 7-bit characterset die in praktijk te beperkt is vermits 
> het oa geen letters met accent, trema of circumflex heeft. De meeste 
> andere veelgebruikte charactersets zijn 8-bit uitbreidingen van ASCII. 
> Unicode bestaat als een 16-bit en 32-bit uitbreiding van ASCII. UTF8 is 

Unicode is op zichzelf geen character set.  UTF-8, UTF-16 en
UTF-32 zijn dat wel, net zoals UCS-2 en UCS-4, en ze zijn niet
echt een "uitbreiding van ASCII".  UTF-8 is wel de enige die
compatible is met ASCII.  Al de ASCII characters blijven
hetzelfde voorgesteld.

> gebaseerd op Unicode en past een knap trukje toe waarbij de meest 
> voorkomende characters met 8 bits worden voorgesteld, de wat minder 
> voorkomende met 16 bits en nog minder voorkomende met 24 bits.

Bij UTF-8 worden alleen ASCII characters door 1 byte voorgesteld.
Al de rest is van 2 tot en met 4.

> Als ik me niet vergis zijn zowel ASCII, Unicode, utf8 als de iso-* 
> charactersets open standaarden maar is er het praktische probleem dat 
> ASCII wel bruikbaar is in de USA maar voor de noden in West-Europa te 
> beperkt is.

UCS is gedefineerd in ISO/IEC 10646, US-ASCII in ANSI X3.4, 1986,
ISO 8859-* is de gelijknamige standaarden, UTF-8 in rfc3629,
UTF-16 in rfc2781 en UTF-32 in unicode.
Bijna al de charactersets hebben ook een ISO equivalent.  Unicode
en ISO 10646 werken samen en volgen elkaar.

PS: rfc3629 (UTF-8) heeft vorige maand de status van standaard
gekregen.  rfc2279, zijn voorganger, was draft/proposed standaard.

Kurt