Kotoistus - Suomen kielen exemplarCharacters ehdotus 1.

English version

CLDR versio 1.2
Lokaalit: fi fi_FI

exemplarCharacters: exemplarCharacters elementistä on kaksi versiota. Normaali exemplarCharacters ja exemplarCharacters auxiliary. Vain pienet kirjaimet tarvitaan exemplarCharacters määrittelyyn.
exemplarCharacters määrittelee kirjainmerkit jotka ovat käytössä suomen lokaalissa. Sitä käytetään kahdella tavoin:

 1. Tarkistetaan onko teksti ilmaistu ainoastaan kirjaimilla jotka kuuluvat suomen lokaaliin.
 2. Tarkistetaan onko jokin koodausmuoto (tai fontti) kykeneväinen ilmaisemaan kaikki suomen kielen merkit.

Mahdollisia lisäsovelluksia ovat:
 • OCR (etsittävät kirjaimet)
 • teletekstitys
 • otsikkofontin valinta
 • tietokannat (indexointi kielen perusteella; sanojen muutos perusmuotoon)
 • näppäimistömäärittelyt. Näppäimistöllä pitäisi olla mahdollista kirjoittaa kyseiset kirjaimet ilman vaikeuksia.
 • sovellukset voivat olettaa, että nämä merkit ovat käytettävissä ilman erityisjärjestelyjä
 • auxiliary-merkit ovat sellaisia, joita teksteissä voi esiintyä mutta joiden kirjoittaminen voi vaatia erikoisjärjestelyjä, vaikkapa verkkolomakkeeseen rakennetun erillisen toiminnon, jolla niitä voi poimia mukaan, taikka tekstinkäsittelyohjelmaan tehdyt valmiit määrittelyt, joilla niitä voi kirjoittaa helpoilla ja mnemonisilla näppäilyillä.


CLDR tiedoissa ei tule käyttää kirjaimia jotka eivät löydy exemplarCharacters ryhmästä. Esim. maan nimet tulee kirjoittaa ainoastaan kirjaimilla jotka kuuluvat suomen kielen exemplarCharacters ryhmään.
Oikeanpuoleinen sarake sisältää kommentteja kirjaimen alkuperästä ym.

exemplarCharacters (fi):
Merkit joita tarvitaan suomen kielen oikeinkirjoitukseen.
Ehdotus: [ a-z å ä ö š ž ]
å  (00e5)
ä  (00e4)
ö  (00f6)
š  (0161) hattu s
ž  (017e) hattu z


exemplarCharacters auxiliary (fi):
Merkit joita käytetään usein suomalaisessa tekstissä, kirjoitettaessa vieraskielisiä sanoja.
Ehdotus: [ a-z å ä ö š ž á à ã é è ë ï õ ô ü æ ø œ č ç ñ ř ß ]

Kriteerinä merkkien sisällyttämiselle on pidetty sitä ovatko ne yleisessä käytössä suomessa (sanomalehdissä, kirjoissa, ym.).

Merkkien-nimet sisältää luettelon mahdollisten kirjainten tiedoista.

Osalle kirjaimista on määritelty oma lajittelunsa. Myös sellaisille kirjaimille joita ei ole määritelty exemplarCharacters ryhmään, voidaan määritellä erillinen lajittelu. Tämä ei kuitenkaan ole johdonmukaista koska vain yleisesti käytössä oleville kirjaimille tulisi määritellä oma lajittelunsa. (Katso "thorn".)
á  	(00e1)		pohjoissaame,inarinsaame
à 	(00e0) 		yksikkömerkki (esim. kynät à 1,00€).
ã 	(00e3) 		portugali
é 	(00e9) 		suomen-ruotsalaiset nimet
è 	(00e8) 		ranska
ë 	(00eb) 		ranska (esim. Noël, Citroën)
ï 	(00ef) 		ranska
õ 	(00f5) 		viro, koltansaame, portugali
ô 	(00f4) 		ranska
ü  	(00fc)		saksalainen y
æ  	(00e6)		norja,tanska
ø  	(00f8)		norja,tanska
œ  	(0153)		norja,tanska
č  	(010d)		pohjoissaame,inarinsaame,koltansaame
ç  	(00e7)		ranska, portugali
ñ 	(00f1)		espanja (esim. mañana). 
ř 	(0159)		tšekki
ß  	(00df)		saksalainen kaksois s


exemplarCharacters (fi_FI):
Alustava versio. Tulisi sisältää muissa kotimaisissa kielissä käytettyjä merkkejä.
Ehdotus: [ a-z å ä ö š ž á à ã é è ë ï õ ô ü æ ø œ č ç ñ ř ß ʒ ǯ â đ ǥ ǧ ȟ ǩ ŋ ŧ ń ]

Ajatuksena on, että ohjelmoijan/järjestelmäsuunnittelijan on ainakin teoriassa mahdollista luoda esim. EU:n kielet kattava exemplarCharacters määritelmä yhdistämällä (union) kaikkien EU maiden exemplarCharacters määritelmät (*_FI, *_SE, *_DE, *_FR, ym.).
ʒ  	(0292)		koltansaame
ǯ 	(01ef)		koltansaame
â  	(00e2)		inarinsaame,koltansaame
đ  	(0111)		pohjoissaame,inarinsaame,koltansaame
ǥ  	(01e5)		koltansaame
ǧ  	(01e7)		koltansaame
ȟ  	(021f)		romani
ǩ  	(01e9)		koltansaame
ŋ  	(014b)		pohjoissaame,koltansaame
ŧ  	(0167)		pohjoissaame
ń 	(0144) 		luulajansaame. On oletettavaa, että 
  		    	saamenkielen lukijat kohtaavat tämän merkin usein.


Seuraavia kirjaimia on harkittu mutta ei lisätty mihinkään ryhmään:
ð  	(00f0)		islanti (POISTETAAN lajittelusta)
þ  	(00fe)		islanti (POISTETAAN lajittelusta)
í 	(00ed)		islanti 
ű  	(0171)		unkari
ő  	(0151)		unkari
ā 	(0101) 		pitkä a.
ō 	(014d) 		pitkä o.
ū  	(016b) 		pitkä u.
Linkit:
* * * * *