Kotoistus - Suomen kielen lajittelusäännöt (normaali)

Kotoistus - Suomen kielen lajittelusäännöt (normaali, v.2.)

CLDR versio 1.2
Lokaalit: fi fi_FI

Selitykset: Kirjaimet ovat luettelossa lajittelujärjestyksessä. Muille kirjaimille, joita ei ole erikseen mainittu, noudatetaan oletussääntöjä. Sekä isot että pienet kirjaimet sisällytetään siten kuin on tarpeellista. (Oletussäännöt on määritelty UCA:n [Unicode Collation Algorithm] DUCET:ssa ["Default Unicode Collation Element Table"].) Tämä merkitsee myös sitä, että ainoastaan kirjaimet joiden lajittelu eroaa UCA:sta mainitaan alla olevassa määritelmässä.

reset = Hyppää tähän kohtaan aakkosissa. Tätä seuraavat säännöt tulkitaan suhteessa tähän kirjaimeen.
p = primary. 1. tärkein lajittelu. Kirjain on samanarvoinen reset kirjaimen kanssa.
s = secondary. 2. tärkein lajittelu. (tarke-erot)
t = tertiary. 3. tärkein lajittelu. (iso kirjain, pieni kirjain ero)

Lajittelu tapahtuu pääasiallisesti käyttämällä ainoastaan "primary" eli tärkeintä lajittelua. 2:ksi, 3:ksi ja 4:ksi tärkeimmät lajittelut huomioidaan vain jos muita eroja ei ole.
Katso esimerkiksi kirjainta "V". Sen alla ovat "w" ja "W" jotka ovat primary järjestyksessä samanarvoisia kuin "V". "v" on oletuksena samanarvoinen. Sama sääntö pätee muihin kirjaimiin. Ainoastaan "p:" merkintä siirtää kirjaimen tärkeysjärjestyksessä seuraavaksi. Katso esimerkkeinä kirjaimia "å", "ä" ja "ö".

Käyttäjä tai ohjelmisto voi myös muokata näitä sääntöjä tarpeiden mukaisesti. Esimerkiksi jokin toiminto (kuten "etsi") saattaa käyttää ainoastaan primary arvoja löytääkseen tietyn sanan. Suomen kielen esimerkkinä voitaisiin etsiä sanaa "vvv" tai "www". Koska v:n ja w:n primary arvo on sama, molemmat sanat löytyvät.

Ehdotetut lajittelusäännöt suomen kielelle:
(0123) merkinnät ovat merkkien unicode hexadesimaaliarvot. Kirjaimille a-z ei ole merkitty hex arvoja.
Oikeanpuoleinen sarake sisältää kommentteja kirjaimen alkuperästä. CLDR1.2 tarkoittaa, että kirjain on CLDR1.2:ssä mutta muuta tietoa siitä ei ole.

"SAMA KUIN UCA" tarkoittaa, että kirjainta ei tarvitse mainita koska sen oletusarvo UCA:ssa vastaa suomen kielen lajittelua.
"POISTETTU" tarkoittaa, että arvo tullaan poistamaan seuraavassa versiossa.

Kysymyksiä:

Jotta aakkostus olisi lukijoille käytännöllistä, sen sääntöjen pitää olla mahdollisimman yksinkertaisia. Ohjeiden tulee olla lyhyet ja selkeät. Onko järjestys sellainen, että selvitään mahdollisimman vähillä selityksillä?
Tulisiko lajittelu saamen kielten ja romanikielen osalta tehdä painottaen lajittelua joka on tuttu
(a) niille suomenkielisille jotka puhuvat kyseisiä kieliä toisena tai ensimmäisenä kielenään ja jotka siten joutuvat niiden kanssa useammin tekemisiin,
vaiko
(b) niille suomalaisille jotka eivät tunne kyseisiä kieliä ja joutuvat täten arvaamaan kirjainten sijainnin lajittelussa.
Argumentit b: puolesta:
(i) Luetteloita pitäisi voida käyttää ja jopa laatia niidenkin, jotka eivät osaa kyseisiä kieliä. Jos joutuu etsimään aakkosellisesta listasta nimeä, jossa on ihan outo kirjain, se tulisi löytyä Ö:n jälkeen.
(ii) Merkit ilmenevät myös muissa kielissä joten ne täytyy lajitella UCA:n mukaan.
Argumentti a: puolesta:
Suomessa käytössä olevien kirjainten tulisi lajittua kuten niitä käyttävät suomalaiset niiden olettavan lajittuvan. Luetteloissa joissa näissä merkkejä käytetään tulisi olla lajittelusäännöt asiasta tiedottamista varten.
w ja v ovat toisinaan samanarvoisia ja toisinaan eriarvoisia. Yksi ehdotus on lajitella ne erikseen, w v:n jälkeen, mutta käsitellä niitä samanarvoisina kun etsitään samanarvoisia sanoja. Onko tähän toimiva ratkaisu LDML/CLDR puitteissa?
Ei toimivaa ratkaisua. Jompaan kumpaan tulisi päätyä.
Ehdotamme, että normaalilajittelussa w on samanarvoinen kuin v, lajittuen v:n jälkeen vain jos muita eroja sanoissa ei ole.
Puhelinluettelolajittelussa kirjaimet käsitetään eri kirjaimiksi, eli w lajittuu v:n jälkeen omana kirjaimenaan.
Pitäisikö pitkä a (ā, 0101) ja o (ō, 014d) tulkita kuten ä ja ö.
Pituusmerkki tulisi rinnastaa muihin tarkkeisiin. Ne siis lajitellaan UCA:n oletusarvojen mukaan, kuten "a" ja "o" tarkkeilla.
Onko DUCET:ssa määritellyissä lajittelusäännöissä eroja jos verrataan CEN yleiseuroopalaiseen lajitteluun?
Tulisiko "eth" (ð, 00f0) lajitella kuten D? Se on määritelty niin cldr 1.2:ssa. Olisi ehkä parempi lajitella se oletusarvon mukaan jotta se lajittuu kuten muissa kielissä.
Lajitellaan oletusarvon mukaan.
Tulisiko "thorn" (þ, 00fe) lajitella kuten "th"? Se on määritelty niin cldr 1.2:ssa. (Katso "eth" kommentit yllä.)
Kyllä. Suomessa on yleinen käytäntö tulkita "thorn" kirjainyhdistelmäksi "th".
Tarvitaanko unkarin merkkejä ű (0171) ja ő (0151). Ne on määritelty CLDR 1.2:ssa luultavasti lajittelun takia. Jos niitä ei määritellä ne lajittuvat kuten oletussäännöt sanovat (u:n ja o:n jälkeen).
(i) Unkarin kaksoisakuutti-u, ű (0171), aakkostuu SFS 4600:n mukaan kuten y ja kaksoisakuutti-o, ő (0151), kuten ö.
Lajitellaanko saksalainen kaksois s (ß, 00df) kuten "ss" vai jätetäänkö oletuslajittelu
Oletuslajittelu on jo kuten "ss" (tarke-erolla) UCA:ssa.
æ (00e6) ja Æ (00c6) (tanska,norja). UCA oletus "a". Tulisiko lajitella kuten "ae" vai "ä"?
(i) SFS 4600 sanoo "ae".
(ii) yleinen käytäntö on lajitella kuten ä.
(iii) pohjoismainen merkki.
œ (0153) Œ (0152) (ranska). UCA oletus on "oe". Onko "ö" parempi?
(i) SFS 4600 sanoo "oe".
(ii) yleinen käytäntö ei rinnasta œ kirjainta ö:hön kuten æ rinnastetaan ä:hän.
á (00e1) Á (00c1) (pohjoissaame,inarinsaame) (tulisiko lajitella kuten "a" vai "ä"?)
Ilmenee myös muissa kielissä. Selkein käytäntö on lajitella kuten "a".
Sen seurauksena, että ʒ ym. (0292,01b7,01ef,01ee) (koltansaamen "ezh") ovat määritelty, siirtyykö niiden variaatioita jotka ovat UCA oletuksena Z:n jälkeen, "ʒ":in jälkeen.
Ei. Neljä määriteltyä variaatiota sisältävät kaikki kyseisen kirjaimen variaatiot.
(Ezh on poistettu.)

reset: A
s: â   (00e2)		inarinsaame,koltansaame (SAMA KUIN UCA)
t: Â   (00c2)		inarinsaame,koltansaame (SAMA KUIN UCA)
s: á   (00e1)		pohjoissaame,inarinsaame (SAMA KUIN UCA. Saameksi lajittelu on kuten "ä"?)
t: Á   (00c1)		pohjoissaame,inarinsaame (SAMA KUIN UCA. Saameksi lajittelu on kuten "Ä"?)

reset: C
s: č   (010d)		pohjoissaame,inarinsaame,koltansaame (SAMA KUIN UCA)
t: Č   (010c)		pohjoissaame,inarinsaame,koltansaame (SAMA KUIN UCA)
s: ʒ   (0292)		koltansaame, pieni "ezh" (SAMA KUIN UCA)
t: Ʒ   (01b7)		koltansaame, iso "ezh" (SAMA KUIN UCA)
s: ǯ   (01ef)		koltansaame, pieni hattu "ezh" (SAMA KUIN UCA)
t: Ǯ   (01ee)		koltansaame, iso hattu "ezh" (SAMA KUIN UCA)

reset: D
s: ð   (00f0)		CLDR1.2,islanti, pieni "eth"  (POISTETAAN)
t: Ð   (00d0)		CLDR1.2,islanti, iso "eth"    (POISTETAAN)
s: đ   (0111)		pohjoissaame,inarinsaame,koltansaame (SAMA KUIN UCA)
t: Đ   (0110)		pohjoissaame,inarinsaame,koltansaame (SAMA KUIN UCA)



reset: G
s: ǥ   (01e5)		koltansaame (SAMA KUIN UCA)
t: Ǥ   (01e4)		koltansaame (SAMA KUIN UCA)
s: ǧ   (01e7)		koltansaame (SAMA KUIN UCA)
t: Ǧ   (01e6)		koltansaame (SAMA KUIN UCA)

reset: H
s: ȟ   (021f)	romani, pieni hattu h (SAMA KUIN UCA)
t: Ȟ   (021e)	romani, iso hattu h (SAMA KUIN UCA)



reset: K
s: ǩ   (01e9)		koltansaame (SAMA KUIN UCA)
t: Ǩ   (01e8)		koltansaame (SAMA KUIN UCA)

reset: N
s: ŋ   (014b)		pohjoissaame,koltansaame (SAMA KUIN UCA)
t: Ŋ   (014a)		pohjoissaame,koltansaame (SAMA KUIN UCA)


reset: O
s: œ  (0153)		ranska (SAMA KUIN UCA. "oe")
t: Œ  (0152)		ranska (SAMA KUIN UCA. "OE")

reset: S
s: š 	(0161)		pohjoissaame,inarinsaame,koltansaame,suomi (SAMA KUIN UCA)
t: Š 	(0160)		pohjoissaame,inarinsaame,koltansaame,suomi (SAMA KUIN UCA)


reset: T
s: ŧ   (0167)		pohjoissaame (SAMA KUIN UCA)
t: Ŧ   (0166)		pohjoissaame (SAMA KUIN UCA)
x: 
	s: þ   (00fe)	CLDR1.2,islanti, pieni "thorn"
	extend: h	tulkitaan "th" tarkkeilla
x: 
	t: Þ   (00de)	CLDR1.2,islanti, iso "thorn"
	extend: H	tulkitaan "TH" tarkkeilla

reset: V
s: w
t: W

reset: Y
s: ü   (00fc)		saksa
t: Ü   (00dc)		saksa
s: ű   (0171)		unkari
t: Ű   (0170)		unkari

reset: Z
s: ž   (017e)		pohjoissaame,inarinsaame,koltansaame (SAMA KUIN UCA)
t: Ž   (017d)		pohjoissaame,inarinsaame,koltansaame (SAMA KUIN UCA)

reset: ʑ   (0291 eli viimeinen z merkki UCA:ssa)
p: å   (00e5)		suomi
t: Å   (00c5)		suomi
p: ä   (00e4)		suomi
t: Ä   (00c4)		suomi
s: æ   (00e6)		tanska,norja
t: Æ   (00c6)		tanska,norja
p: ö   (00f6)		suomi
t: Ö   (00d6)		suomi
s: ø   (00f8)		tanska,norja
t: Ø   (00d8)		tanska,norja
s: ő   (0151)		unkari
t: Ő   (0150)		unkari
s: õ   (00f5)		koltansaame,viro
t: Õ   (00d5)		koltansaame,viro

* * * * *