Wikisage, de vrije encyclopedie van de tweede generatie, is digitaal erfgoed

Wikisage is op 1 na de grootste internet-encyclopedie in het Nederlands. Iedereen kan de hier verzamelde kennis gratis gebruiken, zonder storende advertenties. De Koninklijke Bibliotheek van Nederland heeft Wikisage in 2018 aangemerkt als digitaal erfgoed.

  • Wilt u meehelpen om Wikisage te laten groeien? Maak dan een account aan. U bent van harte welkom. Zie: Portaal:Gebruikers.
  • Bent u blij met Wikisage, of wilt u juist meer? Dan stellen we een bescheiden donatie om de kosten te bestrijden zeer op prijs. Zie: Portaal:Donaties.
rel=nofollow

Alfabetisch sorteren

Uit Wikisage
Versie door Mendelo (overleg | bijdragen) op 12 sep 2020 om 18:14
Naar navigatie springen Naar zoeken springen

Alfabetisch sorteren is het ordenen van gegevens in de volgorde van het alfabet. In het Latijnse alfabet zoals dat ook voor de Nederlandse taal wordt gebruikt, zijn er 26 letters. Deze hebben een vaste volgorde. Het alfabetisch rangschikken van lemma’s in woordenboeken en encyclopedieën of van archiefstukken in een archief, vereenvoudigt het opzoeken.

Sorteren met de computer

Tegenwoordig worden vele gegevens met de computer gesorteerd. Computers gebruiken een vorm van de ASCII-code, of uitgebreide vorm ervan, in mindere mate EBCDIC en vandaag de dag steeds meer Unicode. Gegevens kunnen hierop worden gesorteerd, maar sorteren op ASCII-waarde van de tekens is geen volledige alfabetische sortering. De digitale rangschikking die aan de diverse tekens toegekend werd, houdt geen rekening met plaatselijk geldige sorteringsregels. De computer maakt een verschil tussen kapitalen en onderkastletters, waar dit bij alfabetische sortering bij elkaar hoort: a wordt uiteraard bij A gesorteerd, maar in ASCII heeft A de waarde 65 maar a de waarde 97. De a staat dus zelfs na de Z, die de waarde 90 heeft. De computer telt ook spaties als tekens, maar bij een letter-voor-letter alfabetische sortering tellen spaties niet mee.

Per woord of per letter

Bij het sorteren van woordgroepen; kan men op twee manieren te werk gaan:

  • Woord voor woord (vooral in registers). Er wordt eerst gesorteerd op het eerste woord; pas daarna op het volgende woord.
Voorbeeld: De Bilt, De Panne, De Wilgen, Dedemsvaart, Den Haag, Den Helder, Dendermonde, Deurne, Deventer
  • Letter voor letter (vooral in woordenboeken). Spaties worden genegeerd.
Voorbeeld: De Bilt, Dedemsvaart, Dendermonde, Den Haag, Den Helder, De Panne, Deurne, Deventer, De Wilgen

Familienamen

Een advies van de Taalunie uit 2006 luidde:[1]

„Voor een gewone lijst met namen (bijvoorbeeld klanten of personeelsleden) adviseren wij om de familienaam in zijn geheel vooraan te laten staan en de spaties te negeren. Wij raden af om rekening te houden met spaties (en eventuele apostrofs) in de familienaam, want dit zou tot gevolg hebben dat een naam als Van den daele vóór Vande Kerckhove komt te staan.

  • Toelichting:
    • bij het alfabetisch ordenen is er in grote trekken keuze tussen letter-voor-letter-ordening of woord-voor-woord-ordening.
      • Bij letter-voor-letter-ordening worden de spaties en apostrofs genegeerd. Daarbij geldt ook dat „niets komt voor iets”, dus Vandevel komt voor Vandevelde. Deze ordening komt vooral in woordenboeken voor.
      • Bij woord-voor-woord-ordening staan alle termen die met hetzelfde woord beginnen bij elkaar, en wordt op het tweede woord gealfabetiseerd. Deze ordening is gebruikelijk in registers. Hier wordt het koppelteken genegeerd.
    • In Vlaanderen worden voorvoegsels als de, van, ter, van de, als vaste onderdelen van de naam gezien, zoals onveranderlijk vastgelegd in de burgerlijke stand. Namen met zulke voorvoegsels worden onder de letter van het voorvoegsel geïndexeerd. Luc De Vos staat bij de D, net als Luc Devos.
    • In Nederland worden de voorvoegsels achter de voornaam gezet en klein gespeld. Er wordt dan op het kernwoord geïndexeerd, behalve natuurlijk als het voorvoegsel aan de naam vastzit. Luc De Vos komt hier bij de V, terwijl Luc Devos bij de D komt.
    • Volgens de conventies die gelden voor literatuurlijsten, komen los geschreven voorzetsels en lidwoorden (van, de, …) die deel uitmaken van de familienaam, achteraan te staan.
    • Er is een tendens om de letter-voor-letter-ordening steeds meer voorrang te laten geven, mede omdat computerprogramma’s daarop sorteren.”

Genealogie

In genealogische werken kiest men er vaak voor om de namen te sorteren op een gestandaardiseerde vorm ervan, omdat namen vóór de invoering van de burgerlijke stand vaak willekeurig geschreven werden. Personen met de namen Cleyn, Cleijn, Klein, staan dan bij elkaar alsof er Klein stond.

Nummers

Bij het gebruik van cijfers zijn verschillende benaderingen mogelijk. In sommige situaties worden cijfers apart gesorteerd, voor of na de letters van het alfabet. (Bijvoorbeeld het sorteren van firmanamen in een leveranciers- of klantenbestand) Wanneer cijfers gebruikt worden om een letter voor te stellen (zoals in de filmtitel Se7en), wordt wel eens gedaan alsof er gewoon die letter staat. Een jaartal als 1492 kan in een index soms ook gesorteerd zijn alsof het uitgeschreven zou zijn als „veertienhonderd tweeënnegentig”.

Romeinse cijfers die bijvoorbeeld het nummer van koningen of pausen aanduiden, worden niet op hun alfabetische rangorde gesorteerd, maar op hun numerieke volgorde. Lodewijk IV komt dus niet voor Lodewijk XIV.

Uitgebreide tekenset

Ook voor letters met accenten, diakritische tekens of bijkomende letters geldt niet overal en in elk geval dezelfde norm.

Een Ç wordt in het Nederlands bij de C gesorteerd. In het Nederlands wordt het deelteken of trema gewoonlijk genegeerd. Een ä wordt gesorteerd als a. Dat betekent dat de namen Schröder en Schroeder apart gesorteerd staan in plaats van samen. Een moeilijkheid kan hierbij voorkomen wanneer iemand bij zijn geboorte met ö geregistreerd werd, maar bijvoorbeeld verhuisde naar Amerika en daar de spelling met oe als officiële spelling koos.

In het Duits duidt dit teken (Umlaut) op een klankverschil, dat vroeger werd aangegeven door er een kleine e bij te schrijven. Deze e kreeg later de vorm van een deelteken. Letters met Umlaut worden daarom op verschillende manieren gesorteerd:

DIN 5007-1 (voor het sorteren van woorden, bijvoorbeeld in een woordenboek)

  • ä = a
  • ö = o
  • ü = u
  • ß = ss (het ß-teken is gegroeid uit een dubbele s.)

DIN 5007-2 (speciale sortering voor namen, zoals bijvoorbeeld in telefoonboeken. Op deze manier staan Müller en Mueller samen.)

  • ä = ae
  • ö = oe
  • ü = ue
  • ß = ss

Oostenrijkse sortering (voor telefoonboeken)

  • ä komt na a (en komt dus pas na az)
  • ö komt na o
  • ü komt na u
  • ß komt na ss
  • St. komt na Sankt

Accenten

Ook de accenten worden in het Nederlands gewoonlijk genegeerd bij het sorteren.

  • café, cafetaria

In het Frans bestaan heel wat woorden die er hetzelfde uitzien wanneer de accenten weggelaten worden. Wanneer woorden alfabetisch dezelfde rangorde hebben, worden ze in het Frans bijkomend gesorteerd op de accenten, in de volgorde e é è ê ë.

  • cher, cher
  • élève, élevé

Het laatste accent in het woord beslist eerst over de plaats in de sortering. cote < côte < coté < côté.

Ligaturen

Speciale regels waren soms in gebruik voor ligaturen, letters die samen als één letter werden geschreven of in één loodvorm werden gegoten.

  • De lettercombinatie IJ in Nederlandse woorden werd vroeger wel meer bij de Y gesorteerd, of soms apart na de Y. (In de volgorde Y, IJ, Z.)[2] Dat wierp dan weer de vraag op waar men namen zoals Dijon sorteert. De ’ij’ is in die plaatsnaam geen Nederlandse ’IJ’-klank of geen letter Y, maar een I en een J.
    Vandaag wordt IJ meestal als aparte letters gesorteerd (volgorde II, IJ, IK). Een uitzondering zijn telefoonboeken in Nederland: omdat de y bewaard is gebleven in vele familienamen waar de moderne spelling ij zou gebruiken, staat de ij bij de y gesorteerd. In Nederlandstalige telefoonboeken uit België staat de ij gesorteerd als een i en een j, dus tussen ii en ik.
  • In het Frans wordt de Œ gesorteerd als OE, hoewel de Œ een heel andere functie vervult dan OE.
  • In het Deens en het Noors staat de Æ na de Z, (gevolgd door Ø en Å). In het Nederlands zou de Æ gewoonlijk gesorteerd worden als AE.
  • De Duitse ß ontstond als ligatuur voor een dubbele s en wordt in de regel ook zo gesorteerd.

Andere talen

Vele talen hebben bijkomende eigen regels voor het sorteren. Wanneer enkele woorden of termen uit die talen tussen Nederlandse woorden gesorteerd worden, is het niet de gewoonte om voor elk woord te sorteren volgens de taal waaruit dit woord komt.

  • In het Esperanto worden medeklinkers met een circumflex (ĉ, ĝ, ĥ, ĵ, ŝ), en de ŭ (u met brevis), als aparte letters gesorteerd. Ze volgen elk na hun versie zonder accent.
  • In het Gaelic worden de lettercombinaties CH, DD, FF, NG, LL , PH en TH soms als aparte grafemen behandeld. Deze worden gesorteerd na de eerste letter uit de betreffende lettercombinatie, behalve de NG, die na de G wordt gesorteerd. Toch worden deze lettercombinaties soms ook behandeld als twee aparte letters. Bijvoorbeeld is het woord llongyfarch een samenstelling van llon en gyfarch. De NG is hier dus geen aparte klank, maar een opeenvolging van de letters N en G.
    Volgens deze regels is de volgende sortering in het Gaelic correct:
    lawr, lwcus, llong, llom, llongyfarch.
  • In het IJslands volgt de Ð na de D, en de Þ komt op het einde van het alfabet.
  • In het Hongaars komt Ö na de O en Ü na de U. Lange klinkers worden met een accent geschreven: Á, É, Í, Ó, Ő, Ú, Ű. Deze worden bij hun korte tegenhangers A, E, I, O, Ö, U, Ü gesorteerd.
  • In het Pools volgen de letters met diakritische tekens na hun equivalenten zonder diakritische tekens: de Ą komt na de A, Ć volgt na C, Ę na E, Ł na de L, de Ń volgt op de N, Ó volgt op O, Ś volgt na de S, de Ź en Ż komen na de Z.
  • In het Spaans volgt de ñ als aparte letter na de n. Vooral in het verleden was het gebruikelijk om de Ch als een vaste lettercombinatie te zien, die apart gesorteerd werd na de c. De ll werd als aparte klank beschouwd, die na de l gesorteerd werd (behalve in samenstellingen waarin twee l’en worden samengezet); ook de rr bleef vroeger samen en werd gesorteerd na de r. Sinds 2010 worden de ch en ll door de Koninklijke Spaanse Academie niet meer als aparte letters gezien.[3]

Bronnen, noten en/of referenties

Bronnen, noten en/of referenties
  1. º volgens Taaladvies.net
  2. º De Winkler Prins-encyclopedie zette het in de volgorde X, IJ, Y, Z.
  3. º https://www.rocketlanguages.com/spanish/learn/spanish-alphabet/
rel=nofollow
rel=nofollow