Naivná analýza Colemak-DH v slovenčine (vs. Qwertz/y, Dvorak, Colemak a Workman)
Už dlhšie sa zaujímam o alternatívne rozloženia klávesnice.
Prácou na počítači sa živím a už dlhšie ma sprevádza bolesť v rukách. Pri týchto rozloženiach ide o minimalizáciu úsilia (nie maximalizáciu rýchlosti, čo je častá miskoncepcia), vďaka čomu vedia s touto do dlhodoba bolesťou pomôcť.
Avšak žiadne z dostupných analýz sa nevyužíva slovenčinu, takže je ťažké povedať, ako veľmi a či vôbec sa dá profitovať z nejakého rozloženia v slovenčine. Preto som sa rozhodol spraviť vlastnú analýzu.
Výsledky
Rozloženie1 | Námaha (EN)2 | Námaha (SK)2 | Zlepšenie (EN) | Zlepšenie (SK) |
---|---|---|---|---|
Qwerty | 2,383 | 2,389 | — | — |
Qwertz3 | 2,363 | 2.392 | 0,8 % | 0 % |
Dvorak | 1,931 | 2,055 | 19,0 % | 14,0 % |
Colemak | 1,836 | 1,981 | 23,0 % | 17,1 % |
Workman | 1,806 | 2,087 | 24,2 % | 12,6 % |
Colemak-DH | 1,735 | 1,937 | 27,2 % | 18,9 % |
Ako vidno, čim špecializovanejšie sú rozloženia na špecifiká angličtiny, tým menej sa prenášajú zlepšenia na slovenčinu.
Pozorovania
- Z rozložení, čo som skúšal, mal Colemak-DH najlepšie výsledky
- Najčastejšie písmeno v slovenčine je
o
, ale v angličtine (a vo veľkom množstve západných jazykov) je toe
, čo je smola, leboe
má častokrát jedno z najlepších miest - Medzi Colemak-om a Colemak-DH nie je v slovenčine prakticky žiaden rozdiel, pokiaľ sa aplikuje na oba angle mod (Colemak táto zmena zníži na 1,936)
- Aj keď oba majú pomerne dobré výsledky, majú značné využitie vnútorného stĺpca, čo sa prejavuje hlavne na ortogonálnych a stĺpcových klávesniciach
Obmedzenia
- Táto analýza využíva model použitý na analýzu Colemak-DH, takže ho (samozrejme) preferuje
- Využíva iba uni- a bi-gramy; nebeží na skutočnom texte
- Tieto dáta sú vytvorené z textov Wikipédie (z 2012), nie z korpusu
- Iba top sto n-gramov bolo použitých (chýba archív dvojgramov, tak sú iba scrapenuté zo stránky)
- Chýbajú štatistiky interpunkcie, hlavne di-gramov s písmenami, ktoré nechýbajú v originálnom datasete
Tepelné mapy
Generované pomocou interaktívneho nástroja. Ak chcete skúsiť iné rozhrania alebo nastavenia, nájdete ho nižšie.
Čo ďalej
Pre mňa asi nič, ale pre záujemcov je viacero možností:
- SAV má k dispozícii korpus slovenského jazyka, ktorý by sa dal použiť na vytvorenie lepšej analýzy. Na jeho použitie ale treba ale poslať podpísaný list
- Podobne by sa dal spraviť lepší korpus z Wikipédie, ktorý by obsahoval aj interpunkciu a nový obsah za posledných 11 rokov
- bclnr/kb-layout-evaluation a engram obsahujú mnohojazyčné analýzy, do ktorých by bolo zaujímavé napojiť slovenčinu
Záver
Túto analýzu som začal, lebo som sa naučil Colemak-DH kvôli angličtine, a chcel som zistiť, či mi to nezhoršilo písanie po slovensky. Myslím, že aj takáto jednoduchá analýza stačí, aby sa dalo povedať, že nie – možno dokonca až to, že to stojí za to.
Budem ešte písať o tom, prečo práve Colemak-DH, ale v skratke:
- Hociaké optimalizované rozloženie je lepšie ako Qwerty
- Colemak-DH je dostatočne dobrý; má veľmi slušné výsledky vo väčšine analýz, čo som videl
- Netreba podceniť námahu potrebná na prechod. Tu má Colemak-DH veľkú výhodu vďaka množstvu zdieľaných kláves (a ich prideleniu k rukám) s Qwerty
- Vďaka prechodovým rozhraniam Tarmak sa dá naučiť aj popri práci
- Má širokú komunitu
Nástroj
Výsledky môžete porovnať s originálnou verziou.
-
Z môjho výskumu sa mi nezdá, že by na Slovensku boli alterntatívne rozloženia nejak populárne, tak tu uvádzam iba zopár najznámejších. Ďalšie sú k dispozícii v interaktívnom nástroji. ↩
-
Použil som alternatívne rozloženie prstov (viď nástroj), lebo neverím, že niekto skutočne píše s tradičným, ktoré má beztak horšie výsledky. ↩
-
Qwertz je optimalizované pre nemčinu. Nechal som ho tu len aby som ukázal, aké zbytočné je používať ho v slovenčine. ↩