Szerkesztő:BinBot/munka/Egyéb javítócsomagok

A Wikipédiából, a szabad enciklopédiából
Ugrás a navigációhoz Ugrás a kereséshez

BinBot főbb helyesírási javítócsomagjai itt láthatóak a magyarázattal együtt. Ezen a lapon további javítócsomagokat teszek közzé, amelyek valamilyen szempontból érdekesek lehetnek. A javítócsomagok (fixek) fogalmáról itt lehet olvasni.

A nulla nem o betű / Zero is not "o"[szerkesztés]

Ez a csomag azt a tipográfiai hibát hivatott javítani, amikor a nulla helyett o betűt írnak. Két különlegessége van:
  • Mindig rekurzívan kell futtatni
  • Az érintett cikkek kigyűjtése egy menetben történik, de a javítás két menetben, vagyis a két érintett sort egymás után kell használni (a gyakorlatban ez a nem használt sorok kikommentezésével történik)

Néhány teszteset :-)

As part of my presentation at Wikimania 2012, I uploaded here a sample fix with some explanation. This one is to correct a common typographic error when users type the letter o instead of the digit zero. It has two interesting specialities:
  • It has to be run always recursively (the rare example for the use of 'recursive' key in fix)
  • It runs in two passes (after gathering articles in one pass), and the inactive lines (regex, edit comment) must be commented out

Some test cases

    'nulla_nem_o': {
        'regex': True,
        'recursive': True,
        'msg': {
               'hu':u'O és o betűk javítása a számokban nulla számjegyre (botszerkesztés kézi üzemmódban)',
               # 'hu':u'Második nekifutás: halmozottan hátrányos helyesírású oldalszámoknak feltételezett karakterhalmazok javítása kézi botszerkesztéssel',
              },
        'replacements': [
            #     http://hu.wikipedia.org/w/index.php?title=Szerkeszt%C5%91:BinBot/semmi&curid=357930&diff=6599584&oldid=6599521
            #***1
            (ur'(?P<tipp>\d)(o|O)(?=[oO\)\/\-\|\]\}\.\,\:\;\d\b\s])', ur'\g<tipp>0'), #számjegy utáni o/O-->0 (rekurzívan futtatandó!!!)
            #Ez kompromisszumos megoldás, a 1OOdarabot 10Odarabra javítja, de tételezzük fel,
            #hogy nincs 0-->o és egybeírási hiba rögtön egymás után. Minden nem megy, túl bonyolult lenne.
            #
            #Pótjavítás kell a második menetben!
            #Igen sok ilyen van: <ref>Szimonidész Lajos könyve 240o.</ref>
            #Tehát hiányzó pont + az o. egybeírása a könyvek oldalainál. Sajnos védhetetlen. :-((
            #***2
            # (ur'(\d)o\.', ur'\1. o.'),
            #
            #Első menet: a fenti ***1 jelű sor fut, a szerkesztési összefoglaló:
            #O és o betűk javítása a számokban nulla számjegyre (botszerkesztés kézi üzemmódban)
            #Második menet: a fenti ***2 jelű sor fut, a ***1 kikommentezve; a szerkesztési összefoglaló:
            #Második nekifutás: halmozottan hátrányos helyesírású oldalszámoknak feltételezett karakterhalmazok javítása kézi botszerkesztéssel
        ],
        'exceptions': {.
            'inside-tags': [
                'hyperlink',
                'interwiki',
                'math', #Képletekben gyakori / Chemical formulas are often among math tags!
                #'template',
            ],
            'text-contains': [
                ur'(\{\{[Ss]zinnyei|\{\{[Pp]allas\}|\{\{[Ff]ényes\}|\{\{[Vv]ályi\}|Vályi András|Fényes Elek|\{\{sicc\})',
            ],
            'inside': [
                r'H2O',
                # r'(N|H|K|Cu)_2O', #A H2O-t és az N2O-t így írják a <math> tagen belül, gyakori. Ld. az inside-tagsnél.
                #Ez akifejezés a képneveket üti ki, kivéve a galériákat és sablonparamétereket.
                ur'(?i)\[\[(Image|File|Fájl|Kép)\:[^\]\|]+?\|', # Képek nevében ne /Don't touch image names
                ur'(?i)(Image|File|Fájl|Kép)\:.+?(jpg|png|gif|svg)', #Galériás képek nevében se / neither in galleries
                ur'(?i)\| *(kép|image|logó) *=.*?\.(jpg|gif|png)', #Ez infoboxos képnév / nor in infoboxes
                r'\{\{DEFAULTSORT:.*?\}\}', #Don't touch defaultsorts
                #Még ezeket kellene kizárni: <ref name="auto_PRqfagt97055I7Qub+cylw"/>
                r'name="auto_.*?"', #Automatikus refnevek, random string / Bot-created random reference names
                r'(?im)(SMILES|InChI|UNII) *= *.*$', #Kémiai adatbázisok / Chemical databases
                #A $ a (?s) kapcsoló nélkül csak a sor végéig ér. A m nélkül pedig nem működik.
                #Kizárandó még: SMILES\s*=\s*blablabla és InChI\s*=\s*blablabla (kémiai képletek)
                #Ki kéne zárni az összes kémiai cikket, de nem megy.
                ur'NC3O', #NATO-kiadvány / A NATO source
                ur'\{\{Al2O3\}\}', #vegyületsablon / A chemical template
            ],
        }
    },