„Szerkesztő:Gyimbot” változatai közötti eltérés

A Wikipédiából, a szabad enciklopédiából
Tartalom törölve Tartalom hozzáadva
Gyimhu (vitalap | szerkesztései)
Gyimhu (vitalap | szerkesztései)
43. sor: 43. sor:
{{anchor|stat}}A legutolsó dump dátuma: {{A dump dátuma}}
{{anchor|stat}}A legutolsó dump dátuma: {{A dump dátuma}}


* az utolsó futás ideje: 2014. május 3.
* az utolsó futás ideje: 2014. május 24.
* a használt adatbázis dump: [http://dumps.wikimedia.org/huwiki/20140503/ május 3.]
* a használt adatbázis dump: [http://dumps.wikimedia.org/huwiki/20140503/ május 21.]


* Géppel felismert vegyület: 1903
* Géppel felismert vegyület: 1916
* Hibásan felismert (a fentin felül): 8
* Hibásan felismert (a fentin felül): 8
* Kézzel hozzáadott vegyület: 33
* Kézzel hozzáadott vegyület: 33
* Vegyület összesen: 1936
* Vegyület összesen: 1949
* Felismert összegképlet: 1802
* Felismert összegképlet: 1822
* Fel nem ismert összegképlet: 101
* Fel nem ismert összegképlet: 94
* Kézzel megadott összegképlet az új vegyületekkel együtt: 73
* Kézzel megadott összegképlet az új vegyületekkel együtt: 74
* Összegképlet összesen: 1875
* Összegképlet összesen: 1896
* DISPLAYTITLE: 16
* DISPLAYTITLE: 16



=== A robot futtatása ===
=== A robot futtatása ===

A lap 2014. május 24., 13:32-kori változata

A bot elsődleges feladata a magyar Wikipédia kémiai lapjairól összegyűjteni az összegképleteket. A másik alkalmazása lapok újraparszolása.

Összegképlet robot

Az összegképletek összegyűjtésekor a bot az alábbi szócikkekbe ír:

A robot által feltöltött lap Hivatkozás a fő névtérből
Összeglista Vegyületek összegképlete
Összegtáblázat Vegyületek összegképlet-táblázata
Brómvegyületek Brómvegyületek összegképletének listája
Kalciumvegyületek Kalciumvegyületek összegképletének listája
Klórvegyületek Klórvegyületek összegképletének listája
Fluorvegyületek Fluorvegyületek összegképletének listája
Jódvegyületek Jódvegyületek összegképletének listája
Káliumvegyületek Káliumvegyületek összegképletének listája
Nitrogénvegyületek Nitrogénvegyületek összegképletének listája
Nátriumvegyületek Nátriumvegyületek összegképletének listája
Foszforvegyületek Foszforvegyületek összegképletének listája
Kénvegyületek Kénvegyületek összegképletének listája
Vasvegyületek Vasvegyületek összegképletének listája
Magnéziumvegyületek Magnéziumvegyületek összegképletének listája
Rubídiumvegyületek Rubídiumvegyületek összegképletének listája
nincs összegképlet Vita:Vegyületek összegképlete

A botot Gyimhu üzemelteti.

A legutolsó dump dátuma: 2024. április 21.

  • az utolsó futás ideje: 2014. május 24.
  • a használt adatbázis dump: május 21.
  • Géppel felismert vegyület: 1916
  • Hibásan felismert (a fentin felül): 8
  • Kézzel hozzáadott vegyület: 33
  • Vegyület összesen: 1949
  • Felismert összegképlet: 1822
  • Fel nem ismert összegképlet: 94
  • Kézzel megadott összegképlet az új vegyületekkel együtt: 74
  • Összegképlet összesen: 1896
  • DISPLAYTITLE: 16

A robot futtatása

  1. A wikidump letöltése. Futási idő 10–15 perc.
  2. A mysql táblák létrehozása indexek nélkül. A huwiki-n a mediawiki verziójának változásával a szkript változhatik. A végrehajtási idő olyan rövid, hogy nem mérhető.
  3. A huWiki importálása: java -jar mwdumper.jar pages-articles.xml. A futási idő kb. negyed óra.
  4. Indexek létrehozása a beimportált táblákra. Futási idő 3–4 perc.
  5. Munkatábla létrehozása az összegképleteket tartalmazó szócikkek számára. Memóriakorlátos a régi konfigurációban, ezért érdemes leállítani a gnome-ot és saját wikit. Az új konfigurációban diszkkorlátos. Futási idő a régi konfigurációban 4–4½ óra, az újban 3½ perc. (!)
  6. A kézi javítólista utolsó változtatásainak ellenőrzése, eltárolás a helyi filerendszerben (kezi.txt).
  7. Az összegképletek kigyűjtése
  8. A wiki-lapok generálása, feltöltés a helyi wiki-be ellenőrzés céljából.
  9. statisztika előállítása, jelen lap kézi szerkesztése. A kapott lap összevetése a helyi wiki összegképlet lap| utolsó és utolsó előtti változatának különbségével. A új, összegképlet nélküli lapok ellenőrzése, szükség esetén az összegképlet javítása és az összegképlet kézi megadása. (A következő futtatáskor ne felejtsük el törölni a javított összegképletű lapokat a kézi listából.) A vegyületekben szereplő elemek számának változása esetén a wtabl.c program módosítása.
  10. az utolsó letöltés óta keletkezett új lapok letöltése, kézi javítása, a kémia munkacsoport lapjának szerkesztése
  11. a lapok feltöltése huwiki-be.

Konfiguráció

  • processzor: 2 darab 2-magos Intel(R) Core(TM) i5-3210M, 2.5 GHz
  • memória: 4G
  • operációs rendszer: debian 7.4 (wheezy)

Szükséges csomagok: mysql, libmysqlclient-dev, gcc, wget, openjdk-6-jre.[1]

A wikidump letöltése

FNEV=pages-articles.xml.bz2
rm -f $FNEV
wget -t1 "http://dumps.wikimedia.org/huwiki/latest/huwiki-latest-pages-articles.xml.bz2" -O - | bunzip2 -c >$FNEV

Az összegképletek kigyűjtése

Az összegképlet-lista egyszerű szövegfile. Két példasor:

Aceton-peroxid
Aciklovir|C=8|H=11|N=5|O=3

Az eredményfile-ban minden munkatáblabeli szócikk szerepel, ami nincs a tiltólistán (a kézi javítólista összegképlet nélküli sorai). Az első sorban a C-program nem találta meg az összegképletet, a másodikban a szócikkbeli összegképlettel azonos sorrendben sorolta fel az elemeket.

Ugyanilyen szerkezetű a kézi javítólista is. A lapgeneráló automatikusan összedolgozza a kettőt.

Ugyanez a program gyűjti ki és írja file-ba a DISPLAYTITLE sablonokat. A teljes eredményfile (hufo.ali):

Alfa-ketoizokapronsav|''alfa''-Ketoizokapronsav
B12-vitamin|B<sub>12</sub>-vitamin
Delta-valerolakton|''δ''-Valerolakton
Dinitro-orto-krezol|Dinitro-''orto''-krezol
Gamma-valerolakton|''γ''-Valerolakton
N-klórszukcinimid|''N''-klórszukcinimid
N-metilkoniin|''N''-Metilkoniin
P-Toluolszulfonsav|''p''-Toluolszulfonsav
Terc-butil-bromid|''terc''-Butil-bromid

A wiki-lapok generálása

A lapgeneráló lelke két C-program. Mindkettő a fent leírt összegképlet-file-t olvas be.[2] A wossz lista, a wtabl táblázat alakú weblapot állít elő.

Az első paraméter az összegképlet-file. Ha a program második filenevet is kap, kiírja az elemgyakoriságokat is (melyeket egyébként is figyel a táblázatos weblap miatt).

A lapokat egyetlen shell szkript állítja elő a fenti két C-program segítségével. Az összegképlet-listába bedolgozza az elemgyakoriságot egy második oszlopba. Az elemekre szűkített táblázatoknál a wtabl inputja a hufo.txt elemre szűrt változata. Az elemek listáját és a generálandó file-ok nevét a wiki.txt tartalmazza.

A lapok a wiki alkönyvtárban keletkeznek, a szócikk nevével azonos filenévvel.

A lapok feltöltése a magyar Wikipédiára

A műveletet a wiki-terminológia nem feltöltésnek, hanem edit-nek nevezi.

A feltöltő shell szkript a wiki alkönytár teljes tartalmát feltölti a Szerkesztő:Gyimbot alkönyvtáraiba, a filenévvel azonos szócikk névre.

Teendők

  • Igen {{DISPLAYTITLE}} a vegyületek nevében
  • Igen helyközök a vegyületek nevében
  • Igen a fenti két névformázás a hiányzó összegképleteknél is
  • Igen botstring wget-ben
  • {{kisbetűscím}}(?): 250 darab. Ebből kémia:
    • Alfa-propiolakton 11611631
    • Α-ketoglutársav 12382187

Újraparszolás

A wiki a szócikk mentésekor hozza létre a szócikk hivatkozásait. Ha a szócikk által hívott sablonok változnak, a hivatkozások ezt nem követik. Erre szolgál a reparse. A filelist.txt-ből veszi az újraparszolandó lapok listáját. Lekérdezi és változtatás nélkül visszatölti őket.

A laptörténetben ebből semmi nem látható, de a hívott sablonok hivatkozásai megváltoznak.

Jegyzetek

  1. Vagy más Java-csomag, mely képes az mwdumper.jar-t futtatni.
  2. A két program ugyanazokból a forrásfile-okból áll. A különbség a C-fordítónak adott kapcsoló, melyet a main()- tartalmazó C-programban az #ifdef preprocesszor-utasítás figyel.