SMILES

A Wikipédiából, a szabad enciklopédiából

A SMILES széles körben használt leíró nyelv a molekulák ASCII-karakterekkel történő tömör kódolására. A név betűszó, az angol simplified molecular input line entry specification (egyszerűsített, begépelhető molekula-leíró rendszer) kifejezés rövidítése. A legtöbb molekula-szerkesztő elfogadja bemenetként a SMILES kódokat, és képes azokat kétdimenziós rajzokká vagy háromdimenziós modellekké alakítani. A SMILES-t Arthur és David Weininger fejlesztette ki az 1980-as években.[1][2] Azóta többen is bővítették és fejlesztették, elsősorban a Daylight Chemical Information Systems égisze alatt.[3] A Blue Obelisk csoport 2007-ben létrehozta a SMILES egy open source megvalósítását OpenSMILES néven.[4]

A SMILES képes atomok, izotópok, vegyületek és kémiai reakciók leírására, beleértve a vegyületek térszerkezetét és aromás voltát. A nyelv kizárólag a a hagyományos betűkészletet használja (32−127 közötti ASCII-kódok), és (különösen egyszerű molekuláknál) hasonlít a szokásos kémiai képletekre.

Atomok[szerkesztés | forrásszöveg szerkesztése]

Az atomok SMILES-a a vegyjel szögletes zárójelben. Pl.: [Au] az arany SMILES-a. A vegyjelek első betűje nagy-, a második kisbetű. (Néhány egybetűs vegyjel kisbetűvel írható, ha aromás gyűrű tagja; lásd alább.)

A szögletes zárójelben megadható

  • az atom töltése. Pl. [H+] a proton, [Fe++] vagy [Fe+2] a vas(II)-ion.
  • az izotóp. Pl. [2H] a deutérium.
  • megadhatók az atomhoz kapcsolódó hidrogénatomok. Pl. [NH3] az ammónia, [OH-] a hidroxil-anion SMILES-a.

A hidrogénatom[szerkesztés | forrásszöveg szerkesztése]

„Szabályos” vegyértékek
Vegyjel Atom Vegyértékek
B bór 3
C szén 4
N nitrogén 3,5
O oxigén 2
P foszfor 3,5
S kén 2,4,6
halogének 1

A szerves kémiában a képletek egyszerűsítése végett a hidrogénatomokat sokszor nem tüntetik fel. Ezt a gyakorlatot a SMILES is átvette. A szerves kémiában gyakori atomok szögletes zárójel nélkül írhatók. Az atomot ilyenkor hidrogénatomokkal a kémiai kötések figyelembe vételével a legkisebb „szabályos” vegyértékűre egészítjük ki. Példák:

Szén Foszfor Oxigén Klór
SMILES Képlet Név SMILES Képlet Név SMILES Képlet Név SMILES Képlet Név
[C] C elemi szén [P] P elemi foszfor [O] O oxigénatom [Cl] O klóratom
C CH4 metán P PH3 foszfin O H2O víz Cl HCl sósav
[PH5] PH5 foszforán(en)


Kémiai kötések[szerkesztés | forrásszöveg szerkesztése]

SMILES Név Képlet
C=O formaldehid HCHO
C=C etilén CH2=CH2
O=C=O szén-dioxid CO2
COC dimetil-éter CH3—O—CH3
C#N hidrogén-cianid HCN
CCO etil-alkohol CH3—CH2—OH
[H][H] molekuláris hidrogén H2

Az egyes kötés jele: -, a kettesé =, a hármasé #, az aromásé :. Az egyes és aromás kötés jele elhagyható, és a gyakorlatban nem is használják őket.

Példa az etán (CH2—CH2) szabályos SMILES-aira:

  • [CH3]-[CH3]
  • [CH3][CH3]
  • C-C
  • CC

Példa: 2-butin:

  • képlet: CH3—C≡C—CH3
  • SMILES: CC#CC

A pont azt jelzi, hogy két atom között nincsen kötés. Pl.: Cu2+SO42- SMILES-alakja: [O-]S(=O)(=O)[O-].[Cu+2]

Elágazó láncok[szerkesztés | forrásszöveg szerkesztése]

Az oldalláncot zárójellel jelöljük azon atom után, amelyikből elágazik. A főlánc az (utolsó) oldallánc záró zárójele után folytatódik. A SMILES nem írja elő, melyik láncot tekintjük fő- ill. oldalláncnak. A lánc nem okvetlenül tartalmaz szénatomot. Az oldalláncban újabb oldallánc(ok) lehetnek (egymásba skatulyázott zárójelezés).

Példák:

Gyűrűs vegyületek[szerkesztés | forrásszöveg szerkesztése]

Egy bonyolultabb molekula SMILES-a. A B rész mutatja a gyűrűzáró éleket és címkéjüket. A C pontban különböző színek jelzik az egyes alláncokat. D-ben ugyanolyan színnel látható a hozzájuk tartozó SMILES-részlet.

SMILES-ban nyílt vegyületeknél új kémiai kötést mindig egy új atommal együtt adtunk meg. Gyűrű lezárásakor egy új és egy korábban már előfordult atom között kell megadni kötést. Az ilyen atomokat megcímkézzük. Ugyanaz a címke pontosan kétszer kell szerepeljen: a második előfordulás a gyűrűzárás.

A címke egy természetes szám. Az 1–9 közötti címkét közvetlenül a vegyjel után írjuk. Például a ciklopropán SMILES-a C1CC1. Az 1-es címke adja meg az első és harmadik szénatom közötti kötést.

Teljesen hasonlóan a ciklohexán SMILES-a C1CCCCC1.

Aromás vegyületek megadhatók váltakozó kettőskötésekkel (Kekulé-alak), vagy úgy, hogy az aromás gyűrű atomjait kisbetűkkel írjuk:

A gyűrűzáró atom oldalláncban is lehet:

3-cianoanizol[5]. A piros vonal mutatja a molekula bejárását. SMILES: COc(c1)cccc1C#N

Egy atomnak több címkéje is lehet, és a címke is lehet 9-nél nagyobb. Ilyenkor %-jelet kell használni. Pl. a C2%13%24 SMILES-részletben a szénatomnak három címkéje van: 2, 13 és 24.

A címkék újrahasznosíthatók. Ha már mindkét előfordulásuk megvolt, új gyűrűzáró kötés adható meg velük.

Királis vegyületek[szerkesztés | forrásszöveg szerkesztése]

A térszerkezet megadására a SMILES a /, \, @ és @@ szimbólumot használja.


Jegyzetek[szerkesztés | forrásszöveg szerkesztése]

  1. Weininger, D. (1988), SMILES, a chemical language and information system. 1. Introduction to methodology and encoding rules, J. Chem. Inf. Comput. Sci. 28, 31-36.
  2. Weininger, D.; Weininger, A.; Weininger, J.L. (1989) SMILES. 2. Algorithm for generation of unique SMILES notation J. Chem. Inf. Comput. Sci. 29, 97-101.
  3. SMILES - A Simplified Chemical Language
  4. Az OpenSMILES honlapja
  5. m-cyanoanisole (ChemSpider)

Forrás[szerkesztés | forrásszöveg szerkesztése]