Portál AbcLinuxu, 4. května 2025 19:54
Stručný souhrn a představení programů, které lze v Linuxu provozovat pro vědeckou (nejen) biologickou práci.
Před časem zde vyšel článek, který představoval možnosti využití svobodného softwaru ve vědě, konkrétně v technice. Já bych si dovolil představit některé možnosti pro biologii. Rozhodně si nedělám nároky na úplnost seznamu. Jde o software, který používám buď já, anebo lidé v mém okolí.
Kancelářský balík OpenOffice.org znají a používají snad všichni. Většině lidem ale dělá trochu potíže práce se seznamy literatury. Ve vědě je důležité doložit všechna tvrzení, která jsou v textu uvedena. Ať už vlastním výzkumem, anebo odkazem na jiného autora. V prostředí Windows existují tzv. reference managery, které se starají o databázi literatury, jsou propojeny s Wordem, vkládají do něj odkazy na literaturu a nakonec generují seznam literatury. My můžeme buď využít obdobné vestavěné funkce v OpenOffice.org, anebo sáhnout po starém osvědčeném LaTeXu. Jeho výhodou je, že největší databáze vědeckých článků i Google Scholar umí exportovat záznamy ve formátu BibTeX. Mým oblíbeným nástrojem je KBibTeX. Z něj pak lze záznamy buď vkládat do LaTeXu, anebo exportovat do HTML, RTF nebo PDF.
KBibTeX s načteným seznamem literatury
Základem je statistický balík R, což je open-source obdoba S-plus, ale může se směle měřit i s předraženými velikány typu SAS nebo SPSS. Hodně lidí si stěžuje na jeho rozhraní, které běží jen v příkazové řádce. To se ale poslední dobou mění. Existuje doplněk do OpenOffice.org Calc a celé GUI pro R. Oba programy jsou zatím spíše na počátku vývoje, ale jistě je čeká slibná budoucnost. Krom základního balíku R používám doplňkové balíky agricolae, ade4, stats, vegan a další. Většinou jde o balíky související s mnohorozměrnou statistikou a biologií.
R4Calc - integrace R do OpenOffice.org Calc
Pro lidi zabývající se matematickými modely (ale nejen pro ně) tu je Octave, což je přímá konkurence známějšího Matlabu.
Existují i speciální programy psané za nějakým konkrétním účelem. Většinou si je píší sami biologové, takže to po informatické stránce nebývá žádný zázrak. Ale svůj účel to plní. Jako příklad bych uvedl třeba Arlequin, který slouží pro výpočet parametrů populační genetiky.
Arlequin (omlouvám se za screenshot z Windows ze stránek projektu, ale momentálně program nemám nainstalovaný)
I když to tak nemusí vypadat, nabídka je vpravdě široká. Neznám nikoho, kdo by se orientoval ve všem :-). O málo menší seznam dostanete, i když budete mezi balíčky Debianu hledat slova jako "biology" nebo "molecular". Existuje i software, který je k dispozici jen pro Linux. Je jím např. ARB, což je velice speciální program pro práci s jedním typem DNA. Opačný problém nastává se softwarem navázaným na hardware, třeba na tzv. sekvenátory, které "čtou" DNA a produkují výsledky ve speciálních formátech. V takových případech mnohdy pomůže Wine s winetricks. Nebo s některými mikroskopy, které se dodávají dohromady s počítači sloužícími k ovládání mikroskopu.
Biologové pracující s DNA běžně pracují s obrovskými on-line databázemi. Ta asi nejznámější je National Center for Biotechnology Information, kde je k dispozici i řada softwaru. Obdobná databáze je i v Evropě a Japonsku. Dohromady tvoří tzv. Velkou trojku a vzájemně se zálohují. Dále existuje řada menších, úžeji zaměřených. K databázím je k dispozici řada on-line nástrojů, pro které stačí jen prohlížeč. Jsou plně multiplatformní. Mezi nejznámější patří asi Sequence Manipulation Suite, kterou si případně lze stáhnout do svého počítače a pracovat jen se svými daty.
Zvláště mezi tvůrci svobodného softwaru pro molekulární biologii je rozšířena i jedna specifická licence: beerware. Když potkáte tvůrce softwaru (třeba na vědecké konferenci), musíte jej pozvat na pivo.
Ve většině případů není problém s tím, že by nebyl dostupný linuxový software pro nějakou konkrétní úlohu (i když i na takové situace už jsem narazil), ale s jeho pohodlností. Kupříkladu rozdíl mezi GRASS a ArcGIS od ESRI je nebetyčný. V jednom musíte psát skripty a zaobírat se příkazovou řádkou, ve druhém jen pohodlně klikáte. Na tom nic nezmění ani obdobné výsledky a nižší stabilita ArcGISu. Nicméně Linux má i pro přírodovědce rozhodně co nabídnout.
Vážený pane Drábku,
slovníky podobu"sekven(c)ování" neuvádějí, postupovali bychom tedy na základě slovotvorné analogie. U sloves utvořených od podstatných jmen (např. listovat) postupujeme tak, že východiskem je kmen motivujícícho podstatného jména (zde "sekvenc-") + slovesný formant (zde "-ovat"). Podoba "sekvencovat" je tedy v pořádku. Tvar "sekvenovat" nevychází z kmene již zdomácnělého podst. jm. "sekvence", i když podle internetových výskytů se v tom významu užívá. Zdá se, že v oblasti vědecké se ustálil jako termín a užívají se i od něj odvozené tvary jako "sekvenace", "sekvenátor" apod., proto se domníváme, že ani tuto podobu nelze odmítat. V jiném kontextu, než je speciální odborná přírodovědná terminologie, bychom však tyto podoby nedoporučili užívat.
S pozdravem
Ludmila Uhlířová
Ústav pro jazyk český AV ČR
oddělení jazykové kultury – jazyková poradna
A mimochodem, znám pár biologů (osobně), kteří náhodou umí česky a umí i česky odvozovat (a tedy to používají)...description [Middle English descripcioun, from Anglo-Norman, from Latin déscríptió, déscríptión-, from déscríptus, past participle of déscríbere, to write down; see describe.]
describe [Middle English describen, from Latin déscríbere, to write down : dé-, de- + scríbere, to write; see skríbh- in Indo-European roots.]
Doporučuji se zaměřit na rozdíl mezi descriptus a describere. Latinu neovládám, ale v české češtině se ve výslovnosti uplatňuje regresní asimilace, což znamená, že znělost poslední souhlásky ovlivňuje výslovnost předchozí souhlásky. Proto si dokážu představit, proč se v latině b změnilo na p.
Pak se takto různě psaná slova dostala do angličtiny (i tam se píšou jinak) a od tamtud je lidé postižení mísením jazyků tlačí do češtiny.
Určovat ze sekvence aminokyselin něco víc než primární strukturu není nic jednoduchého, jestli vás to téma zajímá, doporučuji třeba knihu Introduction to Protein Structure.
A to je prosím jen "introduction". Jinak proč myslíte, že existují projekty jako Folding@home?
Softwary na odhadování sekundární a případně terciární struktury jsou, ale není to žádná matematika, ale multiple sequence alignment na podobném principu, jako třeba BLAST, kdy se vyhledávaj (a doplňujou) části primární sekvence, které jsou v proteinech, jejichž strukturu už někdo vyřešil. Jinak ze samotného exonu se naprosto nedá vypočítat struktura, protože v něm nejsou zapsány posttranslační modifikace, navíc těch volných úhlů, ať už rotačních, nebo torzních je jak na -CO=NH- kostře, tak na postranních řetězcích tolik, že se z toho nedá udělat ani návrh, natož rozumná struktura.
Když chceš strukturu, je potřeba exprese a buď krystalografie, nebo NMR, tahle snadno to nejde...
ISSN 1214-1267, (c) 1999-2007 Stickfish s.r.o.