Biologický software pro Linux

Stručný souhrn a představení programů, které lze v Linuxu provozovat pro vědeckou (nejen) biologickou práci.

Úvod

Před časem zde vyšel článek, který představoval možnosti využití svobodného softwaru ve vědě, konkrétně v technice. Já bych si dovolil představit některé možnosti pro biologii. Rozhodně si nedělám nároky na úplnost seznamu. Jde o software, který používám buď já, anebo lidé v mém okolí.

Běžná práce

Kancelářský balík OpenOffice.org znají a používají snad všichni. Většině lidem ale dělá trochu potíže práce se seznamy literatury. Ve vědě je důležité doložit všechna tvrzení, která jsou v textu uvedena. Ať už vlastním výzkumem, anebo odkazem na jiného autora. V prostředí Windows existují tzv. reference managery, které se starají o databázi literatury, jsou propojeny s Wordem, vkládají do něj odkazy na literaturu a nakonec generují seznam literatury. My můžeme buď využít obdobné vestavěné funkce v OpenOffice.org, anebo sáhnout po starém osvědčeném LaTeXu. Jeho výhodou je, že největší databáze vědeckých článků i Google Scholar umí exportovat záznamy ve formátu BibTeX. Mým oblíbeným nástrojem je KBibTeX. Z něj pak lze záznamy buď vkládat do LaTeXu, anebo exportovat do HTML, RTF nebo PDF.

Matematika, statistika, ...

Základem je statistický balík R, což je open-source obdoba S-plus, ale může se směle měřit i s předraženými velikány typu SAS nebo SPSS. Hodně lidí si stěžuje na jeho rozhraní, které běží jen v příkazové řádce. To se ale poslední dobou mění. Existuje doplněk do OpenOffice.org Calc a celé GUI pro R. Oba programy jsou zatím spíše na počátku vývoje, ale jistě je čeká slibná budoucnost. Krom základního balíku R používám doplňkové balíky agricolae, ade4, stats, vegan a další. Většinou jde o balíky související s mnohorozměrnou statistikou a biologií.

Pro lidi zabývající se matematickými modely (ale nejen pro ně) tu je Octave, což je přímá konkurence známějšího Matlabu.

Existují i speciální programy psané za nějakým konkrétním účelem. Většinou si je píší sami biologové, takže to po informatické stránce nebývá žádný zázrak. Ale svůj účel to plní. Jako příklad bych uvedl třeba Arlequin, který slouží pro výpočet parametrů populační genetiky.

Arlequin (omlouvám se za screenshot z Windows ze stránek projektu, ale momentálně program nemám nainstalovaný)

Molekulární biologie

I když to tak nemusí vypadat, nabídka je vpravdě široká. Neznám nikoho, kdo by se orientoval ve všem :-). O málo menší seznam dostanete, i když budete mezi balíčky Debianu hledat slova jako "biology" nebo "molecular". Existuje i software, který je k dispozici jen pro Linux. Je jím např. ARB, což je velice speciální program pro práci s jedním typem DNA. Opačný problém nastává se softwarem navázaným na hardware, třeba na tzv. sekvenátory, které "čtou" DNA a produkují výsledky ve speciálních formátech. V takových případech mnohdy pomůže Wine s winetricks. Nebo s některými mikroskopy, které se dodávají dohromady s počítači sloužícími k ovládání mikroskopu.

Biologové pracující s DNA běžně pracují s obrovskými on-line databázemi. Ta asi nejznámější je National Center for Biotechnology Information, kde je k dispozici i řada softwaru. Obdobná databáze je i v Evropě a Japonsku. Dohromady tvoří tzv. Velkou trojku a vzájemně se zálohují. Dále existuje řada menších, úžeji zaměřených. K databázím je k dispozici řada on-line nástrojů, pro které stačí jen prohlížeč. Jsou plně multiplatformní. Mezi nejznámější patří asi Sequence Manipulation Suite, kterou si případně lze stáhnout do svého počítače a pracovat jen se svými daty.

Zvláště mezi tvůrci svobodného softwaru pro molekulární biologii je rozšířena i jedna specifická licence: beerware. Když potkáte tvůrce softwaru (třeba na vědecké konferenci), musíte jej pozvat na pivo.

Závěrem

Ve většině případů není problém s tím, že by nebyl dostupný linuxový software pro nějakou konkrétní úlohu (i když i na takové situace už jsem narazil), ale s jeho pohodlností. Kupříkladu rozdíl mezi GRASS a ArcGIS od ESRI je nebetyčný. V jednom musíte psát skripty a zaobírat se příkazovou řádkou, ve druhém jen pohodlně klikáte. Na tom nic nezmění ani obdobné výsledky a nižší stabilita ArcGISu. Nicméně Linux má i pro přírodovědce rozhodně co nabídnout.

Diskuse k tomuto článku

Tenhle spisovný novo tvar opravdu miluju: sekvenátory...

Spisovně by to mělo být odvozeno od sekvencovat, nikoliv sekvenovat!

01010010 01000101 01010000 01101100 01001001 00110010 01000100 01100101 01010110

12.11.2008 12:26 frdrx | skóre: 29 | blog: frdrx
Rozbalit Rozbalit vše Re: Biologický software pro Linux

Blbost. Podle jakého pravidla tomu tak má být? Žádné neexistuje a je to jen tvůj osobní názor. Za šest let studia biologie jsem neslyšel nikoho říct "sekvencovat", nebo vyjádřit podobnou pitomost.

Patička mi slouží k tomu, abych si lépe poznal svoje příspěvky.

12.11.2008 18:11 Jan Drábek | skóre: 41 | blog: Tartar | Brno
Rozbalit Rozbalit vše Re: Biologický software pro Linux

Ehm:


Vážený pane Drábku,


 
slovníky podobu"sekven(c)ování" neuvádějí, postupovali bychom tedy na základě slovotvorné analogie. U sloves utvořených od podstatných jmen (např. listovat) postupujeme tak, že východiskem je kmen motivujícícho podstatného jména (zde "sekvenc-") + slovesný formant (zde "-ovat"). Podoba "sekvencovat" je tedy v pořádku. Tvar "sekvenovat" nevychází z kmene již zdomácnělého podst. jm. "sekvence", i když podle internetových výskytů se v tom významu užívá. Zdá se, že v oblasti vědecké se ustálil jako termín a užívají se i od něj odvozené tvary jako "sekvenace", "sekvenátor" apod., proto se domníváme, že ani tuto podobu nelze odmítat. V jiném kontextu, než je speciální odborná přírodovědná terminologie, bychom však tyto podoby nedoporučili užívat. 
S pozdravem


 
Ludmila Uhlířová

Ústav pro jazyk český AV ČR

oddělení jazykové kultury – jazyková poradna

A mimochodem, znám pár biologů (osobně), kteří náhodou umí česky a umí i česky odvozovat (a tedy to používají)...
Také nechápu proč nasazujete tak ostrý tón, naštval jsem vás snad?

01010010 01000101 01010000 01101100 01001001 00110010 01000100 01100101 01010110

12.11.2008 20:22 frdrx | skóre: 29 | blog: frdrx
Rozbalit Rozbalit vše Re: Biologický software pro Linux

"Také nechápu proč nasazujete tak ostrý tón, naštval jsem vás snad?"

Za ostrý tón se omlouvám. Přišel jsem totálně nasraný z lesa, kde se mě snažil buzerovat jakýsi myslivec (neprávem). "Sekvencovat" by nikdo normální, myslím, neřekl, leda z recese nebo snahy někoho prudit.

Patička mi slouží k tomu, abych si lépe poznal svoje příspěvky.

12.11.2008 18:41 luky
Rozbalit Rozbalit vše Re: Biologický software pro Linux

On je zazity urcity rozdil mezi sekvencovat/sekvenovat a sekvencer/sekvenator, ale fakticky vyznamovy rozdil ve slove jako takovem podle me neni zadny.

12.11.2008 18:45 luky
Rozbalit Rozbalit vše Re: Biologický software pro Linux

No vida, nez jsem docetl a vyjadril se, tak uz tady mame odpoved i primo od UJC :)

16.11.2008 20:57 Nuphar | skóre: 19
Rozbalit Rozbalit vše Re: Biologický software pro Linux

No, po pěti letech studia biologie to v laboratoři DNA slýchám denně. Samozřejmě může jít o specifikum molekulárních oborů, nicméně jde o běžně používané slovo. A to i na přednáškách.

Per aspera, Asparagus et Aspergillus ad a/Astra!

17.11.2008 18:10 frdrx | skóre: 29 | blog: frdrx
Rozbalit Rozbalit vše Re: Biologický software pro Linux

Kde? Bude to spíš specifikum dané laborky. U nás se taky ustálila spousta divných výrazů.

Patička mi slouží k tomu, abych si lépe poznal svoje příspěvky.

17.11.2008 18:18 Nuphar | skóre: 19
Rozbalit Rozbalit vše Re: Biologický software pro Linux

Přírodovědecká fakulta Univerzity Karlovy v Praze. Já působím v laboratoři DNA Katedry botaniky (dělám ponejvíce fragmentační analýzy). Slýchávám to i na přednáškách, a to již dosti dlouho. Upřímně, mám pocit, že to říká každý (i z jiných kateder). A lidé z ČB, co k nám jezdí to říkají taky. :-)

Per aspera, Asparagus et Aspergillus ad a/Astra!

17.11.2008 18:32 MaT | skóre: 28
Rozbalit Rozbalit vše Re: Biologický software pro Linux

A teď ještě řekněte, co že to slýcháte častěji? Sekvenovat, nebo sekvencovat? Nějak tu občas nění přesně poznat, na co který příspěvek reaguje... Já tedy jen pro zajímavost co si pamatuji snad nikdy neslyšel nikoho říkat "sekvencovat". U nás v nemocnici (FNM) určitě ne a ani na žádné z konferencí, na které jsem byl (a pár už jich také bylo).

Open source software for open minded people. :-)

17.11.2008 19:18 Nuphar | skóre: 19
Rozbalit Rozbalit vše Re: Biologický software pro Linux

Kdybych tušil, že tu vytane jazykovědná diskuze, byl si byl býval připravil tabulku frekvencí výskytu. Tak znovu: sekvenátor pro popis příslušného přístroje a sekvenace pro příslušnou činnost. Sekvenovat a (asi častěji) i sekvencovat. Sekvenační reakce apod. bez "c". Ale dosti nerad bych byl chytán za písmenko, protože bych se snadno mohl nechat chytiti: je to pro mě již přirozené a takto jsem nad tím doposud nepřemýšlel. A jak se to, prosím, popisuje u Vás?

Per aspera, Asparagus et Aspergillus ad a/Astra!

21.11.2008 19:32 Martin Potocký
Rozbalit Rozbalit vše Re: Biologický software pro Linux

Pokud vím, tak sekvencování prosazuje vehementně např. doc. Vondrejs z katedry mikrobiologie a už tím nakazil spoustu jedinců. IMHO je to hnusný slovo v puse se zadrhávající, ať už je česky správně nebo ne.

17.11.2008 18:39 frdrx | skóre: 29 | blog: frdrx
Rozbalit Rozbalit vše Re: Biologický software pro Linux

Jseš to ty, Vojto? Nesnaž se mi nakecat, že se v suterénu říká sekvencovat, sekvencátor nebo sekvencační reakce.

Patička mi slouží k tomu, abych si lépe poznal svoje příspěvky.

17.11.2008 18:49 Nuphar | skóre: 19
Rozbalit Rozbalit vše Re: Biologický software pro Linux

Hmmm... Asi jo, no... :-)

Jo. A říkají se i horší věci. Tahle už je plně zažitá. Sekvencátor tedy ne, ale sekvenátor ano. Častěji asi sekvenovat, než sekvencovat, ale nemáš to daleko, tak si to přijď poslechnout. :-)

Per aspera, Asparagus et Aspergillus ad a/Astra!

17.11.2008 18:53 frdrx | skóre: 29 | blog: frdrx
Rozbalit Rozbalit vše Re: Biologický software pro Linux

Však tam s váma teď budu makat. Hlavně teda příští rok. Teď přes zimu akorát nějaký zkoušky a optimalizace. To jsem si mohl myslet, že jestli se někde nějaká krávovina uchytí, tak to bude u nás :-)

Patička mi slouží k tomu, abych si lépe poznal svoje příspěvky.

17.11.2008 18:46 |🇵🇸 | skóre: 94 | blog:
Rozbalit Rozbalit vše Re: Biologický software pro Linux

Už vůbec nechápu biologický pojem "absorpce" --- to někdo něco absorpuje?

🇵🇸 ✊ Touch grass ✊ 🇺🇦 ✊ ani boha, ani pána

17.11.2008 18:49 frdrx | skóre: 29 | blog: frdrx
Rozbalit Rozbalit vše Re: Biologický software pro Linux

A co deskripce? To je jako od toho, že se něco deskripuje? Jazyky jsou halt podivný svět plný pravidel, vyjímek a vyjímek z vyjímek...

Patička mi slouží k tomu, abych si lépe poznal svoje příspěvky.

17.11.2008 18:57 |🇵🇸 | skóre: 94 | blog:
Rozbalit Rozbalit vše Re: Biologický software pro Linux

To mě zrovna nenapadlo... Taky kravina... Hlavně ta vyjímka. ^_^

🇵🇸 ✊ Touch grass ✊ 🇺🇦 ✊ ani boha, ani pána

17.11.2008 18:59 frdrx | skóre: 29 | blog: frdrx
Rozbalit Rozbalit vše Re: Biologický software pro Linux

Dyť já vym :-)

Patička mi slouží k tomu, abych si lépe poznal svoje příspěvky.

17.11.2008 20:23 petr_p | skóre: 59 | blog: pb
Rozbalit Rozbalit vše Re: Biologický software pro Linux

description [Middle English descripcioun, from Anglo-Norman, from Latin déscríptió, déscríptión-, from déscríptus, past participle of déscríbere, to write down; see describe.]

describe [Middle English describen, from Latin déscríbere, to write down : dé-, de- + scríbere, to write; see skríbh- in Indo-European roots.]

Doporučuji se zaměřit na rozdíl mezi descriptus a describere. Latinu neovládám, ale v české češtině se ve výslovnosti uplatňuje regresní asimilace, což znamená, že znělost poslední souhlásky ovlivňuje výslovnost předchozí souhlásky. Proto si dokážu představit, proč se v latině b změnilo na p.

Pak se takto různě psaná slova dostala do angličtiny (i tam se píšou jinak) a od tamtud je lidé postižení mísením jazyků tlačí do češtiny.

17.11.2008 20:26 frdrx | skóre: 29 | blog: frdrx
Rozbalit Rozbalit vše Re: Biologický software pro Linux

Jasně. Prostě berme jazyky tak jak jsou.

Patička mi slouží k tomu, abych si lépe poznal svoje příspěvky.

V prvé řadě chci podotknout, že článek je velmi pěkný. Chtel jsem neco podobneho napsat do blogu ale ted uz to neni treba :-)

Článek se mi moc líbí.

Jen možna jedna věc (já vim, jsem hnidopich) ale program ARB nepracuje s jedním druhem DNA, ale s rRNA (ribosomarni RNA) a jejima databázema. Používá se to třeba pro fylogenetické studie (viz nedavne zjisteni ze Archebakterie jsou pribuznejsi s Eukaryotou a tedy i lidmi vic nez s Prokaryotou). Ale samozrejme je mozna prace i s DNA sekvencemi, nicmeně ne již ve spolupraci s databazi (na to je lepsi pouzit software od NCBI a jejich databaze).

Pokud jde ale o analyzovani sekvenci (hledani palindromu, tvorba sekundarnich struktur proteinu a tak) nepotkal jsem nic lepsiho, nez ARB.

Diky za clanek

Thats not a bug its a feature :-)

14.11.2008 14:05 Mr Shaman
Rozbalit Rozbalit vše Re: Biologický software pro Linux

Taky bych chtěl poděkovat autorovi za kvalitně napsaný článek. Netušil jsem, že linux nabízí tolik softwaru tohoto druhu. Během příštího týdne si ty balíčky nainstaluju a pohrabu se v tom... Příští rok mě čeká bakalářka a určite by se tady dalo ze spousty věcí čerpat a spoustu věcí se pokusit vylepšit.

Každopádně jsem se chtěl zeptat, co všechno ARB tak ve zkratce umí? Loni jsem do matlabu naprogramoval skript, který mi přečte DNA, provede transkripci a následnou translaci, vyhodí mi teda primární strukturu bílkovin. Ale předpokládám, že toto umí ten program určitě taky...

Zajímavější mi spíš přišlo pokusit se přijít na to, jestli neexistují i nějaké zákonitosti, které by se daly zadat compu, jak se utváří sekundární a terciální struktura, popřípadě k tomu přidat, aby udělal grafický model molekuly.

Sekundární by podle mě nemusela být zas tak obtížná, teda aspoň myslím, přesně teď nevím, kdy se vytváří alfa-helix a kdy skládaný list, ale to se dá vše najít v molekulární biologii.

No teď toho asi moc nevymslím, příštívtýden omrknu ten software a uvidím sam, co umí a co neumí...

14.11.2008 19:15 Dawix | skóre: 2 | blog: biokzvasty | ČB a Linz
Rozbalit Rozbalit vše Re: Biologický software pro Linux

Pokud jde ARB tak ten byl puvodne vytvoren pro praci s rRNA -> takze umi perfektni fylogeneticky "stromecky". Pak taky napriklad zvlada 2D vizualizci nukleovych kyselin. Asi nejlepsi bude tento tutorial http://www.mm.helsinki.fi/users/GJURGENS/Arb/ARB_tutorial.htm

Pokud jde o tvoreni sekundarnich a tercialnich struktur, zni to zajimave, ale nebude to lehky. Zakonitosti je tolik az to neni hezky (mam ale dojem ze nejake programy uz na tohle existuji, bohuzel ale ted nevim jake, ale pokusim se zjistit) Pristi rok v breznu me ceka 14 kurz vypocetni chemie se zamerenim na Unix, takze se planuju podelit o zkusenosti s vizualizaci molekul a molekularni dynamikou tady na ABcku v blogu.

Jinak pokud clovek umi s Matlabem, da se tam udelat temer vsechno. Pak doporucuju Debian a jeho mrtě baliku. Ja osobne ale nejvic pouzivam http://www.ncbi.nlm.nih.gov/ a na proteiny http://www.expasy.org/

Thats not a bug its a feature :-)

17.11.2008 18:28 MaT | skóre: 28
Rozbalit Rozbalit vše Re: Biologický software pro Linux

Určovat ze sekvence aminokyselin něco víc než primární strukturu není nic jednoduchého, jestli vás to téma zajímá, doporučuji třeba knihu Introduction to Protein Structure.

A to je prosím jen "introduction". :-) Jinak proč myslíte, že existují projekty jako Folding@home?

Open source software for open minded people. :-)

5.12.2008 01:02 Fantomas
Rozbalit Rozbalit vše Re: Biologický software pro Linux

Softwary na odhadování sekundární a případně terciární struktury jsou, ale není to žádná matematika, ale multiple sequence alignment na podobném principu, jako třeba BLAST, kdy se vyhledávaj (a doplňujou) části primární sekvence, které jsou v proteinech, jejichž strukturu už někdo vyřešil. Jinak ze samotného exonu se naprosto nedá vypočítat struktura, protože v něm nejsou zapsány posttranslační modifikace, navíc těch volných úhlů, ať už rotačních, nebo torzních je jak na -CO=NH- kostře, tak na postranních řetězcích tolik, že se z toho nedá udělat ani návrh, natož rozumná struktura.

Když chceš strukturu, je potřeba exprese a buď krystalografie, nebo NMR, tahle snadno to nejde...

16.11.2008 21:07 Nuphar | skóre: 19
Rozbalit Rozbalit vše Re: Biologický software pro Linux

Díky. A já měl za to, že to je pro práci s rDNA. :) Mimochodem, neznáte nějaký způsob jak to bezbolestně nainstalovat do RPM distribuce? O balíčku na originálních stránkách mám pocit, že ten jeho instalační proces je hodně divně, jsou nějaké kloudné repozitáře pro DEB, ale pro RPM nic... Řešil jsem to překladem alienem, ale nějak to není ono...
Já to nepoužívám, jen jsem to párkrát instaloval do openSUSE (a pěkně si zanadával)...

Per aspera, Asparagus et Aspergillus ad a/Astra!

Biologický software pro Linux

Úvod

Běžná práce

Matematika, statistika, ...

Molekulární biologie

Závěrem

Související články

Další články z této rubriky

Diskuse k tomuto článku