2010年12月30日木曜日

名古屋滞在記(1)

昨日から名古屋に帰省中。滞在中のホテルが繁華街にきわめて近いということもあるが、やっぱ街だと実感する。つくばとはちがう。

昨日は味仙へいった。目的は「台湾ラーメン」である。何年かぶりに食べたが激辛で、一口目でトウガラシの破片を吸い込み、むせてしまった。た~ま~し~とは違い、吸い込むものではない。口の中もヒリヒリ(他にどこがヒリヒリになったかは書かない)。

ただ行った店が今池店で、ぼくらのホームだった藤が丘店ではないのが残念。台湾ラーメンも店で少しづづ味が違っていたので、ぜひ藤が丘店に行きたい。それと今池店はあまりにも小奇麗になり、違和感がアリアリ。味仙はもっと小汚くてはならない。例えば、想像してご覧、小奇麗な柳仙を・・・

今日は午後に名古屋駅(ジモは「メイエキ」と略す)へ、相棒を見に出かけた。名駅も様変わり、ミッドランドスクエアとかできていてとまどった。ピカデリーという映画館を目指したのだが、見つからない。前の場所とあきらかに違うところにあり、また強い「取り残され」感を味わった。相棒の内容はともかく、自分も含めて観客の年齢層が高く、笑った。今日の客層の中では、自分はまだまだ若輩者だった。

帰りに「とろなまドーナッツ」をお土産に購入した。いろいろTVで話題だが、なかなかおいしかった。

滞在記の2回目があるかは分からない・・・

2010年12月29日水曜日

仕事納め

2010年は今日で仕事納め。
1月5日まではポスドクではなく、父親+夫としての仕事となる。
もちろん、それは子供たちと嫁さんが起きている時間であって、夜な夜なこうやってパソコンに向かい、ときどきはポスドクになるわけですが。

今年最後の仕事としてラボの双子(Mana & Kana)に年明けまでの仕事を仕込んできた。
85タンパク質、約20,000 aa、70 taxaの解析だ。ラボのメインワークということで、そして年末年始と誰もつかわんだろうということでフルコアでやらせてもらっている。さて結果は年明け。

今から来年の初めの解析に使うseq fileの整理を行う。今週初めにやったのだが、プログラムがうまくfileを読みこんでくれなくて走らなかった。そしてK山さん提案の解析のデータ作り。・・・やっぱりあまり仕事納めした感じがないな。

2010年12月28日火曜日

学振PDオメ

Akiくんが学振PDに内定!おめでとう。これで一家で安心してH23年度をむかえられるね!

来年からは神奈川だね。

2010帰省

石川は本日帰省します。

今年の年末は、クリスマスには元気なウィルスをプレゼントに貰って一日中ぶっ倒れるという何とも悲しい体験をするやら(しかもこれが今年”初”の病気でした、どういうことなの・・・)、そのせいでデータが中途半端にしか纏められないやらで、あまり良い感じで一年を締めくくれた感じはしません。

去年立てた自分の目標を見直しても、どれもこれも中途半端にしか達成できなかったというorz


この反省を生かし、来年度の目標(帰りの電車の中ででも考えます)はもっと具体的な目標を立て、各個撃破で手堅くクリアしていくことにします。


そういえばクリスマスに今年一緒に論文を書かせて貰ったJDRさんから年末年始の挨拶+クリスマスカードが送られてきた。外国(といっても在住は日本だけど)の挨拶というのはこうやるのね、と新鮮な経験が出来ました。自分もやってみようかな。facebookも始めてみたし、ISEPで会った人達にでも。


そんなこんなで帰省するわけですが、帰省中は多分NCBIの配列データ群と戦うことになりそう。あっちじゃ飯は出てくる風呂は沸く、掃除洗濯必要なしの快適三昧なので、このクソめんどいルーチンを一気にこなすには年末年始にやるしかない。テレビ?何それ?
まあ当然ラーメンは食いに行きますが。あと雲仙の温泉とか行きたいなあ。


というわけで、D308の皆様、本年も色々とお世話になりました。
お体に気をつけて、良い年末年始をお過ごしください。

See you next 2011 !

2010年12月26日日曜日

クリスマス

昨日の晩は友達家族のうちにお呼ばれで、ワインを散々頂いた。このまえ大洗水族館にいったのも、このU田ファミリーなのである。

娘同士が同級生で、旦那さんは高エネ研の准教授である。僕と違いU田さんは海外出張がおおく、下手したら月に1度は海外らしい。素粒子物理の研究者で、例のノーベル賞を取った人のラボ関連。

彼曰く「バーツク大の素粒子物理の人達、評判悪いよ~」とのこと。付き合いとかが良くないらしい。分からなくはないかも(笑)



そういえば明日の晩は、今年最後のジャザサイズのレッスン。恒例で仮装してジャザサイズをするのである。去年の嫁はショッカーのような全身タイツだったが、今年はセーラー服のコスプレを土浦ドンキで購入してきた。

トキメキ学園 マロンジャケットグラフティ」である。さきほど試着していたので、写真を撮った。さすがに恥ずかしいのでブログには載せられない。

いま検索してわかったけど、4千円以上したんかよ・・・ 真剣に、毎年1回の仮装に4千円を掛けるのはやめてほしいと思う。

2010年12月21日火曜日

いろいろ片付いた(ホッ)

kamiさまの前の投稿通り、「現代生物学」に論文が通った。まあ少し訂正があるが、すでにゴールラインを割っている。2008年のP茄子論文以来の一般誌となった。facebookではたくさんの友達から「おめでとう」のコメントが。正直うれしい。

このrevisionはまさに渾身の一撃。関係者以外の目には触れないが、responseもかなりの出来だと思う。kamiさまと綿密に打ち合わせをし、reviewerをもち上げるところはもち上げ、反論すべき点は反論する、というまさに教科書通り(教科書があるなら)。もてる英語力を最大限に使った気がする。投稿バージョンの議論にはかなりの大穴があったのは反省点。が、なんとかそれをrevisionで埋めることができた。

さてそのほかにも、TNくんの「植物研究」雑誌の論文、kamiさまの「有害藻類」の論文も正式に出版されることになった。すでに2011年度に出版決定の論文は5報。現在投稿中2報、revisionに対するdecision待ち1報、多分すぐにでも投稿可能な論文1報。

あとMKくんから特別研究員の最終報告書が送られてきて、ホッとした。どうもすでにチェコに帰国しており、ネットうまく使えなかったらしい。送られてきた英語版をもとに日本語版も今日作成したので、明日中に学振に送ることができる。ヨーロッパはどこも異常に寒いらしいな。


あと最近「BMC進化生物学」に掲載された論文に使われたリザリアESTデータを、FB君に連絡してGenBankに公開してもらった。

ただFBくん曰く「コンタミ配列がたくさんあるから気をつけて」とのこと。何それ?細胞をあつめてRNAを抽出、それを増幅して454シークエンスしたのだが、どの配列がコンタミなのかどうやって判断するの?

たとえばGBE2009ではRaphidiophrysは緑藻細胞を餌にしていたので、既知の緑藻遺伝子にホモロジーの高い配列が出てきたら、餌細胞由来だと推定し、解析から排除可能だった。

けれども、放散虫細胞内にはいろいろな真核生物が共生しており、何が入っているかわからない。だから、放散虫由来の配列と、それ以外の生物由来の配列を区別するのは至難の業だろ。各EST配列は短いし、系統解析でも由来がハッキリしない可能性が高い。そもそも放散虫類が、既知の真核生物とどのような系統関係にあるかを判らないからphylogenomic analysisをしたわけで。どんな系統樹になれば放散虫配列と見なしてかまわないのか作業仮説がないじゃん。原論文でどうやって区別した?M&Mには書いてなかったぞ。

それとAkiくんが教えてくれたが、"picobiliphyte EST data"なるものがGenBankで公開されたらしい。これも少数の細胞からRNA増幅をして解析した結果のはず。てか、ほんとに「あの」ピコビリかぃ?!一体どんなクオリティーなのかわからん!助けて!

長かった、、、

「科学」へ投稿し、

(2週間のfirst reviewの後)リジェクトされ、

「現代生物学」へ再投稿してから、

早5ヶ月半、





ついにアクセプト!!!!!
ご協力いただいた皆様、ご指導してくださいました諸先生方、どうもありがとうございました。
「科学」が駄目だったのは残念だが「現代生物学」に通ったのは良かった。
ひと足早いクリスマスプレゼント、噛みしめます。5分ほど。


さあ、また次の山のテッペン目指してデータセットと戦おうではないか。
この「ついに終わった!」という達成感とEditorやreviewerからのメールを受け取りたくて、
僕らは日々苦しい作業に耐えるのである。
そして何より、「大」家族持ちのポスドクは、食いっぱぐれのないように、業績をため続けるのである。

次の山がどこになるかまだ分からないが、仮に低い山であっても、全力で登ろう。
そして
「気付いたら高い山にいたわ。」
となるように。

2010年12月20日月曜日

uh......

やっぱりソースコードにパッチ当てる方がいいのかなあ。旧版では出来たわけだし。
基本的なコードが変わっていないことが前提だけれども。

RAxMLのソースコードは比較的見やすいんだが、どのみち結構手間は掛かるよねぇ。Cは長らく触ってなかったし。


ま、現行の方法に問題があり、かつそれがこちらの方法では解決でき、かつそれが必要になったらやろう。

来年CSの方の大学院試験受けるときに勉強がてらソースを解析するのもいいかもしれない。あっちに行ったらこの手の研究にシフトしていくことになるだろうし

何か作ってみた2

下の考えから、RAxML最新版の使ってブートストラップ解析するとき各サンプルにおいて通常のML探索と同様に複数系統樹を使って解析ができるようなスクリプトを書いたわけであるが、ぶっちゃけSeqboot使ってブートストラップデータを出力してそれをいちいち自分でコマンドを指定して解析するのを自動化しただけだけどね。

まあ、複数遺伝子でそれをやるときにちょっと操作がめんどくさかったけど。

ちなみに、複数遺伝子解析(塩基配列とアミノ酸配列の混合データ含む)では、一度配列をばらし、それぞれの遺伝子についてSeqbootでブートストラップデータを作成し、それを改めてがっちゃんこする方法をとった。

これは、結合データをそのままブートストラップリサンプリングしたら、各サンプルにおいて保持されるべき本来の遺伝子の配列長が変化してしまうからであり、多分基本的にはこれでいいと思う。ただ、RAxMLで複数遺伝子使ったブートストラップするときに具体的にどういう風にやってるか詳しく知らないので、細かなプロセスが違うかも知れんが。そこらへんはseqbootの方のオプション指定でなんとかなるかね。


また、RAxMLの方でブートストラップデータを作るコマンドはあるが、これで出力されるデータがあまりにもむちゃくちゃ(Aが100以上続くとか)なもので正直信用できなかったので、今回はseqbootを使うことにした。



また、このスクリプトでは各サンプルにおけるML探索を並列処理(RAxMLの並列版を使うだけ)がすること、またサンプルの解析自体も並列に行う(forkを使って例えば2サンプルずつ解析を進める)こと、これらを組み合わせて行う(前者に2スレッド、後者に4プロセス当てはめて8コア使うとか)ことができるようにした。

あと、これは単一遺伝子解析でも、複数遺伝子解析(Concatenate model or Separate model)でもできる。


まあ、こんくらいのスクリプトだったら探せば他の所にもありそうですが(笑)


とりあえず、塩基単一、アミノ酸単一、塩基+塩基、アミノ酸+アミノ酸、塩基+アミノ酸それぞれのデータを使って動作確認をし、ちゃんと動いたのでWikiの方にあげときます。需要があったらどうぞ。


全く使われないのもアレなので、何かいいテストデータ集めて色々検証してみますか。
ちょっとネタになるか考え中。。。

が、もう眠いのでもう寝る。疲れたぜ・・・

何か作ってみた

シミュレーションのデータ取りの合間に、ちょっとした思いつきでスクリプトを書いてみた。

問題提起としては次の通り。


RAxMLの最新バージョン(7.2.6)では -uオプションが使えず、これによってブートストラップ解析において各replicateに対し複数の初期系統樹を使ったML探索が出来なくなっている。

このことについては,作者の主張としては

「100のbootstrapサンプルに対し10回のML探索を行うよりは、1000サンプルに対し1回ずつ探索を行う方が良い結果が得られる」

ということである。

ただ、この主張に対しては疑念はある。それは、

「配列数、配列長がかなり大きくなった場合、各replicateにおいても全体としての探索空間がもの凄く広くなってしまう。その場合(RAxMLの探索効率が既存のソフトウェアの中では優秀な方だとしても)、デフォルトでの一回のML探索をやるだけでは探索の非効率性がBP値に影響を与えてしまうことが考えられる。」

ということである。

すなわち、例えばある枝に対しBP=50が得られたとして、それが純粋にBP値の定義通り「ある枝の分岐を指示する情報が、配列のサイト全体に対しどの程度の割合で含まれているのか=配列データがその分岐を全体としてどれだけ指示するか」ということを指すのか、それとも「多くのサンプルにおいてML系統樹の探索漏れが生じている」ことの影響が多分に含まれていることをも含んでいるのか、が分からないことが問題である。

あるいは、単純に各サンプルに対する探索効率が悪化することにより、各サンプルにおいて局所解に捕まりやすくなってしまうことも考えられるだろう。

従って、これらのよろしくない要因が結果としてのBP値の過大評価or過小評価に繋がることは十分に考えられる。んでこれらの影響はブートストラップの試行を繰り返してもかなりぶれるかもしれない。

簡単に言って、Phylogenomicクラスの解析でも、そういった要因からブートストラップ解析を何回かやったら+-10くらいBPがぶれてしまうような解析結果なんて議論に値しないでしょ?ということを言いたいのである。

じゃあこれをどうやって解決するかと言うことだが、まあ一番単純なのはbootstrapの各サンプルでのML解析を複数初期系統樹から行って、解析の精度を上昇させることだろう(探索結果の試行によるブレの減少)。これでも限界はあるけどね。

なお、今回の場合は配列データに強力なバイアスがあってML解析そのものがそれに強く誘引されてしまうようなケースは問題が根本的に違うのでこれを考慮しない。


長いので分割

2010年12月19日日曜日

メモ::PHYLIPでInterleavedの配列をSequentialに

PHYLIP形式では配列の表記方法にInterleavedとSequentialというものがある。

通常系統解析をするだけならこの表記方法の違いにはあまり問題はないが、配列ファイルを弄くったり、様々なソフトを同時に使って同一の配列データを解析したりする時には結構これに悩まされる。

自分の経験では配列ファイルはsequentialの方が操作がしやすいが、主に配列エディタで使っているSeaviewで配列をPHYLIP形式で保存するとInterleaved形式でしか保存できないので、かなり困る。


以前までは正規表現使って無理矢理形式を変えたりしていたが、今日見つけたのは

「RAxMLで -f sオプションを使う」

というもの。

これは本来複数遺伝子連結データを各遺伝子に分割するためのオプションだが、これを使うときに全てのサイトがただ一つのパーティションに含まれるようなpartition fileを指定すれば、配列データは分割されずに再出力される。で、このオプションでは出力されたファイルがデフォルトでSequential形式になるというわけ。

とりあえずはこれが一番手軽な方法かねぇ。ただこの場合も配列名の長さ(11文字の制約)に気をつけなければ、RAxMLでは読み込めるがPHYLIPとかだと読み込めないとかいうことが起こるのでその点は注意。

2010年12月18日土曜日

ひゃああああああああああああああ!!!!!!

造型工房パオのマザーレギオン売り出しきたああああああああ!!


そしてこれを速攻でゲットオオオオオオ!!


やばいもの凄く嬉しい。もうこれでガレキに悔いはない(涙

2010年12月17日金曜日

スペック最終回

大好きな、戸田恵利香主演の「スペック」最終回だった。マジか… なんだこのモヤモヤ感は!

「ケイゾク」もこれほどではなかったが、昔に見た「Twin Peaks」の最終回並みの未消化感…

公安零課の課長・津田助広、ホントは誰だ?なんでニノマエのところで野々村課長はビックリしてたのか?

「映画かなんてしねぇーし!」って、この流れならするでしょ。



今日の昼はMちゃんと有機酸くんと食べたのだが、そのときMちゃんがハブられていることが判明して、ちょっと笑ってしまった。本人はそれほど気にしてなかったけど。


これからもう一回スペック最終回見てみる。

OH!YEAH!SHE las。

昨日から歯が痛い。

ので本日シークエンスをかけてから歯医者に行った。

どうやら親不知と歯肉の間で炎症が起こってるみたいです。

来年頭に親不知を抜くべきとの判断。

来年は痛みとともに始まるようです。


卒論のタイトルを考えなくては!!

2010年12月16日木曜日

エディタ探し

素人レベルながらちょいちょいコードを書く身としては、やっぱり自分のニーズに出来るだけあったエディタを使いたい。これは生産効率にモロに影響することなので、拘っておくべきところである。


機能面で言えばEmacs一択なのであろうが、まだEmacsの使い方に慣れていないのと、もうちょい手軽に使えるエディタも欲しい。


GNOME標準のエディタは手軽さは随一だが、正規表現を使った検索&置換が出来ない。これはプログラムを書くときや、もっと身近な例を挙げればNewick形式のTree fileにおいて枝長を一括削除する(¥d+¥.¥d+)といったことが出来ないので、これはよろしくない。


ということでDebianパッケージにあるエディタを色々試した結果、meditというエディタが自分にとって一番いいということになった。

正規表現を使った検索置換。また大抵のプログラミング言語には対応していること、mismatchingしている{}をハイライトしたり行末の空白をハイライトしたりといった細かな設定も変えられるし、プラグインを導入して更にカスタマイズすることもできる。
またサイドバーにフォルダやファイルのリストを表示or非表示することも出来るので、これらのポイントからかなり便利なエディタだと思う。


ということで、こいつを自分のデフォルトのエディタに決定。

大体環境整備も終わったので、これからまたスクリプトを書くお仕事に戻る。
今日で大まかなスクリプト完成。明日でデバッグ。休日にデータ取りといけることが出来れば御の字である。

2010年12月15日水曜日

メモ::DebianでのPATH追加設定

各ユーザごとにPATHを追加する場合は

~/.bashrc

にexportなどの記述を追加すればいい。

また、システム全体の環境パスを設定したい場合は

Debianは

  1./etc/profile
  2./etc/bash.bashrc
  3.~/.bash_profile  もしなければ3-1へ
   3-1.~/.bash_login もしなければ3-2へ
    3-2.~/.profile
  4.~/.bashrc


という順番に設定ファイルを読み込むので、


1,2あたりに記述を追加すればいい。

2010年12月14日火曜日

メモ::GCC最適化オプション

PhyloBayesとnh_PhyloBayesがやっぱりiccでコンパイルできなかったので、とりあえず暫定的にGCC4.4.5でコンパイルすることにした。

最適化オプションは次のとおり


-march=core2
特定CPUのみに対する最適化オプション。=nativeは4.4ではコンパイルがポシャることがあるらしいのでやめといた。

-funroll-loops
ループ展開(loop unrolling)による最適化を実行。

-fno-math-errno
errno をセットしない

-fomit-frame-pointer 
フレーム・ポインタを必要としない関数においては、フレーム・ポインタをレジスタ内に保持しない。これにより、フレーム・ポインタの待避、セットアップ、復元を行う命令を使わずに済むようになる。 

-frerun-loop-opt 
ループ最適化を2回実行。 

-finline-functions
単純な関数はすべて、呼び出し側に統合(インライン展開)する。
  
-fforce-addr
メモリ・アドレス定数に対する算術演算が実行される前に、それをレジスタに強制的にコピーする。
  
-fforce-mem
メモリ・オペランドに対する算術演算が実行される前に、それをレジスタに強制的にコピーする。

-mfpmath=sse
-msse4.2
ともに浮動小数点演算のSIMD拡張命令セットに対する最適化。Core i7はSSE4.2(4.3だったかな)に対応。

2010年12月13日月曜日

メモ::iptablesむずいお

とりあえず参考として
こことここ
http://sato-si.at.webry.info/200703/article_2.html
http://blog.chibiegg.net/2007/11/17_00_62.htm

を参考にした。

iptablesはかなりルールとか詳細に決めないときちんとしたファイアウォールが組めないのであるが、勉強するとそれこそ1、2週間くらいはかかりそうなので、今回は別にサーバ運用をするわけでもないのでおざなりの設定だけしとく。


Debianでは通常存在する/etc/init.d/iptablesが存在しないため、代替のスクリプトを書いてそこに置くか、/etc/network/interfacesに
iface eth0 inet dhcp
pre-up /etc/myfirewall.sh
と書くかであるが、今回は前者でスクリプトを転用させて貰った。




とりあえずはこれで大体の整備は完了かな。


あとは系統解析のプログラムを入れるだけ。

メモ::Windows + Debianのファイル共有

DebianとWindowsのデュアルブートに関してはインストールの段階で特に問題はない。

そして、デュアルブートしているWindowsのあるドライブ(Cだと問題があったときに危険なのでそれ用のドライブDとかを用意しておく)をマウントするためには、


まずntfs-3gを導入する。

$ apt-get install ntfs-3g

そして、/etc/fstabの内容を編集する。

# /etc/fstab: static file system information.
#
#                
proc       /proc      proc    defaults        0     0
/dev/sda5  /          ext3    errors=remount-ro 0   1
/dev/sda6  none       swap    sw              0     0
/dev/sda3  /D_drive  ntfs-3g users,auto,exec,rw,
umask=000,co$

mount pointはお好みの所で。
 
typeの所にntfsではなくntfs-3gと記述すれば起動時に
自動的にマウントする。
mountのオプションではusersでroot以外のユーザでもマウント
可能に、またrwで書き込み可能な状態でマウント。
 
あとはman mountで確認してくれぃ。 

2010年12月12日日曜日

告知

第14回つくば藻類・プロティスト研究フォーラムです。超年末ではないですか。

日時:12月20日(月)16:00-18:00
場所:総合研究棟A110(公開講義室)

古澤 力(大阪大学 情報科学研究科 バイオ情報工学専攻)
「ゲノムスケール代謝モデルを用いたSynechocystis PCC 6803 の代謝解析」

吉田 昌樹(筑波大学大学院 生命環境科学研究科)
「ゲノム情報と微細構造をつなぐMALDI-TOF」

メモ::SElinux on Debian lenny

Debian lennyではデフォルトではSElinuxがインストールされてはいるがactiveになってない。

これをactivateにするには

 apt-get install selinux-basics selinux-policy-default


して


selinux-activateを実行して再起動


ちなみにSElinuxとはセキュアOSの一種であり、ファイアウォールなどとは別種のコンセプトに基づくセキュリティシステムのようなものだと理解している。

SElinuxでは各プロセス(root権限のものも含む)とファイルやディレクトリなどのリソースに「ラベル」が張られることにより、プロセスごとにアクセスできるリソースに制限をかけることができる。


したがって、例えばセキュリティホールの穴を通ってやってきた侵入者に対して、例えばWebサーバに侵入されroot権限を奪取されてしまった場合でも、その状態からアクセスできるリソースはHTTPに限ったものになる、という防御手段を取ることが出来るわけだ。

メモ::ICC for MrBayes & RAxML

ICCを使ってMrBayes及びRAxMLをコンパイルする時のオプション。

MrBayes3.1.2,RAxML7.2.6を使って

単一スレッドバージョンの場合(RAxMLはraxmlHPC-SSE3-gcc)

Makefile内のCC=gccをCC=iccに
さらにCFLAGS(OPTFLAGS)に以下のオプションを記述する。

-O2 = 最適化オプション(最適化をやりすぎると精度が落ちるので注意)
-mp1 = 精度を優先させ、IEEE754規格に則った浮動小数点演算コードを生成。
-ip = 1つのソースファイルにあるプロシージャ間の解析、最適化を行う。
-ipo = 複数のソースファイルにあるプロシージャ間の解析、最適化を行う。
-xHost = コンパイルを実行したプロセッサのみに最適化(Core i7なら-xSSE4.2とかでもいいかも)


とりあえずこんなとこ

並列処理バージョン(raxmlHPC-HYBLID-SSE3)では

CC=の記述を変え、CFLAGSの記述には-O2,-xHostを加える。その他のオプションを加えるとコンパイルはきちんと動かなくなった。原因はよく分からない。CFLAGSでの記述はMakefileではなくコマンドオプションでOMPI_CFLAGSで加えてもいいみたい。

その上で、makeのときOMPI_CC=iccのオプションを加える。

メモ::Debian GNU/Linux Install

Debianの利点はパッケージの数と管理のしやすさ、64bit環境での安定性(今まで使ったDistroでは一番安定してる感じ)である。ただDebianを使う場合は環境設定を自分である程度出来ないといけないので、それを今回ある程度ちゃんとやってみた。Debianでそういうことに慣れて、最終的にはArchとかに収束できればと思っている。

1、とりあえずDVDを使ってインストール。グラフィカルインストールだとインストール直後の日本語入力が出来ない場合があるので、テキストモードでインストールした方がいい。Windows 7とのデュアルブート

2、ビデオカードのドライバ導入
PeggyはnVIDIA GTS 250を使っている。
まずは、
 $ sudo aptitude install build-essential linux-source linux-headers-`uname -r` xserver-xorg-dev 

その後、公式サイトからドライバをDLする。実行権限を与えて
[Ctrl] + [Alt] + [F2] を押して、テキストモードに。
ユーザ名とパスワードを入力。
GDM を停止して X を落としてから、インストール。
$ sudo /etc/init.d/gdm stop 
$ sudo sh NVIDIA-Linux-x86-100.14.11-pkg1.run 


あとは再起動でおk。


3、日本語106配列キーボードの認識
そのままだと幾つかのキーが認識されない。今回は } が認識されなかった。これじゃコードが書けん。



/etc/X11/xorg.confに
以下の内容を書き込み、再起動すると改善する.

Section "InputDevice"
  Identifier   "Keyboard0"
  Driver       "kbd"
  Option       "XkbLayout" "jp"
  Option       "XkbModel" "jp106"
  Option       "XkbRules" "xorg"
EndSection
4、Dropboxの導入

DropboxのサイトからソースコードをDL。

$ apt-get install libnautilus-extension-dev libnotify-dev python-docutils

↑これをやっておく。色々何がないと言われるが何とかなる。

普通にコンパイルしておk。

5、ICCの導入。
64bitでもDebianではデフォルトで何もしなくてもICCがインストールできる。
ICCのパスを通すために

/etc/profileに

source /opt/intel/.../iccvars_intel64.shを追加。

6、ssh

$ aptitude install ssh

でopenssh-serverとsshを導入。

ただ、双子にログインするとき公開鍵を作ってもPeggyからパスなしで入ることが出来ない(逆は可)。sshd_configを編集して双子のOpenSUSEの設定とほぼ同じにしたが解決せず。まあでもとりあえずはこれでいいや

ちなみにnetworkの再起動は/etc/init.d/networking restart

!?

今日は秋葉原で部活の納会。



上は80くらいのお爺さんから下は引退したばっかの四年生まで集まり、座敷を貸し切って酒を飲みながら、テニスの話を交えつつ一年の総括を行う。


そこでOBOGも近況を報告するのだが、そこで現在非常勤講師をやってる同期が突然「結婚しますた!」とぶち上げた。


僕は全然知らなかったので、当然


( ゚д゚)


( ゚д゚ )


こうなった。


いやあびっくりしたね。

個人的には結婚が幸福なことかについては現在は否定的な意見を持ってるが、それは自分自身についての話であって、同期の人間の結婚話は純粋に喜ばしい。おめでとさん。


とりあえず疲れた。明日は一日Linux整備だ。

2010年12月11日土曜日

キーボードに拘ってみる

まあウェットの実験でも余裕があればいいピペットマンを使いたいのと同じで、自分にとって使い勝手がいいキーボードを探してみたわけである。


とりあえずテンキーレスは言わずもがな、その上で標準配列のキーボードが欲しかった。

標準配列にしたいのは一つにはLinuxで幾つかのディストロではキー配列をきちんと認識させるのにすごい手間がかかるから。HHKL2もこの点で問題があった。また標準配列であれば自前でないコンピュータを扱うときにもタイピングに支障がないから。その点で言えば今まで使っていたHHKL2は変態配列とは言わない(むしろCtrlの位置とかは非常に効率的だった)までも、ちょっと扱い辛い点はあったといえる。


そう言った条件では選択肢がかなり限られているが、今回はFilcoのキーボードを採択した。

実験室用と自宅用で、打鍵感の違いも試すためにZEROの白軸とMajestouchの黒軸を購入した。

結論としてはMajestouchの黒軸が自分にとってベストフィットのキーボードだった。HHKL2に比べればストロークがほんの少し浅く、打鍵感も軽めなので、結構強くタイピングする自分にとっては最初は少し物足りない感じもしたが、慣れてみるとスコココココ!という感じですごくスムーズにキーが打てる。


白軸の方はこれよりも抵抗が少ないが、代わりに打ち終わりにクリック感があってこれはこれできちんと押した感があって気持ちいい。ただ、メカニカルキーボードの名の通り打っているとカチカチカチというクリック音とカーンという金属音が結構五月蠅い。打っている本人はそんなに気にしないが、パーティションとかで仕事するときにはちょっと問題になりそう。なのでZEROの方は自宅用にした。


ともあれ、どちらも買って損はない品物。Linuxとの相性もいいし今後はこのキーボードを相棒にしよう。HHKL2はサブの双子さんの所へ移動した。

また、Logicoolのトラックボールも安かったので試してみた。確かにマウスをガチャガチャ動かすよりはずっと効率的。もうちょっと慣れれば抜群の操作感が味わえるだろう。


ま、道具だけ良くてもそれをうまく使えなければ猫に小判なので、自分のタイピング能力ももっと鍛える必要があるし、キーボードショートカットもマスターしないとイケナインデスケドネ。

ICCとか諸々

現在PeggyのOSをまた変更中。
理由は64bit SUSEがPeggyマシン上では安定しないため。

MacにBootcampで入れたのはかなり安定してるのにね・・・・何じゃろ。

今度はDebianを入れる。前に入れようとしたときには色々と面倒で敬遠してしまったのを再チャレンジである。Linuxは手軽にディストロが交換できるのが利点の一つですよね。


ディストロを変えるにあたって注目したのはICCの導入である。

Debianでは64bitでもICC自体は素直に導入することができたが、前々から躓いていたOpenMPIをICCでビルドするのは相変わらずできない。

自分が持っているのはCCコンパイラだけなので、ifortとかも必要なのが原因の一つであると予想している。というか吐き出されるエラーメッセージを見てもこのくらいしか解らん。余裕があるときにでもICCパッケージを揃えたいものだ。OpenMPIをICCでビルドできれば更に計算速度の短縮が期待できると思われる。

ICCに拘るのは系統解析の速度が格段に上昇するからである。RAxMLとかではそこまで目立った効果は見られなかったが、MrBayesでは効果覿面。特にMPI版で。

具体的には、100taxa弱の1遺伝子アミノ酸解析(4~500aa)のデータセットで比較した場合。同じ64bit環境で、GCCでビルドしたmbを8コアで走らせる場合と、ICCでビルドしたmbを5,6コアで走らせる解析が同じくらいの速さ。


なんだそんだけか、と思うかもしれないが、この効果は使えるコア数が上昇することで驚くべき違いになる。

系統解析ソフトウェアの開発では、個人的にはハードウェア的な問題よりもソフトウェア的な問題がより重大であると考えている。すなわち、より高性能なプロセッサを作ったりとかいうよりは、より高速な言語でより効率的なアルゴリズムを採択した最適なソースを書き、それをより高性能なコンパイラでコード生成を行うことを優先課題とする。ここら辺は系統解析のプログラムが「誰でも簡単に使えること」もある程度考慮していることにも起因している。しかしながら、これらの功績というのは、例えばクラスタを使ったりとかハード的にも豊富なリソースを確保することでより昇華されるだろう。

特にこれからPhylogenomicで大規模データセット解析をバンバンやるような時代になるだろうから、それを踏まえて新たなプログラムを開発することは必ず需要のあることだろう。僕もそういうようなことをしていきたいと考えている。



現状ではPhylogenomicに適したプログラムとは「複雑なモデルを使うことが出来、かつそれを使った計算を並列処理などにより高速に実現できる」ものであろうが、現存する最尤法、ベイズ法はそれに対して各々問題を抱えている。

ベイズ法は複雑なモデルを実装することには適しているが、現行のMrBayesなどのプログラムはMCMCを採択するため、並列処理の際プロセス間で同期をとる必要があり、これが高速化に対する足枷となる。
また、最尤法は各プロセスを同期させる必要はないため高速化には向いているが、ベイズ法のような複雑なモデリングができないのである。

ベイズ法であれ、最尤法であれ、これらの問題をどう解決するかが次世代のソフトウェアに求められることである。

話は変わるが、樹形探索については遺伝的アルゴリズムを採択するのが高速なプログラム開発には向いているらしいが、大規模データセットを解析する際に遺伝的アルゴリズムが「最適化問題に対するアプローチとして最も効率的であるか」は解らない。

聞いた話では、系統樹構築のような最適化問題には遺伝的アルゴリズムよりはタブー探索の方が樹形空間の探索効率という面で考えればより適切であるとのことであるが・・・例えば最初はタブー探索によって広域に探索を行い、ある尤度の山が他の尤度の山よりは高いだろうという予測が「ある程度」立つならば、その後その山の頂上を目指す際には遺伝的アルゴリズムに切り替えるとか、そういうのは可能なのだろうか・・・?


話が脱線してきたからここでやめとく。
そういやPhyloBayes,nh-PhyloBayesもICCでコンパイルできなかったのだった。これは日曜日にでもチャレンジしてみるか。

2010年12月10日金曜日

4月にイギリス

この前出したTraining CourseのApplicationが無事受理され、4月にHinxtonに行けることになった。


Bursaryが取れなかったのはちょっと残念。
旅費は全額支給されるが、食費、宿泊費込みの参加料が大学側からどれだけカバーして貰えるかが心配。

とりあえず来月21日までに1490ポンド(約20万)振り込めとの要請が・・・おおう


当面は大ボスに負担して貰えることになったので、校費でカバーできなかった分は大ボスにお返しすることになる。大ボス親切だ・・・


来年度はもう一つ同じようなものに応募する予定だが、こちらには大学院の共通科目として海外に行く学生に資金援助をするプロジェクトがあるので、これを利用してなるべく負担を減らしたい。


なにはともあれ、行けることになって良かった。
実はこれが自分にとって初めての海外渡航になるので、ちゃんと準備して行かなきゃ。



RAxMLの作者とかも来るみたいなので、疑問に思っていることをいろいろと聞きたい。
出来ればついでに共同研究のネタとかゲットして帰ってきたいなあ。

2010年12月9日木曜日

↓その3

スタッフの皆様シンポジウムお疲れ様でした。僕も含め。


全体的に自分の興味と合致する発表が残念ながらあまりなかったのですが、お金は貰えたし、暇なときは統計数理の幾つかの論文など、時間あるときに読んでおこうと思って貯まっていたペーパーを読むことが出来たのでそこそこに有意義でした。

JMAの発表が一番聞きたかったけど、運悪く照明係と被ってしまったのでスライドが全く見られませんでした。


とりあえず、シンポ中はドーナツやらケーキやら甘味ばかりだったので、帰りにY崎と食べた活龍がものすごく旨かった。


神戸の分子生物学会では、「脊髄損傷したサルをiPS細胞による治療で歩けるようにまで回復させた」という発表が話題みたいですね。詳細が聞ければお土産話に持って帰って来てください。

こういう研究は科学的興味というよりは実用性の観点から、早く発展して脊髄損傷であろうとがんであろうと治療できるというようになってほしいものだ。ともすれば人間の寿命も延ばす、とかね。

国際生物学賞記念シンポ乙

バイトのみなさん御苦労様でした。scientificには昆虫-バクテリア共生系の「祭り」だったわけで、ぼくが面白かった、つまらなかったというべきものではない。極私的にはHaward Ochmanの話は興味深かった。LGT関連の仕事を精力的にしてきた彼なので、gene gainに関する話題も聞きたかった。

Nacy Moranのトークはやはり部外者とはいえ面白かった。それ以外の昆虫系の話を一切聞いていなかったので、新鮮だったのかもしれない。ただ前半はredundant(ちょっとログアウト)、後半のゲノム進化の話題は自分の興味ともoverlapし、おもしろいと思った。初日はこれだけ。

2日目はJMAのトークから参加。「Norwayでも話を聞いているしなぁ」、とかいっていたが、トークが始まったらISE2010には遅れて参加、JMAの話は聞いていないことを思い出した。最後の1枚のスライドが劇アツであった。MKくんがチラッと話してくれたヤツだ。その後彼と詳しい話を聞き、P茄子に掲載決定しとの原稿も送ってもらえることに。読むのが楽しみ。56さんの論文も「ゲノム進化と生物学」にin pressとのこと、こちらも楽しみ。これ見てたら原稿送って、56さん。

Kamiさま、K山さんとの雑談で、あたらしいコラボのネタが生まれた。これだけでも午後を国際会議場で過ごした価値があったと思う。やはり雑談からいいアイディアが生まれる。かしこまって、「さあ何か新しいことを始めましょう」なんて会議で、うまくいったことがない。

これから神戸のBMB2010へ向かう。おもろいことがありますように。

2010年12月8日水曜日

国際生物学賞シンポジウム

マジで疲れました。

初投稿です。


とりあえずお疲れさまでした。
スライドが見えない位置で、演者のお尻しか見れない状態でタイマーと照明をやりつつ5時間発表を聞くのはしんどいです。

途中ボーっとしてしまって一回目のベルを鳴らし忘れてしまった・・・

発表者も大変だろうけど、スタッフも大変なんだなぁと、ISEPも含めて思う今日この頃であります。

それにしてもT田秘書はアクティブすぎる。

ちなみにFKSMHKは朝ご飯にと2日連続でお昼のお弁当を持ってかえってました。

2010年12月7日火曜日

最後の力で、、、

先週から体調がすこぶる悪い。
おそらく(というか絶対)娘たちの鼻水からやってきたvirusesかbacteriaのせいだと思う。

そして明日はIPB、声が出ません!頭痛いです!鼻水垂れ流し!どうしましょう!?

今日は早く寝て明日に備えねばヤバい。

そう思って最後のメールチェック。

AJRから新しいメールが一件。

Hi,

I'm attaching my comments on the cover letter. I think you can submit it any time now.



さきほど、最後の力を振り絞り、submission approvalボタンをポチっとな。
これで通って、お願い。そしておやすみなさい。。。

2010年12月6日月曜日

JBTBD

タイトルは何の事だかわからないだろうが、最近創刊されたOpen Access Journalである。JBTBDとは"Journal of Bioterrorism & Biodefence"の略だ!

なぜかわからんがemailで投稿のお誘いがどんどん来るのだが。自分の研究テーマと照らし合わせても、多分投稿することはなさそう。でも自分のpublication listにJBTBDの論文が1つ位あっても、ちょっといいかなぁなんて思ったり。

ロリータ目撃情報

金曜の夜、天久保のセブン前のバス停で、バスを待つロリータ1名を目撃した。すごく周りから浮いていた。

ヒ素をつかうバクテリア、凄い!生育環境に2次的にアダプトしたとはいえ、生物の柔軟性を思い知らされた。所詮生物は保守的で、「とりあえず不都合のないシステムなら変えない」わけだが、ここまで行けますか?それこそエイリアンなんてホントにいたら、僕らの想像もつかない遺伝情報伝達機構や遺伝情報発現機構をもつ可能性がある。だってリンの代わりにヒ素使うなんて想像していた人いるか?炭素の代わりにケイ素、はなんどか話を聞いたことあるけど。

反物質といい、最近サイエンスがなんか凄くないか?

今週は、国際生物学賞記念シンポ(つくば)、分子生物学会(神戸)と忙しい。国際生物学賞記念シンポはまあOchmanくらいかな、聴きたいのは。JMAは秋にTromsoで会ったし。あとは…ふふふ。

2010年12月3日金曜日

2010年12月1日水曜日

See you soon!



○artin & ○achelペアが帰国した。

彼が来日してから早二ヶ月、、、あれ?
もうそんなに経ちました?

彼が来てからいろんな実験が進んだと思う。
EST用RNAから大規模解析のデータセット、そして海底泥からのbugsの株化。
実験初日にピペットマンをぶっ壊したのには驚いたがすばらしい二カ月だった。

来年のSMBEで会えればいいな。

最後に彼はI垣先生へのお詫びだと言って四千円置いていった。
先生の貸したマットレスに「何か」生えてきたらしい。「何か」とは何か気になるところだが、○artinは
「たぶんfungusか何か。fungal taxonomyに興味はないよ」
と言って爽やかに笑っていた。
たぶん程よい湿度と栄養塩の供給があったからこそ生えたのだと思うが、その供給源は?
謎は深まるばかりだが、その謎が解明される前にI先生はマットレスを捨てるだろう。

AU大丈夫だた

仮説検定において対数尤度がより大きい樹形が棄却されているのにもかかわらず、より小さい樹形が棄却されないというのは当然あり得ることだった。

何故ならばAU検定とかの仮説検定は対数尤度の差そのものではなくサイト間での分散を考えて検定を行っているから。

僕の思い違いだったorz
検定とかの原論文もちゃんと読まないとねぇ。。。


ただ、RAxMLで分離モデルを使ったときに、-qオプション使って探索させて得られたMLの尤度と、manuallyに配列データを各partitionに分けたものに対してそのML樹形について再度partitonごとにパラメータ最適化させて計算させた各尤度を合計したものが全然違うという問題が解決してない。

これも僕の思い違いでなければ両者が一致すると思うんだが・・・

Treefinderとかだとどうなるんだろう。