2011年2月18日金曜日

文字コードェ・・・

配列ファイルの編集をスクリプトを書いて自動でやろうとすると、いっつも文字コードや改行様式に蹴躓いてしまう。

今日はMac Cladeから出力された Sequential PHYLIP formatのファイルを連結しようとして、改行様式を変えていなかったためにUNIXでは改行を認識できず、何でできんのだとイライラする羽目になった。

配列ファイルを編集するときは、文字コードはUTF-8,改行はLFであることを確認するべきですね。

2 件のコメント:

いながいY さんのコメント...

MacCladeのデフォルトの改行形式はCRなんだよね。Patron et al.の解析で100個以上のファイルがCR開業のnex形式で送られてきたときは、ちょっとイラッときた事を思い出した。

改行の形式はどこかで指定できます。あとsequential/interleavedも。なんでinterleavedがデフォルトなのかわからん。

S.Ishikawa さんのコメント...

それは確かにイラッときますね・・・今回はCotEditorで文字コードと改行様式を変更しましたが、正規表現使って一気に変えることもできますよ。MacCladeでもオプションを探してみます。

あと、一回fasta形式で保存して、それをMacCladeでNEXUSなりPHYLIPで保存し直せばデフォルトでsequentialになりますよ。面倒ですけどwww