Cytoscapeを使って公共のデータベースからネットワークを作成する②

今回は、同じものを示すにも関わらず異なるものとしてインポートされたものを含むネットワークをマージする方法を調べました。

 

前回BioGridとStringからそのままネットワークを作成したところこのようになりました。

f:id:am_takahiro:20131211152145p:plain

青、オレンジのノードの塊があるのがわかりますが、実際のところこれは2つともほぼ同じものです。

これでは困るので、これらをマージする方法を調べました。

 

Cytoscapeのwikiによると、Cytoscape自体の機能としてこれをできるものはなく、外部の信頼できるツールを併用する必要があるそうです。

またCytoscape3の新規の機能としても公式のガイド、チュートリアルをみたところ特に追加されてなさそうです。

 

以上のことを受けて、BioMartを使ってIDを変換し、それをインポートする方法を調べました(途中)。

 

BioMartを使ったIDの変換

BioGridから作成した方はentrez geneを、Stringの方はUniprot IDをshared nameに使っているので、まず下記の動画を参考にBioMartを使ってEntrez Gene IDからUniprot IDを取得しました。

http://togotv.dbcls.jp/20120127.html

 

CytoscapeでStringとBioGridから取得したデータを元にしたネットワークを別々に作成する

→BioGridから作成した方のentrez geneのデータの入ったテキストファイルを作成する

→上記の動画を参考にIDを取得し、保存する

csvファイルにする

→ネットワークにそのデータを取り込む(ここのマージはshared name名が同じならばCytoscapeの方で勝手にやってくれる)

まで行きました。

 

最初、txtファイルにしたりcsvファイルにしたりするときに区切り文字の設定をいい加減にしていたらうまくBioMartの方で処理してもらえず詰まりました。

txtファイル時に""やタブが入らず、各IDが行替えのみで区切られるようにしたらうまくいきました。

IDは取得できないものもあるようです(再現性あり)。

 

Memo

http://wiki.cytoscape.org/Advanced_Network_Merge_and_ID_Mapping: マージの仕方

http://cell-innovation.nig.ac.jp/wiki/tiki-index.php?page=GRCh37%E3%81%A8Hg19%E3%81%AE%E9%81%95%E3%81%84(%E5%90%AB%E3%82%80%E3%83%9F%E3%83%88%E3%82%B3%E3%83%B3%E3%83%89%E3%83%AA%E3%82%A2) GRCh37とHg19の違い

 

Cytoscapeを使って公共のデータベースからネットワークを作成する①

Cytoscapeを使って実験データを可視化するではSampleDataの中に入っているマイクロアレイの実験データを作成したネットワークに入れ、さらにその結果を可視化しました。

 

次は、Cytoscapeを使って公共のデータベースからデータを取得してネットワークを作成する方法を紹介する動画を作成します。

元々は前回の動画の一部として2分程度で紹介するものを作りました。しかし、もっと深く踏み込めるということで、

・取得するデータベースによって(種類、数)、どのように結果が変わるか

・得られたネットワークはそれらしいか(ちゃんとクラスターの中心は検索した遺伝子(HDAC1)か。他の遺伝子はHDAC1と関係する遺伝子か)

というのを調べます。

 データベースの選択の仕方によるネットワークの違い

HDAC1からいくつかのネットワークを作ってみました。

(ネットワーク作成→"Apply Prefered Layout")

なお、

ノード色

です。

 

Stringのみ

f:id:am_takahiro:20131211152151p:plain

各種ごとにきれいに分かれました。

各集団で中央にあるのが

  • マウス→HDAC1
  • ヒト→HDAC2
  • アフリカツメガエル、アメリカムラサキウニ、ニワトリ→HDAC1

です(見えにくいですが、白も下の方にあります)。

 

BioGridのみ

f:id:am_takahiro:20131211152141p:plain

 

生物種がいくつか変わりましたが、Stringと同じような感じになりました。

中央にあるのはやはりHDAC1ですが、Stringの場合と異なりノードの情報としてIDしか入っていないので、HDAC1で検索しても引っかかりません。

 

String+BioGrid

f:id:am_takahiro:20131211152145p:plain

前述の二つからネットワークを作成しました。

その結果ネットワークが大幅に増加したように見えます。

しかし、実際のところこれらは先程の2つのネットワークを合わせただけです。

 

全部入れたもの

f:id:am_takahiro:20131211152559p:plain

こうなりました。

いくらかいじったところ、同じものを示すノードが複数あり、種名もIDだったり動物名だったり学名だったり統一されていません。

結論

ただ沢山入れればいいということはなさそうです。

少なくともどのようなデータが取得されているかを確認し、目的に合わせて調整することが必要だろうと思いました。 

 

できたネットワークのノードの中身

Stringから作ったネットワークの中身を見てみました。

f:id:am_takahiro:20131211152151p:plain

「HDAC1」でラベルを検索したところ、各塊の中心のノードが選択されました。

HDAC1とその周辺のノードが無事インポートされたようです。

 

ここで「Human Readable Gene Name」がヒトのものだけ「HDAC2」になっていました。

「String」のラベルで確認したところ、このノードにはHDAC1とHDAC2がまとめられていることがわかりました。

これはHDAC1とHDAC2がHDAC複合体を形成して機能するためのようです。

f:id:am_takahiro:20131211180823p:plain

 

実際にStringで見たところ、HDAC1とHDAC2はこのようになっていました。

 

ストーリー案

Cytoscapeを使って公共のデータベースからネットワークを作成する(仮)」

Stringからデータを取得してネットワーク作成

→VizMapperで各ノード色の意味を確認

→中央にあるノードをクリック、また検索して中央にあるのがHDAC1であることを確認

→HDAC1とHDAC2は複合体を形成して云々(イマココ)

→いくつか試してみた

→String+BioGridの中身をチェック

 

 

メモ

BioGrid: http://thebiogrid.org/

taxonomy ID検索: http://resourcedb.nbrp.jp/top/topTaxonomy.jsp

 

関係無いですが、Twitter ID変わりました。

am_takahiro_26→am_takahiro

こちらとおなじになりました。

Cytoscape(撮影編2-7)

Cytoscapeを使って実験データを可視化する」できました!

http://togotv.dbcls.jp/20131129.html#p01

YouTube版

 

内容はリンク先のとおりです。

作成したネットワークにマイクロアレイ実験のデータを取り込んで、可視化、部分パスウェイの抽出をします。

 

NetworkAnalyzerの使い方

ここで動画としては紹介できなそうなNetworkAnalyzerについて説明します。

 

NetworkAnalyzerを使うとグラフの様々なパラメータを一気に計算し、またその結果をネットワークの見た目(ノード、エッジのサイズや色)に反映することが出来ます。

ネットワークを作成し「Tool/NetworkAnalyzer/NetworkAnalysis/Analyse Network」とクリックすると以下の様な画面が出ます。

各項目をクリックするとそれぞれの結果をみられます。

 f:id:am_takahiro:20131128164641p:plain

(各ノードの隣のノードの数と中心近傍性)

 

「Visualize Parameters」をクリックすると以下の様な画面が出ます。

f:id:am_takahiro:20131128164647p:plain

 

ここで好きなパラメータの種類を選択することが出来ます。

ノードサイズ: BetweennessCentrality

エッジサイズ:EdgeBetweeness

ノード色: Column4

を選択した結果が以下のものです。

f:id:am_takahiro:20131128164656p:plain

「Tool/NetworkAnalyzer/NetworkAnalysis/NetworkAnalyzer Settings」で色の種類などを変更することも出来ます(bright colorsを緑→青にした例(あまり変わっていない))

f:id:am_takahiro:20131128164700p:plain

 

参考URL

http://opentutorials.cgl.ucsf.edu/index.php/Tutorial:Network_Analyzer

http://med.bioinf.mpi-inf.mpg.de/netanalyzer/help/2.7/

 

ところでここまで書いて気づきましたけど、このブログのタイトルの付け方って傍から見て何書いてあるのか全然わかりませんね!

Cytoscape(撮影編2-6)

結局

・実験データの取り込み、可視化、部分パスウェイの抽出

・公的データベースの取り込み、比較

の2つで別々の動画にすることになりました。

 

先に前者をうpして、後者をもう少し掘り下げます。

前者は次回

・吹き出し内表現の統一(「。」や「パスウェイ」「ネットワーク」)

・最後におちをつける

作業をしてうpします。

 

後者は取り込むデータベースの数、種類を変更してどのように変わるか試します。

Cytoscape(撮影編2-5)

あとちょっとで作り終わります。

 

まだ見直し等していないので、そのへんは来週やります。

あと全部で12分くらいになりそうなので、その辺をどうするかも考えたいです

 

 

メモ

http://string-db.org/newstring_cgi/show_network_section.pl?taskId=_Bw92_dVI4Z5&interactive=yes&advanced_menu=yes

http://www.uniprot.org/taxonomy/

Cytoscape(撮影編2-3)

今回も引き続きCytoscapeの撮影でした。

 

ストーリーがちょくちょくぶれていてすみません。 

メモ

中心性

http://www.logos.ic.i.u-tokyo.ac.jp/~chik/InfoTech11/10%20Masuda.pdf

Network Analyzer

http://med.bioinf.mpi-inf.mpg.de/netanalyzer/help/2.7/index.html

http://med.bioinf.mpi-inf.mpg.de/netanalyzer/index.php