トピックス

大規模サイトメトリーデータを用いた、ヒトリンパ球プロファイルの個人差を対象とするゲノムワイド関連解析

大規模サイトメトリーデータを用いた、ヒトリンパ球プロファイルの個人差を対象とするゲノムワイド関連解析

 

岡田大瑚

京都大学大学院医学研究科附属ゲノム医学センター

 

Genome-wide association study of individual differences of human lymphocyte profiles using large-scale cytometry data.

Daigo Okada, Naotoshi Nakamura, Kazuya Setoh, Takahisa Kawaguchi, Koichiro Higasa, Yasuharu Tabara, Fumihiko Matsuda, Ryo Yamada.

J Human Genet, 2021, 66:557-567.

 

論文のハイライト

ヒトの免疫系は非常に複雑であり、ワクチン接種に対する免疫反応のような複雑な免疫表現型の個人差の詳細はほとんど明らかになっていない。ゲノムワイド関連解析(GWAS)は、形質に関連する一塩基多型(SNP)を網羅的に探索する手法であり、複雑な生命現象・病理現象の研究における強力な統計遺伝学的手法である。ワクチン接種に対する免疫反応についても、これまでにいくつかのGWASが実施されてきた。これらの先行研究では、免疫応答の表現型として血中サイトカインの測定値などが用いられており、ワクチン接種に対する免疫反応に関連する遺伝的変異の検出に成功している。しかしながら、免疫表現型は非常に複雑であるため、単一の血中代謝物の測定値をもちいて包括的に特徴づけることは困難である。そこで、データ駆動的な手法で、全リンパ球プロファイルやそのワクチン接種後の変化の個人差を引き起こす遺伝的要因を特定するために、筆者らは大規模サイトメトリーデータを用いたゲノムワイド関連解析(GWAS)を行った。

リンパ球プロファイルを定量するサイトメトリーデータは、多次元の密度分布として表現されるように、そのままではGWASの統計モデルが適用できない。表現型値として用いるためのサイトメトリーデータの特徴量を、数値として抽出する必要がある。そこで筆者らは、情報科学的なアプローチを用いてデータ駆動的なサイトメトリーデータからの特徴量抽出を行い、GWASを実施した。

本研究で用いたデータは、298人分の、リンパ球分類用のマーカーセットを測定したサイトメトリーデータと網羅的なSNPジェノタイプデータである。サイトメトリーデータは、イングルエンザワクチン接種の前および1日後、7日後、90日後にそれぞれ測定された。特徴量抽出の方法は以下である。まず、サイトメトリーデータを確率分布からの標本として捉え、情報理論に基づく確率分布同士の距離であるJensen–Shannon距離を測り、サンプル同士の距離行列を作成した。次に、古典的な統計手法である多次元尺度構成法を適用し、これらの距離関係を最もよく反映するような座標を与えた。この座標軸の値をサイトメトリーデータの特徴量として扱いGWASを実施することで、サイトメトリーデータによって測定されたリンパ球プロファイルの異同と関連するSNPを探索した。

 

結果として、リンパ球プロファイルの定常状態またはワクチン接種後の応答に関連する合計43個のSNPが同定された。この中には、過去の研究で全身性エリテマトーデスとの関連が報告されているSNPであるrs6568431などが含まれていた。さらに、これらのSNPにannotateされる遺伝子および公共データベースの情報に基づき、リンパ球プロファイルの定常状態及びそのワクチン接種後の変化の個人差に関連するタンパク質相互作用ネットワークを構築した。このネットワークは12個の遺伝子(ITPR1, OPN3, DNER, CYCS, ATG5, OSBPL3, MBP, PRKCB, CHML, ARHGAP26, KCNMA1, EVA1A)から構成されており、免疫応答やオートファジーに関連する遺伝子を含んでいた。さらに、リンパ球プロファイルの異同やワクチン接種後の変化に関する個人差には、少数の寄与を持つ多数の遺伝子が関与していることが示唆された。本研究は、サイトメトリーデータをマルチオミクス解析の1レイヤーとして扱い、SNPジェノタイプデータとの関連解析を実施した先駆的な研究として位置づけられる。

工夫した点、楽しかった点、苦労した点など
本研究では、多次元サイトメトリーデータとSNPジェノタイプデータとの関連解析という、これまで実施されていない新規のデザインのGWASを実施しました。そのため、大規模サイトメトリーデータのシステマティックな統計処理や情報科学的手法を応用した特徴量抽出など新規に工夫・検討しなければならない事項が非常に多く、メソッドやロジックの確立に苦労し最終的にSupplementary Dataが29枚にもなりました。しかしその分、シングルセルデータと遺伝疫学をつなげる重要な基礎的な検討ができたと思います。また、この研究はその後の自分の研究の出発点となりました。この研究を通じて得た統計手法面での問題意識から、サイトメトリーやsingle cell RNA-seqデータが表す分布から特徴量を抽出する新規の数理的手法であるkernel DEEFアルゴリズムの開発や、遺伝疫学における細胞集団フレームワーク(Cell population-based framework)の提案など後続の研究につながりました。

研究室紹介

本研究は、京都大学大学院医学研究科附属ゲノム医学センターで実施しました。ゲノム医学センターは、ゲノム疫学研究の拠点として、本研究で用いたインフルエンザワクチンに関するプロジェクトのほかにも多数の大規模プロジェクトが実施されており、先駆的な大規模ゲノム疫学研究を推進しています。私が修士・博士課程で学んだ統計遺伝学分野は、ゲノム医学センターを構成する研究室の1つであり、山田亮教授の下でゲノム・オミックスデータを中心とする生命科学データ解析の新しい理論や手法の開発を行っています。現在では、ゲノム・オミックスデータの解析手法開発に加え、選択的推論や多重検定補正など統計学の基礎理論研究、画像データ解析など、多様な研究プロジェクトや共同研究が進行しています。

研究室の集合写真(分野のFacebookよりhttps://www.facebook.com/statgenetKyoto)。右端が筆者、左端から2番目が山田教授。