1. HOME
  2. 研究紹介
  3. データ駆動型高分子材料研究を変革するデータ基盤創出

データ駆動型高分子材料研究を変革するデータ基盤創出

高分子物性自動計算システムRadonPyを活用した世界最大の高分子物性データベースの創出へ向けて

図1. 高分子物性自動計算システムRadonPyの概要

代表機関のグループが開発中である分子動力学(MD)シミュレーションに基づく高分子物性自動計算システムRadonPyを用いて,世界最大の高分子物性データベースを構築する.RadonPyは,LAMMPSによる高分子物性計算の自動化を支援するPythonライブラリである.ポリマーの繰り返し単位の化学構造を入力し,力場の割り当て,初期構造の生成,エラー処理,平衡・非平衡MD計算による物性評価までの全工程を完全に自動化する(図1:高分子物性自動計算システムRadonPyの概要).最新バージョンでは,直鎖状高分子(ホモポリマー,コポリマー)のアモルファス構造や延伸配向構造,高分子混合系,高分子溶液の14種類の物性(熱伝導率,比熱,熱膨張,ヤング率など)を自動計算できる.本プロジェクトでは,超並列計算機におけるRadonPyシステムの拡張・高度化を図るとともに,富岳の計算資源を活用して105-107個の高分子骨格を包含するデータベースを構築する.

データベースの不在が続く高分子インフォマティクス

研究の目的は,データ駆動型高分子材料研究(高分子インフォマティクス)の学術基盤の創出である.データ駆動型研究の源泉は,言うまでもなくデータである.しかしながら,現時点において,データ駆動型研究に資する高分子物性のデータベースは存在しない.したがって,少なくとも短中期的には,大学の研究室や一企業で生産可能なデータが高分子インフォマティクスの解析対象になることが予想される.本プロジェクトは,産学の組織の垣根を超えた強力なパートナーシップでこの壁を突破する.

ミッションを達成するための駆動力①:RadonPy

高分子物性のMD計算の自動化は,初期構造の生成や平衡化計算の検証プロセスの煩雑さなど,様々な技術的な難しさがあり,いまだ実現に至っていない.特に,高分子物性は,自動計算の技術障壁に加え,膨大な計算量が阻害要因となり,包括的なデータベースを創出しようという動向は国内外ともに皆無である.RadonPyは現時点における世界で唯一の高分子物性MD自動計算を実現するソフトウェアである.我々は,RadonPyの開発により,包括的な高分子物性データベースの創出に向けた道筋を見出すに至った.
ミッションを達成するための駆動力②:産学の垣根を超えたデータの共同生産
本プロジェクトを推進するためのもう一つの起爆剤は,膨大な計算量の壁を乗り越えるための産学連合体である.高分子物性のMD計算は膨大な計算コストを伴うため,小中規模のグループではデータ駆動型研究に資するレベルのデータを生産できない.そこで,代表機関(統計数理研究所ものづくりデータ科学研究センター)は,多数の企業・大学・国研からなる産学連合体を組織し,データベースを共同で開発する仕組みを整備した.本事業の参画機関は,データベースの開発に要する計算資源と人的資源を供与し,データを共同生産していく.本プロジェクトで生産する全データは,参画企業を介して時間差なしに産業界で利活用されていく.

世界最大の高分子物性データベースの創出へ

プロジェクト期間内に105-107個の高分子の物性計算を実施し,データ駆動型高分子研究の学術基盤として社会に提供する.計算対象のポリマーリストは,公共データベースに登録されている既存のポリマーと仮想ライブラリから構成される.前者については,ポリマーの数が限られる.そこで,本プロジェクトでは,主な計算対象を仮想ポリマーに定める.高分子骨格を20種類に分類し,機械学習の生成モデルを適用して,各クラスの仮想ライブラリを作製す.
ここで,深層生成モデルを初めとする機械学習の解析技術を導入する.既存のポリマーの化学構造を用いて機械学習のモデルを訓練し,既存分子に現れる頻出パターン(フラグメントや結合ルールなど)を模倣した構造生成器を構築する.モデルの訓練には,国立研究開発法人 物質・材料研究機構の高分子データベースPoLyInfoの約2万種類の高分子骨格を用いる(代表機関とデータ共有のための共同研究契約を締結).本グループが開発しているマテリアルズインフォマティクスのオープンソースソフトウェアXenonPyを用いて,各クラスの高分子骨格のパターンを模倣した仮想ポリマーライブラリを作製する(図2:機械学習による仮想ライブラリの生成,Ikebata et al. J Comput Aided Mol Des. 31(4):379-391 (2017); Yamada et al. ACS Cent Sci. 5(10):1717-1730 (2019); Wu et al. Mol Inform. 39:1900107 (2020)など).また,共重合ポリマーや低分子と高分子の混合系の仮想ライブラリも作製する.ライブラリのサイズは,少なくとも109以上に達する.

図 2. 機械学習による仮想ライブラリの生成.下図は生成された仮想ポリイミドの例.

高分子の科学と産業への学術的貢献

マイルストーンに達した段階で,我々は105-107個のポリマーが張る広大なケミカルスペース上の物性分布を観測できる.これにより高分子科学の体系的知識を獲得できる.特に,単一の物性に限らず,複数物性の同時分布を観測することで,物性空間のパレートフロンティアの位置や境界上のポリマーの構造的特徴を知ることができる.これだけでも高分子科学における大きな学術的貢献を果たすに違いない.
さらに,データベースと機械学習を組み合わせることで,革新的な特性を有する新しいポリマーが発見される可能性もある.本プロジェクトのデータを用いて,構造から物性を予測する機械学習モデルを導く.このサロゲートモデルを用いて,膨大な数の仮想ライブラリの物性評価を行うことで,広大なケミカルスペースから革新的な特性を有するポリマー群を予測する.図5は,前述のポリイミド仮想ライブラリのスクリーニングから明らかになった複数物性の同時分布を表す.モデルの訓練にはMD自動計算によって生成されたデータを使用した.このようにポリイミドのケミカルスペースを仮想物質で埋め尽くすことで,ポリイミドのパレートフロンティアの位置を特定し,フロンティア上の候補分子を網羅的に同定できる.
また,統計数理研究所ものづくりデータ科学研究センターのグループは,JST-CREST熱制御領域「高分子の熱物性マテリアルズインフォマティクス」(代表:東京工業大学 森川淳子:主たる共同研究者 統計数理研究所 吉田亮)に参画し,高分子材料の熱物性の研究に取り組んでいる.高分子の熱伝導率は,金属やセラミックスに比べると一般的に非常に低い,しかしながら,近年の研究により特異的に高い熱伝導率を持つ高分子材料が発見され,自動運転システムや次世代無線通信規格など,放熱性の向上が要求される電子デバイスに高分子材料を応用する研究に注目が集まっている.このような技術動向から,成形性に優れた高分子および複合高分子材料の高熱伝導化の研究が非常に活発化している.本研究では,MD高分子物性データベースと機械学習を組み合わせ,高い熱伝導率を有する液晶高分子を予測し,有機合成の専門家と協力して実用に資する新材料の創製に取り組む.

図 3. ポリイミド系高分子の大規模仮想スクリーニングによって明らかとなった複数物性の同時分布.5Gデバイスの高分子材料に求められる複数の要求特性を同時に満たす候補分子を探索する.

研究紹介