研究は主として、バイオ系、IT系の2つで実施した。以下に主な成果を示す。
・ 研究概要:バイオ系
- 遺伝子ネットワーク推定システムの開発
本研究は、下図に示すように、DNA マイクロアレイから得られた発現量プロファイルのタイム
コースデータから、遺伝子間の相互作用(遺伝子ネットワーク)を推定するシステムの開発
を行った。

2005 年度は、DNA マイクロアレイから野生株・一遺伝子破壊株など複数の発現量プロファ
イルのタイムコースデータが得られることを想定し、複数のタイムコースデータからそれら
を同時に満足する数理モデル(質量作用則表記の非線形連立微分方程式)を遺伝的プログラミ
ング(Genetic Programming, GP)という最適化手法を用いて導出するシステムを開発し、仮想
遺伝子ネットワークによる実験を行った。その結果、小規模の仮想遺伝子ネットワークにお
いては、満足する結果を得ることができた。
精度・速度の向上により、大規模な遺伝子ネットワークの推定が実現可能となることによ
って、遺伝子疾患などの原因究明およびテーラーメイド医療の実現への貢献が期待できる。
- マルチプルアラインメントアルゴリズムの開発
バイオインフォマティクスにおける解析の第一段階としてマルチプルアラインメント(以下
MSA)の作成は重要な役割を果たす。例えば、遺伝子構造予測やタンパク質の立体構造あるい
は機能を予測する際に核となる情報を提供してくれるのがMSA である。MSA アルゴリズム
は比較的古くから研究されてきたが、依然として未解決である。問題点としては、シンプル
な目的関数を用いたとしても最適なMSA の作成はNP 困難であること、たとえ最適なMSA
が得られるにしてもどんな目的関数を採用すればよいか不明であることを挙げることができ
る。また、考案したアルゴリズムの精度をどのように評価するかについても、未だ不十分で
あることもアルゴリズムを改良する上での障害となっている。
マルチプルアライメントアルゴリズムの精度を向上させるため、産業技術総合研究所の研
究者と共に、新しいアルゴリズムの開発に着手した。アプローチとしては、目的関数の一部
であるギャップペナルティ関数を従来とは別の関数を用いるという方法をとった。従来手法
では、アラインメント中に生じるギャップに対するペナルティ関数としてアフィンギャップ
(g(x)=ux+v (u,v>0))を用いている。アフィンギャップは計算が簡単であるものの、
長いギャップに対してペナルティを与えすぎる(実際の配列上に生じる挿入や欠失の傾向と
かけ離れてしまう)という問題点がある。そこでアフィンギャップを複数組み合わせた区分線
形ギャップ(下図)により、長いギャップにも対応できるアルゴリズムを考案した。
・ 研究概要:IT系
- 大規模なデータ解析のためのシーケンシャルパターンマイニング手法の開発
大規模なデータを対象としたマイニングを行う場合,最小サポート値などのパラメタを設
定してから,実際の結果が得られるまでのターンアラウンド時間が長くなり問題となる.さ
らに,解析内容によって最小サポート値の設定が異なるため,従来のマイニング手法を用い
た場合,最小サポート値をユーザが試行錯誤しながら決定しなければならないといった問題
がある。
このような問題に対して,最小サポート値等のユーザが解析を開始するに先立って設定し
なければならない項目を無くした新しいマイニング手法の提案を行った.本手法は,内部で
自動的に最小サポート値を決定しマイニングを実行する.具体的には,最初,最小サポート
値を高く設定しマイニングを実行し,順次,最小サポート値を下げてマイニングを実行する.
そして,サポート値降順に順次頻出パターンをユーザに出力する.このように,従来,ユー
ザが行っていた最小サポート値の変更をシステムが自動的に行うようにした.また,最小サ
ポート値を変更した際に,元々のデータを再度読み込んで解析するのに必要となる処理時間
を短縮するために,下図左に示すように,サポート値を変更しても元来のTDB へのアクセス
をしないように,1回目に全てのデータに対してF-list を生成するようにした.IBM 人工デ
ータセット生成プログラムを用いて生成したデータセットT10I4D1000K に対して適用した
結果を下図右に示す。
グラフ内の階段状の線が本提案手法であり,一番右の曲線が,最小サポート値を0.01%毎
増加させた場合,左の曲線が,最小サポート値を0.05%毎増加させた場合の結果である.一
般的に,ユーザはある解析に対して最適な最小サポート値を事前に知ることができないこと
から,本手法のように自動的に最小サポート値を変化させてくれる仕組みが重要となる.ま
た,バイオ関連データやWeb データを対象とした様々な解析では,その解析目的によって最
小サポート値の設定が異なってくることが予想され,本手法が有効に働くと考えられる。
- Web上での著作権違反自動検知システムの開発(受託研究)
早稲田が持つデータ解析技術を使い、下図に示すようなWeb上での著作権違反自動検知システムの構築を行った。これは、入力としてオリジナルテキストが与えられると、検索エンジンに対して複数のクエリを自動投入、検索結果を得て、類似度順に再ランキングするというシステムである。

・ 講演会等
- 2005年3月23日 講演会 場所:産総研 臨海副都心センター別館10F
・大容量データを対象とした処理高速化要素技術
講師:山名早人
- 2005年6月3日 講演会 場所:早大理工・電子情報通信学科会議室
・タンパク質構造変化部位の抽出
講師:野口 保(産業技術総合研究所)
・INOH パスウェイデータベースプロジェクト
講師:福田賢一郎(産業技術総合研究所)
- 2005年7月15日
輪湖先生CBRC訪問→席の設置
- 2005年9月15日
CBRCセミナー(講師:山名早人)
- 2006年1月20日 講演会 場所:早大理工55号館S棟2F第三会議室
・一酸化窒素を無毒化する酵素P450norの反応機構解析
講師:塚本弘毅氏(産業技術総合研究所)
・CellMontageシステムによる遺伝子発現データの統合化と細胞予測」
講師:藤渕 航氏(産業技術総合研究所)
- 2006年3月6日 場所:産総研 臨海副都心センター別館10F
講師:高野光則(早大・物理学及応用物理学専攻 助教授)
・報道等
-
2005 年5 月2 日 日経産業新聞 6面「ITバイオ融合早大が研究所」
・ 受託研究
- (株)富士通総研より「Web 上での著作権違反自動検知システム」(経済産業省「次世代の知的情報アクセスに関する調査研究事業」における調査・研究の一環)
・ その他活動
- 早稲田/CBRC 共同研究テーマ募集開始(対象:本研究所構成研究室)
・論文等はこちら⇒ 2005年度論文.pdf
|