라이프 코드 잠금 해제

캘리포니아주 산타바바라에 있는 Kavley Institute for Theoretical Physics로 가는 공항 셔틀 버스에서 Chris Wiggins는 동료의 제안으로 Microsoft Excel 스프레드시트를 열었습니다.

그가 참석하도록 초대받은 생체 고분자 물리학 강의와는 아무런 관련이 없습니다.

오히려 그를 돌아보는 한 줄 또는 몇 줄은 발아 효모의 유전적 활동을 가리켰다.

특히 효모 번식주기에서 6200개 유전자가 발현하는 메신저 RNA(MRNA)의 양을 나타내는 수치이다.

Wiggins 씨는 2002년 초에 “이런 것을 본 것은 처음입니다.

「이 데이터를 이해하는 방법」

이 질문을 회피하는 대신 컬럼비아 대학의 36세 응용 수학자이자 물리학자는 그 질문을 받아들였고 6년 후 자신이 답을 얻었다고 생각합니다.

Wiggins 씨는 자신의 영역을 벗어나 실제 생물학적 데이터를 사용하여 유전자 집단의 단백질 생산 활동을 모델링하기 위해 기계 학습이라는 인공 지능 분야에서 도구를 가져왔습니다.

엔지니어들은 입력에서 출력을 예측하기 위해 1950년대 후반에 이러한 도구를 개발했습니다.

Wiggins 씨와 그의 동료들은 이제 머신 러닝을 물리 과학으로 가져왔고 입력과 출력뿐만 아니라 유전자 조절 모델 내에서 진행되는 일에 대해 사이에 블랙 박스가 있는 지점까지 기계 학습을 개선했습니다.

.

이 연구의 추진력은 1990년대 후반에 나타났는데, 당시 고처리량 기술이 이전보다 더 많은 mRNA 발현 프로파일과 DNA 서열을 생성하고 “생물학적 현상에 대한 완전히 다른 사고 방식을 개척”했다고 Wiggins는 말합니다.

이러한 기술 중 가장 중요한 것은 DNA 마이크로어레이(microarray)로, 무수한 조건 하에서 동시에 모든 세포 유형에서 유전자의 활동과 유전자 발현 수준에 대한 파노라마 뷰를 제공하는 칩입니다.

데이터와 마찬가지로 그것들은 시끄럽고 불완전했기 때문에 생물학자들은 이제 다른 세포에서 어떤 유전자가 켜지거나 꺼지는지 볼 수 있었고 건강한 세포나 병든 세포의 특성을 담당하는 단백질 세트를 결정할 수 있었습니다.

그러나 그러한 유전자의 활동을 예측할 수 있으려면 그들이 지배하는 기본 규칙이 해명되어야 합니다.

“시간이 지남에 따라 이러한 규칙은 세포에 의해 포착되었습니다.

”라고 현재 Columbia Biology의 부교수인 이론 물리학자 Hamen Bussemaker는 말합니다.

“진화는 사물을 잘 보존했습니다.

” 이러한 규칙을 찾기 위해 과학자들은 유전자와 유전자가 조절하는 단백질 사이의 상호 작용을 추측하고 이 네트워크의 기본 구조인 시간 경과에 따른 유전자 및 단백질 활동의 동적 패턴을 수학적으로 설명하기 위한 통계가 필요했습니다.

그러나 입자(혹은 행성)를 연구하지 않은 물리학자들은 통계학을 해부학으로 보았다.

영국 물리학자 어니스트 러더퍼드는 “실험에 통계가 필요했다면 더 잘했어야 했다”고 말했다.

그러나 마이크로어레이 조작에 관해서는 Wiggins가 설명합니다.

“실험은 당신 없이 이루어졌습니다.

” “그리고 생물학은 데이터를 이해하기 위한 모델을 제공하지 않습니다.

” 더 어려운 점은 DNA, RNA 및 단백질을 구성하는 빌딩 블록이 무수히 많은 방식으로 결합되고 미묘하게 다른 상호작용 규칙이 이들의 활동을 지배하기 때문에 상호작용 패턴을 기본 법칙으로 줄이는 것이 불가능하지 않다는 것입니다.

일부 유전자 또는 단백질은 알려지지 않았습니다.

Princeton 대학의 생물물리학자인 William Bierek은 “잘 알지 못하는 상황에서 자연에 대해 설득력 있는 것을 찾으려고 노력합니다.

”라고 말합니다.

“당신은 불가지론자가 될 수밖에 없습니다.

” Wiggins는 많은 기계 학습 알고리즘이 정확히 이러한 조건에서 잘 작동한다고 믿습니다.

알려지지 않은 많은 변수를 다룰 때 “머신 러닝을 통해 데이터를 통해 살펴볼 가치가 있는 항목을 결정할 수 있습니다”라고 그는 말합니다.

Kabri Institute에서 Wiggins는 유전자가 얼마나 많은 DNA가 mRNA로 전사되는지를 선택적으로 제어하는 ​​일련의 규칙인 효모의 유전자 조절 네트워크 모델을 구축하기 시작했습니다.

그는 여러 알고리즘을 사용하여 당시 콜롬비아에서 컴퓨터 생물학 그룹을 이끌고 있던 Cristina Leslie가 이끄는 유전자 조절에 대한 토론에 참여하기 시작했습니다.

Leslie는 분류자라는 특수 기계 학습 도구를 사용할 것을 제안했습니다.

알고리즘은 자전거가 있는 사진과 없는 사진을 구분해야 한다고 가정합니다.

분류자는 레이블이 지정된 예를 통해 이동하며 이에 대해 가능한 모든 것을 측정하고 그룹을 관리하는 결정 규칙을 천천히 학습합니다.

이러한 규칙에서 알고리즘은 새 사진이 오토바이를 보여주는지 여부를 결정할 수 있는 모델을 생성합니다.

유전자 조절 네트워크에서 학습 과제는 유전자가 단백질 형성 활동을 증가시킬 것인지 감소시킬 것인지를 예측하는 것입니다.