NGS 롱리드 시퀀싱 기술의 약진에 대하여

최근까지 환자 대상으로 의료에 활용하는 NGS (Next Generation Sequencing) 염기서열분석은 숏리드 시퀀싱 (short read sequencing) 기술이 지배적이었는데 이는 염기를 읽는 정확도와 생산량, 비용 면에서 숏리드 NGS 기술이 롱리드 시퀀싱 (long read sequencing) 기술을 압도할 정도로 우세했기 때문이었습니다. 하지만, 최근 몇 년 롱리드 시퀀싱 기술이 혁신을 거듭하면서, 이제는 기술이 충분이 성숙되고 비용도 낮아져서 실제 환자를 대상으로 질병 진단에 활용하는 대규모의 코호트에 활용을 넓힐 때가 되었다는 연구자들의 목소리가 커지고 있습니다.

NGS 롱리드 시퀀싱의 최근 대량 임상 연구에 적용 발표

최근 들어 미국의 NIH 등 에서는 롱리드 시퀀싱 기술을 대량 코호트에 적용하는 사례가 있고 또 미국의 정밀 의료 프로젝트인 All of Us 에도 롱리드 시퀀싱 기술을 활용한 샘플 분석량을 늘여야 한다고 연구자들이 말하고 있습니다.

  • 미국립보건원(NIH)의 알츠하이머와 관련 치매 센터(CARD: Center for Alzheimer’s and Related Dementias CARD) 에서 4,000 명 뇌 샘플을 Oxford Nanopore 로 분석하는 연구 프로젝트
  • 미국 Genomics Research to Elucidate the Genetics of Rare Diseases (GREGoR) 연구 코호트에도 롱리드 시퀀싱을 수백 개의 미진단 희귀 질환 샘플에 활용
  • 독일의 4개 병원이 1,000 개 샘플에 대하여 Oxford Nanopore 로 분석하는 연구 프로젝트

NGS 롱리드 시퀀싱 기술의 발전

출시 이후 10 년 간 두 기술은 정확도와 데이터 생산량에 있어서 비약적인 발전을 이루었습니다.

염기서열분석기술에서 NGS 롱리드 시퀀싱 기술은 퍼시픽 바이오사이언스 (PacBio) 사의 2011년에 처음 상용화된 SMRT (Single Moleculre Real-Time) 시퀀싱 기술과 Oxford Nanopore Technologies (ONT) 사의 2014년에 처음 90 그램의 포터블한 시퀀서로 베타 출시된 나노포어 기술을 활용한 두 가지 기술로 대표됩니다.

PacBio 롱리드 시퀀싱 기술

PacBio의 long-read sequencing, 즉, Pacific Biosciences의 Single Molecule Real-Time (SMRT) sequencing 기술은 2011년에 상업적으로 첫 출시되었습니다. 이 기술의 출시는 전체 게놈 시퀀싱 및 복잡한 유전체 구조의 연구에 혁명을 가져왔습니다. SMRT sequencing은 최초의 long-read 기술로서, 특히 반복 영역, 난해한 GC 풍부 영역, 및 대규모 구조 변이를 포함한 복잡한 유전체 영역의 연속적인 읽기에 탁월했습니다.

2011-2015년: 이 기간 동안 PacBio는 읽기 길이를 향상시키고 오류율을 줄이는 데 중점을 둔 여러 업그레이드를 출시했습니다. 또한, 연구자들은 SMRT sequencing을 활용하여 여러 유전체를 조립하고, 전체 게놈 시퀀싱의 정밀도를 높였습니다.

2016년: PacBio는 Sequel 시스템을 출시했습니다. 이 시스템은 초기 RS II 시스템에 비해 더 많은 데이터를 더 낮은 비용으로 생성할 수 있게 해 주었습니다.

2017-2019년: Sequel II 시스템이 출시되었고, 이는 더 긴 읽기 길이와 더 높은 정확도를 제공했습니다. 이 기간 동안 SMRT sequencing은 유전체 학, 전사체 학, 및 에피게놈 연구 분야에서 중요한 도구로 자리 잡았습니다.

2020-2021년: 기술의 정밀도와 throughput의 지속적인 개선 덕분에, PacBio 기술은 다양한 생물학적 및 의학적 응용 분야에서 광범위하게 사용되었습니다. HiFi 읽기라는 개념도 도입되었는데, 이는 높은 정확도와 긴 읽기 길이를 동시에 제공하여 정밀한 유전체 조립과 변이 탐지에 큰 도움을 주었습니다.

이 10년 간의 발전을 통해 PacBio의 long-read sequencing은 복잡한 유전체 연구와 정밀 의학 분야의 핵심 도구로 자리 잡았습니다. 기존의 short-read 시퀀싱 기술이 제한적이었던 영역에서 많은 문제점을 극복하였으며, 유전체의 깊은 이해를 위한 중요한 도구가 되었습니다.

PacBio의 경우 2022년 소개된 신규 Revio라는 플랫폼으로 24 시간에 360 Gigabase의 데이터를 생산하고 한 사람의 전장유전체 분석을 $1,000 정도의 수준으로 할 수 있게 되었고 롱리드 만으로 연간 1,300 명의 전장유전체 분석이 가능해졌습니다.

ONT 롱리드 시퀀싱 기술

Oxford Nanopore Technologies (ONT)는 Nanopore 기반 DNA 및 RNA 시퀀싱 기술을 개발한 회사로, 이 기술은 나노포어에 부착된 DNA polymerase로 실시간으로 단일 분자를 읽을 수 있게 하여 롱리드 시퀀싱의 가능성을 확장하였습니다.

2012년: ONT는 MinION, 하드 드라이브 크기의 소형 시퀀서를 처음으로 발표하였습니다. 이 독특한 기기는 USB 포트를 통해 전원을 공급받아 연구자들이 필드에서도 시퀀싱을 수행할 수 있게 만들었습니다.

2014년: MinION의 액세스 프로그램이 시작되었고, 연구 커뮤니티에 장치를 널리 배포하였습니다. 이는 ONT에게 직접적인 사용자 피드백을 제공하면서 기술을 빠르게 개선하는 데 도움을 주었습니다.

2015-2016년: ONT는 PromethION을 발표하였습니다. 이 장치는 높은 처리량을 필요로 하는 연구에 적합하며, MinION보다 훨씬 큰 스케일의 시퀀싱을 가능하게 하였습니다. 이 기간 동안 ONT는 읽기의 정확도를 개선하기 위한 여러 업데이트를 제공하였습니다.

2017년: Flongle, 저렴한 소규모 시퀀싱용 어댑터가 소개되었습니다. 이는 MinION과 호환되며, 보다 저렴한 비용으로 작은 스케일의 샘플을 시퀀싱하는 데 도움을 주었습니다.

2018년: ONT는 “R10″이라는 새로운 Nanopore 설계를 발표하였으며, 이는 기존보다 높은 정확도를 제공하였습니다. 또한, 직접 RNA 시퀀싱 기능이 소개되어 RNA 분석을 위한 새로운 방법을 제공하였습니다.

2019-2020년: ONT의 연구 및 개발 노력은 주로 읽기의 정확도와 처리량을 향상시키는 데 초점을 맞추었습니다. 이 기간 동안 여러 소프트웨어 업데이트와 함께, VolTRAX라는 자동 샘플 준비 장치도 발표되었습니다.

2021년: ONT는 지속적으로 Nanopore 시퀀싱의 정확도와 효율성을 향상시키는 데 중점을 둔 여러 업데이트를 제공하였습니다. 이러한 개선은 유전체 조립, 변이 탐지, 및 전체 게놈 시퀀싱에서의 활용성을 높였습니다.

ONT도 첫 출시 이후에 수년 간의 더딘 발전과 업계의 회의적인 비평을 뒤로 하고, 최근 업데이트된 나노포어, 새로운 화학과 새로운 베이스콜러를 사용하는 PromethIONs이라는 프랫폼으로 72시간에 14 Terabase 의 데이터를 생산하며 샘플당 분석 가격 $1,000 이하로 전장 유전체 분석이 가능해졌습니다. 이 기술은 유전체 연구뿐만 아니라 환경 모니터링, 감염병 진단, 및 필드 연구 등의 여러 응용 분야에서도 큰 잠재력을 보여주었습니다.

롱리드 시퀀싱 기술과 숏리드 시퀀싱 기술의 비교

정확도 면에서는 2023년에 BiorXiv출간된 논문에 의하면 PacBio의 롱리드 시퀀싱 기술(Sequel IIe의 HiFi 프로토콜)과 ONT의 롱리드 시퀀싱 기술(프로메테온의 R9 포어)의 3년 전 기술을 사용하였음에도, Genome In a Bottle v4.2.1의 작은 변종 벤치마크 데이터를 사용해, PacBio의 경우 99.87%의 F-점수(정밀도와 리콜 성능의 조합)를, ONT의 경우 98.74%, 숏리드 시퀀싱 기술인 Illumina의 경우 99.47%의 F-점수를 기록해 PacBio의 경우 정확도가 가장 우수한 것으로 나타났습니다.

숏리드는 짧은 길이로 인해 큰 삽입을 식별하는 데 어려움이 있으므로 롱리드가 구조적 변이체를 호출하는 데 있어 숏리드보다 뛰어난 성능을 보이는 것은 예상되는 것이었습니다. 연구에서 롱리드가 임상에서 광범위하게 유용할 수 있음을 보여주었는데, 400개 가까운 ‘매우 까다로운’ 유전자 읽는 것을 해결하는 것 외에도, 4,600 개 이상의 질병 관련 유전자와 ACMG (American College of Medical Genetics and Genomics) 에서 검사의 1차 목적이 아니더라도 질병과의 관계 증거가 높아 2차 목적으로 보고를 권고하는 73 개의 secondary findings 유전자에 대해서도 우수한 커버리지를 보여주었습니다. ACMG 73개의 2차 권고 유전자의 경우, PacBio 의 평균 F-점수는 85.24%, ONT 의 F-점수는 73.98% 였고 일루미나의 숏리드의 F-점수는 가장 높은 93.64% 였습니다.

일루미나의 숏리드 시퀀싱 기술은 많은 생물학적 응용 분야에서 표준이 되었지만, 특정 “어려운 부분”의 분석에는 한계가 있습니다. 이러한 부분은 반복 영역, 낮은 복잡도의 영역, GC 풍부 또는 GC 희박 영역 등이 포함될 수 있습니다. Bioinformatics 분야에서는 이러한 문제점을 극복하기 위한 다양한 도구와 전략을 개발하였습니다:

  1. Specialized algorithms: 반복 영역을 탐지하고 처리하기 위한 전용 알고리즘, 예를 들면 RepeatMasker나 Tandem Repeats Finder가 있습니다.
  2. Correcting biases: GC 내용, 복제 오류, 기타 시퀀싱 편향을 교정하기 위한 도구가 개발되었습니다. 예를 들면, Bismark나 Picard Tools의 도구들이 이에 해당합니다.

숏리드 시퀀싱의 경우 약점을 보완하기 위한 분석 도구와 최근 AI 를 활용한 분석 고도화 등을 통해 F-점수를 높여가고 있고 ACMG 2차 권고 유전자나 일반 유전자의 경우 F-점수가 매우 높아 정확도 면에서 아직은 상당한 격차를 유지하고 있습니다.

하지만, 비용에 있어서 롱리드 시퀀싱 기술과 차이가 좁혀짐에 따라 숏리드로 정확하게 읽기 어려운 질병 관련 유전자에 있어서 롱리드의 장점은 “telomere to telomere (T2T)”라는 용어로 강조되고 있고 상당한 관심을 받고 있습니다.

Telomere to Telomere” (T2T)는 롱리드 시퀀싱 기술의 능력을 강조하는 용어로, 주로 게놈의 매우 끝 (telomere)부터 끝까지 완전하게 연속적으로 시퀀싱하고 조립을 의미합니다. 전통적인 숏리드 기술을 사용하여 게놈을 조립할 때, 게놈의 특정 부분, 특히 반복 영역이나 구조적으로 복잡한 영역은 완전하게 연속적으로 조립하기 어렵습니다.

그러나 앞서 기술한 두 롱리드 기술은 훨씬 긴 읽기 길이를 제공하므로, 이러한 복잡한 영역도 완전하게 연속적으로 조립될 수 있습니다. 이러한 능력 덕분에 “Telomere to Telomere” 조립은 실제로 가능해졌습니다.

“Telomere to Telomere”의 개념은 2020년대 초기에 인간 X 크로모솜의 완전한 연속적인 조립이 처음으로 성공적으로 완료되었을 때 주요하게 강조되었습니다. 이는 기존의 인간 게놈 프로젝트에서 미처 달성하지 못한 것을 롱리드 시퀀싱을 통해 성취한 것으로, 게놈 연구의 중요한 획을 그은 결과로 볼 수 있습니다.

Leave a Comment