단백질 검출 방법

용어 및 정의

당 업자는, 본 발명의 설명 안에서 라이브러리의 크기를 명시하는 숫자가 라이브러리 일원의 다양성과 관련되어 있음을 인지하고 있다. 라이브러리 II보다 더 큰 라이브러리 I은, 라이브러리 II의 고유 라이브러리(unique library) 일원들보다 더 많은 수의 고유 라이브러리 일원들을 포함하는 라이브러리 I에 해당한다. 100,000개의 일원을 가지는 핵산 라이브러리는 수 백만개의 핵산 분자를 포함할 수 있지만, 100,000개의 변별적 라이브러리(distinct library) 일원들은 단지 각각 해당 라이브러리 내에만 있는 고유의 핵산 서열에 의해 특징지어진다. 유사하게, 1,000개의 일원을 가지는 폴리펩티드 라이브러리는 수 백만개의 폴리펩티드 분자를 포함할 수 있지만, 고유 폴리펩티드 라이브러리 일원은 단지 1,000개일뿐이다. "라이브러리의 한 일원"이라는 표현은, 동일 복사체 집단내에 존재할 수 있는 하나의 특정 라이브러리 일원에 관한 것이다.

본 발명의 명세서 내용 중, "2개의 핵산 서열이 틀(frame) 내에 있다"라는 표현은, 제1 핵산 서열의 마지막 코돈과, 제2 핵산 서열의 첫 번째 코돈 사이의 염기쌍 수가 3으로 나누어질 수 있음을 의미한다.

본 발명의 명세서 내용 중, "폴리펩티드가 검출 태그와 결합한다" 또는 "폴리펩티드/검출 태그가 친화성 태그와 결합한다"라는 표현은, 전술된 일원들 둘 다가 하나의 1차 아미노산 서열, 즉 하나의 연속 폴리펩티드 사슬 내에 포함된다는 의미이다. 구체적으로 상기 검출 태그와 상기 폴리펩티드는 하나 이상의 아미노산에 의해 분리될 수 있다. 상기 검출 태그와 상기 친화성 태그도 또한 하나 이상의 아미노산에 의해 분리될 수 있다.

본 발명의 명세서 내용 중, "절단가능한 요소"란 용어는, 화학 제제나 효소 수단, 예컨대 프로테아제에 의해 절단되기 쉬운 펩티드 서열에 관한 것이다. 프로테아제는 서열 특이적일 수 있거나(예컨대 트롬빈) 제한된 서열 특이성을 가질 수 있다(예컨대 트립신). 절단가능한 요소 I 및 II는 또한 검출 태그 또는 폴리펩티드의 아미노산 서열 내에 포함될 수 있는데, 구체적으로 검출 태그 또는 폴리펩티드의 마지막 아미노산이 K 또는 R인 경우가 그러하다.

본 발명의 명세서 내용 중, "친화성 태그"란 용어는, 생화학적 혼합물로부터 폴리펩티드가 정제될 수 있도록 만드는, 폴리펩티드에 부착된 기(moiety)에 관한 것이다. 정제(친화성 정제)는 친화성 태그와 친화성 태그의 결합 파트너 간 매우 특이적인 상호작용(해리 상수가 10-5 이하인 상호작용)을 바탕으로 한다. 친화성 태그는 아미노산 서열로 이루어질 수 있거나, 또는 화학 기가 번역후 변형에 의해 부착된 아미노산 서열을 포함할 수 있다. 비제한적 예를 들면, 친화성 태그는 His-태그, CBP-태그(CBP: 칼모듈린 결합 단백질), CYD-태그(CYD: 아직 공유 해리되지 않은(covalent yet dissociable) NorpD 펩티드), Strep-태그, StrepII-태그, FLAG-태그, HPC-태그(HPC: 단백질 C의 중쇄), GST-태그(GST: 글루타치온 S 트랜스퍼라아제), Avi-태그, 바이오틴화 태그, Myc-태그, 3xFLAG 태그 및 MBP-태그(MBP: 말토스 결합 단백질)를 포함하는 군으로부터 선택된다. 친화성 태그의 추가 예들은 문헌[Kimple et al., Curr Protoc Protein Sci. 2013 Sep 24;73:Unit 9.9]에서 살펴볼 수 있다.

본 발명의 명세서 내용 중, "딥 시퀀싱(deep sequencing)"이란 용어는, 수 천개의 상이한 핵산 분자들을 5배 이상, 구체적으로 40배 이상의 커버리지(coverage)로 동시에 서열결정하는 것에 관한 것이다. 상기 "커버리지"란 용어는, 딥 시퀀싱 과정이 수행되는 동안 이루어지는, 주어진 뉴클레오티드의 평균 해독 횟수에 관한 것이다.

본 발명의 명세서 내용 중, "항체"란 용어는 세포생물학 및 면역학 분야에 공지된 의미 그 자체로서 사용된다. 전 항체는 적어도 2개의 중쇄(H) 및 적어도 2개의 경쇄(L)가 이황화 결합에 의해 서로간에 연결되어 포함되어 있는 당단백질이다. 각각의 중쇄는 중쇄 가변 영역(VH)과 중쇄 불변 영역(CH)으로 이루어져 있다. 각각의 경쇄는 경쇄 가변 영역(본원에서는 VL로서 약칭됨)과 경쇄 불변 영역(CL)으로 이루어져 있다. 중쇄 및 경쇄의 가변 영역은 항원과 상호작용하는 결합 도메인을 함유한다. 항체의 불변 영역은 면역계의 다양한 세포(예컨대 효과기 세포) 및 전통적 보체계의 제1 성분을 비롯한 숙주 조직 또는 인자와 면역글로불린의 결합을 매개할 수 있다.

본 발명의 명세서 내용 중, "나노바디(nanobody)"란 용어는 "단일 도메인 항체", 즉 단일 가변 항체 도메인으로 이루어진 항체 단편에 관한 것이다. 나노바디는 특이적 항원과 선택적으로 결합할 수 있다. 나노바디의 분자량은 12 kDa ~ 15 kDa에 불과하다(Harmsen et al., ppl. Microbiol. Biotechnol. 77 (1): 13-22). 보통 나노바디는 원하는 항원으로 단봉낙타, 쌍봉낙타, 라마, 알파카 또는 상어를 면역화한 다음, 중쇄 항체를 암호화하는 mRNA를 단리함으로써 수득된다. 나노바디는 또한 4개의 사슬을 가지는 공통된 마우스 또는 인간 IgG로부터 유래될 수도 있다.

본 발명의 명세서 내용 중, "사이바디(sybody)"란 용어는, 합성 나노바디에 관한 것이다. 사이바디는 항원에 의한 면역화로부터 수득되는 것이 아니고, 합성 라이브러리로부터 시험관 내 선택되는 것이다.

본 발명의 명세서 내용 중, "증량(enrichment)"이란 용어는, 화합물들의 혼합물 중에서 특정의 화합물의 상대적 양을 증가시키는 과정에 관한 것이다.

본 발명의 명세서 내용 중, "플라이코드 라이브러리(flycode library)"란 용어는, 서열 변이체 집단을 포함하는, 본 발명에 의한 아미노산 서열 라이브러리에 관한 것이다.

본 발명의 명세서 내용 중, "NestLink"란 용어는, 검출 태그가 단백질 라이브러리에 부착되는 방법에 관한 것이다. 추후 이 태그는 라이브러리 내 정의된 생물물리학적 또는 약리학적 표준을 충족하는 개별 단백질을 동정 및 정량하는데 사용된다. NestLink는 스크리닝과 전시 절차의 핵심적인 이익들을 통합한 방법이다.

본 발명의 명세서 내용 중, "소수성 값(hydrophobicity value)"이란 용어는 어떤 펩티드를 특성규명해주는 예측 값에 관한 것이다. 소수성 값은 하기 식에 따라서 문헌(Krokhin et al., Mol Cell Proteomics. 2004 Sep;3(9):908-19)에 기술된 방법으로 산정되는데, 즉

만일 H가 38 미만이면, H = KL*(∑Rc + 0.42R1 cNt + 0.22R2 cNt + 0.05R3 cNt)이고,

만일 H가 38 이상이면, H = KL*(∑Rc + 0.42R1 cNt + 0.22R2 cNt+ 0.05R3 cNt) - 0.3(KL*(∑Rc + 0.42R1 cNt + 0.22R2 cNt + 0.05R3 cNt) - 38)

이되,

여기서 만일 H가 38 미만이면, H최종 = H이고; 만일 H가 38 이상이면, H최종 = H - 0.3*(H - 38)이되; 다만 H최종이 소수성 값이고, Rc는 하기 표, 즉

단백질 검출 방법

단백질 검출 방법

에 따르는, 아미노산 유형의 특징을 이루는 잔류 계수(retention coefficient)이며,

아미노산 X의 RcNT는 RX cNt = (∑Rc/20) - RX c와 같이 정의되되,

여기서 N은 N 말단을 1로 하여 시작되는 검출 태그의 잔기 번호에 해당하고, KL은,

만일 N이 10 미만이면, KL = 1 - 0.027*(10 - N)으로 정의되며,

만일 N이 20을 초과하면, KL = 1 - 0.014*(N - 20)으로 정의되고,

상기 두 경우 다 아니면, KL = 1이다.

아미노산 서열은 아미노 말단 → 카복시 말단으로 제시된다. 서열 위치에 대한 대문자는 1문자 암호로 나타낸 L-아미노산을 지칭한다(Stryer, Biochemistry, 3rd ed. p. 21).

본 발명의 상세한 설명

폴리펩티드들의 라이브러리로부터 폴리펩티드를 선택하기 위한 방법

제1 양태에 의하면, 폴리펩티드들의 라이브러리로부터 폴리펩티드를 선택하기 위한 방법이 제공된다. 본 방법은 하기 단계들을 포함한다:

a. 제1 핵산 라이브러리를 제공하는 단계:

제1 핵산 라이브러리의 각 일원은 제1 폴리펩티드 라이브러리의 일원을 암호화하는 폴리펩티드 암호화 서열을 포함한다. 제1 핵산 라이브러리의 각 일원은 제1 핵산 라이브러리의 임의의 다른 일원과 상이하다.

b. 제2 핵산 라이브러리를 제공하는 단계:

제2 라이브러리는 일원들의 집단을 포함한다. 각각의 일원은 검출 태그를 암호화하는 태그 암호화 서열을 포함한다. 각각의 검출 태그는 하기의 특징들, 즉

i) 제2 핵산 라이브러리에 의해 암호화되는 임의의 다른 검출 태그의 아미노산 서열과 상이한 아미노산 서열에 의해 특징지어지는 특징,

ii) 200 Da 내지 5000 Da의 분자 질량에 의해 특징지어지는 특징[임의의 구현예에서, 태그는 500 Da 내지 2500 Da의 분자 질량에 의해 특징지어짐. 임의의 구현예에서, 태그는 900 Da 내지 2200 Da의 분자 질량에 의해 특징지어 짐. 임의의 구현예에서, 태그는 903 Da 내지 2180 Da의 분자 질량에 의해 특징지어짐]

iii) 절단가능한 제1 요소를 포함하는 특징

을 가진다.

ii에 주어진 질량에 관한 설명은, 태그가 단리된 후, 즉 태그가 절단가능한 제1 요소로부터 절단된 후의 태그 질량에 관한 것이다.

c. 제1 핵산 라이브러리의 일원에 포함된 폴리펩티드 암호화 서열을 상기 제2 핵산 라이브러리의 일원에 삽입하는 단계:

이로써, 태깅(tagging)된 폴리펩티드 라이브러리를 암호화하는 태깅된 핵산 라이브러리가 제조된다. 태깅된 폴리펩티드 라이브러리의 각각의 일원은 폴리펩티드 및 검출 태그를 포함한다. 검출 태그는 절단가능한 제1 요소에 의해 폴리펩티드로부터 분리된다.

제1 핵산 라이브러리의 폴리펩티드 암호화 서열은 제2 핵산 라이브러리의 일원 내부에 "개재(nesting)"되므로, 태깅된 폴리펩티드 라이브러리는 "개재된 라이브러리"이다. 제2 핵산 라이브러리는 태깅된 핵산 라이브러리보다 몇 배 더 크다. 태깅된 핵산 라이브러리는 제1 핵산 라이브러리보다 몇 배 더 크다.

태깅된 핵산 라이브러리 내에서, 제1 핵산 라이브러리의 폴리펩티드 암호화 서열 각각은 제2 핵산 라이브러리의 태그 암호화 서열과 결합한다. 이 결합은 틀 내에서 이루어진다. 폴리펩티드 암호화 서열은, 태깅된 핵산 라이브러리 일원이 적합한 숙주에 도입된 후 이 적합한 숙주 내에서 상기 라이브러리의 전사와, 이에 후속되는 번역이 이루어질 위치에 삽입된다. 세균 세포로의 도입에는 형질전환이 동반될 수 있다. 세균 세포가 아닌 세포로의 도입에는 형질감염이 동반될 수 있다. 당 업자는, 번역에 숙주가 반드시 필요한 것은 아님을 인지하고 있는데; 즉 시험관 내 번역 기술도 또한 사용될 수 있음을 인지하고 있다. 무세포 발현계에 관한 검토는 문헌(Rosenblum, FEBS Lett. 2014 Jan21; 588(2):261-8 and Zemella, Chembiochem. 2015 Nov; 16(17):2420-31)을 참조한다. 폴리펩티드 암호화 서열과 태그 암호화 서열은 발현된 서열로서 동일한 서열 내에서 전사될 것이다.

태깅된 핵산 라이브러리는, 제1 핵산 라이브러리의 모든 폴리펩티드 암호화 서열과, 단지 제2 핵산 라이브러리의 태그 암호화 서열 하위세트만을 포함한다. 태깅된 핵산 라이브러리 각 일원은 오로지 하나의 폴리펩티드 암호화 서열과 하나의 태그 암호화 서열을 포함한다. 각각의 태그 암호화 서열은 태깅된 핵산 라이브러리의 단지 하나의 일원에만 포함된다. 다시 말해서, 각각의 태그 암호화 서열은 태깅된 핵산 라이브러리 내에 고유하게 존재한다. 그러나 각각의 폴리펩티드 암호화 서열은 태깅된 핵산 라이브러리의 몇몇 일원 내에 포함되어 있을 수 있다(과잉 태깅). 임의의 구현예에서, 제1 핵산 라이브러리의 폴리펩티드 암호화 서열 각각은 제2 핵산 라이브러리의 태그 암호화 서열 적어도 하나와 결합한다. 임의의 구현예에서, 제1 핵산 라이브러리의 폴리펩티드 암호화 서열 각각은 제2 핵산 라이브러리의 태그 암호화 서열 적어도 2개와 결합한다. 임의의 구현예에서, 제1 핵산 라이브러리의 폴리펩티드 암호화 서열 각각은 제2 핵산 라이브러리의 상이한 태그 암호화 서열 적어도 5개와 결합한다. 임의의 구현예에서, 제1 핵산 라이브러리의 폴리펩티드 암호화 서열 각각은 제2 핵산 라이브러리의 상이한 태그 암호화 서열 적어도 10개와 결합한다. 임의의 구현예에서, 제1 핵산 라이브러리의 폴리펩티드 암호화 서열 각각은 제2 핵산 라이브러리의 상이한 태그 암호화 서열 평균 10개 ~ 30개와 결합한다. 임의의 구현예에서, 제1 핵산 라이브러리의 폴리펩티드 암호화 서열 각각은 제2 핵산 라이브러리의 상이한 태그 암호화 서열 평균 약 20개와 결합한다.

d. 태깅된 핵산 라이브러리로부터 핵산 서열 집단을 수득하는 단계:

구체적으로 핵산 서열은 태깅된 핵산 라이브러리의 매 일원에 대해 수득된다. 상기 핵산 서열 집단 각각은 폴리펩티드 암호화 서열과 태그 암호화 서열을 포함한다.

단계 d에서 수득된 서열결정 정보를 바탕으로 데이터베이스가 구축된다. 데이터베이스는 태깅된 폴리펩티드 라이브러리 내에 포함된 모든 검출 태그 및 모든 폴리펩티드의 서열을 포함한다. 당 업자는, 데이터베이스가 기술상의 이유로 말미암아 태깅된 핵산 라이브러리의 단 하나의 일원의 것을 포함할 수 없다는 것을 인지한다. 서열은 핵산 서열 및/또는 아미노산 서열의 형태로 존재할 수 있다. 데이터베이스는 제2 핵산 라이브러리의 어느 태그 암호화 서열 하위세트가 태깅된 핵산 라이브러리 내에 포함되어 있는지에 대한 정보를 포함한다. 데이터베이스는 또한 어느 태그 암호화 서열에 관한 정보, 즉 어느 태그 암호화 서열이 주어진 폴리펩티드 암호화 서열과 결합하고 있는지에 대한 정보도 포함한다.

e. 단계 d에서 수득된 태그 암호화 서열에 의해 암호화되는 각각의 검출 태그에 대해 질량 분광분석 단편화 패턴(fragmentation pattern)을 예측하는 단계:

당 업자는, 단리된 검출 태그, 즉 절단가능한 제1 요소의 절단에 의해 결합하고 있던 폴리펩티드로부터 떨어져나온 검출 태그에 대한 단편화 패턴이 예측된다는 것을 인지하고 있다. 당 업자는, 단편화 패턴을 예측하는 것은 또한 단리된 검출 태그의 총 질량을 예측하는 것도 포함함을 인지하고 있다.

f. 태깅된 폴리펩티드 라이브러리를 태깅된 핵산 라이브러리로부터 발현시키는 단계:

단계 c에 기술된 과잉 태깅 접근법으로 말미암아, 태깅된 폴리펩티드 라이브러리는 몇몇 상이한 검출 태그로 태깅된(다만 분자당 하나의 태그만이 태깅된) 상기 제1 폴리펩티드 라이브러리의 주어진 일원을 포함할 수 있게 된다. 과잉 태깅은 검출 태그 다수를 통하여 제1 폴리펩티드 라이브러리 일원의 분명한 검출을 가속화하고, 태깅된 폴리펩티드 라이브러리 일원의 생물물리학적 특성들에 대한 검출 태그의 잠재적 영향력을 최소화하기 때문에, 바람직하다. 과잉성은 기술상의 이유로 말미암아 추가로 요구되는데; 일부 검출 태그는 발현 수준이 감소하고, 시료 준비 동안에 소실되거나, 또는 질량 분광분석법에 의해 분석되는 역상 컬럼의 소수성 윈도우 내에서 용리되지 않으므로, 검출될 수 없다.

g. 태깅된 폴리펩티드 라이브러리 일원을 선택 단계에서 선택하여 선택된 폴리펩티드를 수득하는 단계:

이 선택 단계는 정의된 생화학적 표준을 충족하는, 태깅된 폴리펩티드 라이브러리 일원들을 단리하는 과정을 포함한다. 다시 말해서, 태깅된 폴리펩티드 라이브러리에 선택압이 적용된다. 이 선택압은 물리적으로 분리된 하위 풀(sub-pool)이 생성 및 수집되도록 단백질의 물리적 분리를 초래하여야 한다. 본 발명에 따른 방법의 핵심적인 이점은, 있을 수 있는 다양한 선택 표준이 단백질 전시 방법에서보다 훨씬 더 철저하다는 점이다. 비제한적 예를 들어 표준은, 정의된 친화성으로 표적 분자와 결합하는 능력, 정의된 조건에서의 폴리펩티드 안정성, 정의된 조건에서의 임의의 응집 행동(예컨대 지배적으로 단량체로서 생성되는 것), 프로테아제에 대한 내성, 조직 침투능, 혈류로부터의 신속한 청소(clearance) 또는 느린 청소, 혈액뇌 장벽을 침투하는 능력, 그리고 종양 내부에 축적되는 능력을 포함하는 표준의 군으로부터 선택될 수 있다.

h. 절단가능한 제1 요소를 절단하는 단계:

이로써, 선택된 폴리펩티드로부터 검출 태그가 분리되고, 단리된 검출 태그가 수득된다.

i. 단리된 검출 태그를 하기의 방법으로 동정 및 정량하는 단계:

i) 단리된 검출 태그의 단편화 패턴을 질량 분광분석법에 의해 기록함[단편화 패턴은 단리된 검출 태그 단편의 질량과 소수성에 대한 정보를 제공함. 단편화 패턴은 단리된 검출 태그의 아미노산 서열에 관한 정보를 제공함].

ii) 단계 i)에서 수득된 질량 및 단편화 패턴을 단계 e에서 예측된 질량 및 단편화 패턴과 매칭(matching)시킴[이로써, 단리된 검출 태그가 동정됨. 태깅된 핵산 라이브러리의 서열결정에 의해 수득된 정보와, 질량 분광분석법에 의해 수득된 정보를 조합하면, 주어진 검출 태그에 관한 분명한 동정이 가능함].

예측 및 기록된 단편화 패턴의 매칭 정확성은 점수가 매겨질 수 있으며, 이로써 폴리펩티드 라이브러리 일원에 순위가 매겨질 수 있다. 상이한 선택 조건들 간 폴리펩티드 순위매김결과 비교는, 폴리펩티드의 다양한 특징들(예컨대 오프-레이트(off-rate), 조직내 분포, 형태 특이적 결합 등)에 관한 상대적 척도로서 사용될 수 있다. 개별 태그의 단편화 패턴 기록 효율 차이가 평균 내어지는 경우, 비교는 과잉 태깅된 폴리펩티드 라이브러리 일원에 대해 가장 정확한 결과를 얻어낼 수 있다.

예측 및 기록된 단편화 패턴의 매칭 정확도 점수는 선택후 폴리펩티드 라이브러리 일원의 상대적 양에 대한 척도로서 사용될 수 있다. 개별 태그의 단편화 패턴 기록 효율의 차이가 평균내어지는 경우, 상대적 양은 과잉 태깅된 폴리펩티드 라이브러리 일원에 대해 가장 정확한 결과를 얻어낼 수 있다.

j. 단계 i에서 동정된 검출 태그를 암호화하는 태그 암호화 서열을 포함하는 핵산 서열을, 단계 d에서 수득된 핵산 서열 집단으로부터 선택하는 단계:

이로써, 단계 i에서 동정된 검출 태그와 결합한, 태깅된 폴리펩티드 라이브러리 일원이 동정된다.

당 업자는, 단계 g 내지 j가 상기 태깅된 폴리펩티드 라이브러리의 상이한 일원 다수에 대해 동시에 수행됨을 인지하고 있다. 정의된 표준을 전시하는 몇몇 폴리펩티드 풀이 단계 g에서 선택되고, 이러한 폴리펩티드 모두는 이의 검출 태그에 관한 질량 분광분석법을 통하여 동정된다. 당 업자는, 기술상의 이유로 말미암아 이 단계에서 단 하나의 폴리펩티드만이 동정될 수 있는 것은 아님을 인지하고 있다.

단계 i에서 수행된 질량 분광분석법은 정량적 방법이므로, 본 발명에 따른 방법은 폴리펩티드의 동정을 허용할뿐만 아니라, 시료 중 이 폴리펩티드의 양의 정량도 허용한다.

과잉의 고유한 태깅이 보장되기 위해서는 다음과 같은 사항들이 중요하다:

i) 제1 라이브러리는 제한되고 정의된 크기를 가진다: 임의의 구현예에서, 제1 핵산 라이브러리의 크기는 5 내지 100,000이다. 임의의 구현예에서, 제1 핵산 라이브러리의 크기는 100 내지 50,000이다. 임의의 구현예에서, 제1 핵산 라이브러리의 크기는 500 내지 5,000이다.

ii) 제1 라이브러리 삽입 단계 전, 제2 핵산 라이브러리의 크기는 103 내지 1011, 구체적으로 105 내지 1010, 더욱 구체적으로 106 내지 109, 더욱더 구체적으로 대략 108이다.

iii) 삽입 단계 이후, 폴리펩티드/태그 조합 플라스미드 집단의 선택된 하위세트는 그 수가 상기 제1 핵산 라이브러리 일원 수의 적어도 3배, 구체적으로 적어도 5배, 더욱 구체적으로 적어도 15배, 더욱더 구체적으로 적어도 25배이다.

iv) 폴리펩티드/태그 조합 플라스미드 집단의 선택된 하위세트는 그 수가 상기 제2 핵산 라이브러리 일원 수의 50% 미만, 구체적으로 5% 미만, 더욱 구체적으로 0.5% 미만, 더욱더 구체적으로 0.05% 미만이다.

라이브러리의 크기는 제1 라이브러리가 더 큰 예비 라이브러리(pre-library)로부터 하위세트로서 선택되는 단계 a에 앞선 다양성 제한 단계에 의해 제어될 수 있다.

본 발명에 따른 방법은 단백질 전시 방법에 요구되는 유전자형-표현형의 물리적 연계가 이루어지지 않고도 단백질 라이브러리의 분석을 허용한다. 이 점은, 크기가 큰 물리적 실체(예컨대 파지 또는 리보좀 및 암호화 DNA 또는 RNA)가 단백질 라이브러리 일원에 부착된다는 단점을 없애준다. 단백질 스크리닝시 일반적으로 행하여지는 바와 같이 개별 단백질을 시험하는 대신에, 전체 단백질 라이브러리는 선택 표준에 대한 풀로서 스크리닝될 수 있다. 그러나 전체 단백질 풀이 처리되긴 하지만, 해독출력은 단 하나의 단백질이 개별적으로 특성규명되는 스크리닝시와 유사하게 얻어진다. 이 점은, 결합 단백질(약물, 진단, 연구 도구 등) 개발 분야에서 특히 관련이 있다. 단백질의 다양한 특징들이 한 번에 수 천개의 후보를 대상으로 분석될 수 있다. 예시적 의문점은 "어떤 결합물질 후보가 안정적이고, 가용성이며, 단량체인가?"일 것이다.

본 발명에 따른 방법은 단백질 치료제 개발 연쇄과정의 바로 시작점에서 관련 의문점, 즉 "어떤 결합물질이 생체 내에서 가장 큰 치료 잠재성을 가지는가?"를 해결해줄 수 있다. 치료 잠재성에 관한 의문점들로서는 하기의 것들이 있다: "어느 결합물질이 경구 투여시 장내 가혹한 조건에서 살아남을까?", "어느 결합물질이 혈액-뇌 장벽을 횡단할까?", "어느 결합물질이 혈액으로부터 최적의 신장내 청소 특성을 보일까?", "수 천개의 결합물질들 중 어느 결합물질이 관련 조직에서 우수한 조직 침투성을 보일까?".

임의의 구현예에서, 검출 태그는 -27 내지 128의 소수성 값에 의해 특징지어진다. 임의의 구현예에서, 검출 태그는 -1 내지 70의 소수성 값에 의해 특징지어진다. 소수성 값은 검출 태그가 단리된 후, 즉 절단가능한 제1 요소가 절단된 후 이 검출 태그의 질량에 관한 것이다. 소수성 값은 결합한 친화성 태그의 것은 포함하지 않는다.

임의의 구현예에서, 태깅된 폴리펩티드 라이브러리 일원은 친화성 태그와 결합한다. 이러한 친화성 태그는 질량 분광분석법 전, 검출 태그 자체 및/또는 태깅된 폴리펩티드 라이브러리의 선택된 일원의 정제를 간편화할 수 있다. 친화성 태그와 태깅된 폴리펩티드 라이브러리의 일원은 하나의 1차 아미노산 서열 내에 포함된다. 태깅된 폴리펩티드 라이브러리의 각 일원은 폴리펩티드와 검출 태그를 포함한다. 친화성 태그는 폴리펩티드 또는 검출 태그 중 어느 하나와 결합할 수 있다.

임의의 구현예에서, 친화성 태그는 His-태그, CBP-태그, CYD-태그, Strep-태그, StrepII-태그, FLAG-태그, HPC-태그, GST-태그, Avi-태그, 바이오틴화 태그, Myc-태그, 3xFLAG 태그 및 MBP-태그를 포함하는 군으로부터 선택된다.

임의의 구현예에서, 검출 태그는 친화성 태그와 결합한다. 이러한 경우, 친화성 태그는 검출 태그의 C 말단에 위치한다. 이러한 배열은, 검출 태그가 펩티다아제에 의한 분해로부터 보호받으며, 오로지 전체 검출 태그와 결합한 비분해 폴리펩티드만이 단백질 정제시에 단리되는 것을 보장한다는 추가의 이점을 가진다. 당 업자는, "친화성 태그는 검출 태그의 C 말단에 위치한다"는 표현이 반드시 친화성 태그가 검출 태그의 정확히 C 말단에 위치함을 암시하는 것은 아니고, 친화성 태그와 검출 태그를 분리시키는, 아미노산 몇 개로 이루어진 링커가 있을 수 있음을 암시한다는 것을 인지하고 있다.

임의의 구현예에서, 친화성 태그는 절단가능한 제2 요소에 의해 상기 검출 태그로부터 분리되어 있으며, 상기 절단가능한 제2 요소는 단계 i 이전에 절단된다. 그러므로 오로지 친화성 태그가 결합하고 있지 않은 검출 태그만이 질량 분광분석법에 의해 분석된다.

검출 태그의 질량 및 단편화 패턴 사양은, 결합한 폴리펩티드와 친화성 태그로부터 검출 태그가 분리된 후, 즉 절단가능한 제1 요소와 절단가능한 제2 요소가 절단된 후의 검출 태그의 질량 및 단편화 패턴에 관한 것이다. 당 업자는, 질량 분광분석법 이전에 검출 태그가, 그것과 결합하였던 친화성 태그로부터 떨어져나오지 않는 경우, 이러한 상태는 질량 분광분석법의 결과들에 영향을 줄 것임을 인지하고 있다. 만일 모든 검출 태그가 동일한 친화성 태그와 결합하고 있다면 질량 및 단편화 패턴의 변화가 설명될 수 있으므로, 검출 태그를 동정하는 것은, 절단가능한 제2 요소의 절단에 의해 친화성 태그로부터 검출 태그가 분리되는 경우만큼 효율적이고 명확하지는 않겠지만, 여전히 가능할 것이다.

임의의 구현예에서, 친화성 태그는 His-태그이다.

임의의 구현예에서, 단계 h는 단리된 검출 태그를 전자분무 이온화 질량 분광분석법과 연계된 액체 크로마토그래피(LC-MS)를 통해 분석하는 과정을 포함한다. 임의의 구현예에서, 이 단계는 액체 역상 크로마토그래피를 포함한다. 단리된 검출 태그는 시료의 복잡도를 줄이기 위하여 역상 크로마토그래피에 의해 자체의 소수성에 따라서 분리된다. 그 다음, 검출 태그의 질량과 펩티드 단편화 패턴은 질량 분광분석법에 의해 기록된다.

임의의 구현예에서, 단계 d는 전체 태깅된 발현 라이브러리를 5배 이상의 커버리지로 서열결정하는 과정을 포함한다. 임의의 구현예에서, 단계 d는 태깅된 발현 라이브러리의 딥 시퀀싱을 포함한다.

임의의 구현예에서, 단계 d는 태깅된 핵산 라이브러리 내에 포함된 태그 암호화 서열 및 폴리펩티드 암호화 서열을 함께 서열결정 벡터에 삽입하는 과정을 포함한다. 딥 시퀀싱은 보통 PCR 증폭 단계를 포함한다. 본 발명자들은, PCR 증폭이 태깅된 라이브러리 일원의 유전자 분절들 간에 유의미한 횟수의 재조합 현상들을 초래함을 알았다. 그러므로 이 재조합 현상들은, 제한 분해 및 결찰에 의한 딥 시퀀싱에 필요한 서열 요소들의 부착을 허용함으로써, 개재되어 있던 라이브러리의 딥 시퀀싱 전 PCR 증폭에 대한 필요를 없애주는, 딥 시퀀싱 플라스미드 한 세트를 구성하였다.

임의의 구현예에서, 단리된 검출 태그는 5개 내지 30개의 연속 아미노산으로 이루어져 있으며, 양 하전 측쇄를 가지는 하나 및 단 하나의 아미노산을 포함한다. 임의의 구현예에서, 단리된 검출 태그는 7개 내지 21개의 연속 아미노산으로 이루어져 있으며, 양 하전 측쇄를 가지는 하나 및 단 하나의 아미노산을 포함한다. 임의의 구현예에서, 단리된 검출 태그는 11개 내지 15개의 연속 아미노산으로 이루어져 있으며, 양 하전 측쇄를 가지는 하나 및 단 하나의 아미노산을 포함한다.

임의의 구현예에서, 양 하전 측쇄를 가지는 아미노산은 단리된 검출 태그의 C 말단에 위치한다. 임의의 구현예에서, 양 하전 측쇄를 가지는 아미노산은 아르기닌(R) 및 리신(K)으로부터 선택된다. 임의의 구현예에서, 양 하전 측쇄를 가지는 아미노산은 단리된 검출 태그의 C 말단에 위치하는 아르기닌(R)이다.

당 업자는, 단리된 검출 태그는 양 하전 측쇄를 가지는 아미노산 이외에도 중성 pH에서 또 다른 양 전하(단리된 검출 태그의 N 말단에 있는 1차 아민)를 운반함을 인지하고 있다.

임의의 구현예에서, 단리된 검출 태그는 서열 요소 I 무리로부터 선택되는 서열 요소 I을 포함하는데, 여기서 상기 서열 요소 I은 서로 독립적으로 A, S, T, N, Q, D, E, V, L, I, F, Y, W, G 및 P로부터 선택되는 아미노산 5개 내지 10개, 구체적으로 7개로 이루어져 있다.

임의의 구현예에서, 양 하전 측쇄를 가지는 하나 및 단 하나의 아미노산은 단리된 검출 태그의 C 말단에 위치하고, 나머지 아미노산은 독립적으로 A, S, T, N, Q, D, E, V, L, I, F, Y, W, G 및 P로부터 선택된다. 임의의 구현예에서, 양 하전 측쇄를 가지는 하나 및 단 하나의 아미노산은 단리된 검출 태그의 C 말단에 위치하는 R이다.

단리된 검출 태그는 질량 분광분석법, 구체적으로 LC-MS(ESI-MS와 연계된 액체 역상 크로마토그래피)에 의해 최적으로 검출 가능하다. 아미노산 C 및 M은 산화되는 경향이 있으므로 검출 태그 디자인에서 배제된다. 아미노산 K, R 및 H는, ESI-MS 검출 중 추가 전하를 운반할 것이고, 검출 범위를 최적이지 못하도록 만들것이므로 요망되지 않았던 태그에 양 하전 측쇄를 가지는 추가의 아미노산을 부가할 것이므로, 서열 요소 I에서 배제된다. K 및 R은 요망되지 않았던 태그 서열에 추가의 트립신 절단 부위를 부가할 것이다.

K를 검출 태그의 아미노산 서열에 부가하는 것은 또 다른 1차 아민의 부가를 초래할 것인데, 이는 NHS 화학을 이용하는 질량 분광분석법에 의한 상대적 및 절대적 정량을 위하여 동중 태그(isobaric tag)에 의해 검출 태그를 표지화하는 것을 복잡하게 만들 것이다.

임의의 구현예에서, 단리된 검출 태그는

a. A, S, T, N, Q, D, E, V, L, I, F, Y, W, G 및 P로부터 서로 독립적으로 선택되는 아미노산 연속으로 5개 내지 10개, 구체적으로 7개로 이루어진 서열 요소 I; 및

b. 서열 번호 01(WR), 서열 번호 02(WLR), 서열 번호 03(WQSR), 서열 번호 04(WLTVR) 및 서열 번호 05(WQEGGR)로부터 선택되는 서열 요소 II

를 포함한다.

임의의 구현예에서, 단리된 검출 태그는

a. 서열 요소 III: GS;

b. A, S, T, N, Q, D, E, V, L, I, F, Y, W, G 및 P로부터 서로 독립적으로 선택되는 아미노산 연속으로 5개 내지 10개, 구체적으로 7개로 이루어진 서열 요소 I; 및

c. 서열 번호 01(WR), 서열 번호 02(WLR), 서열 번호 03(WQSR), 서열 번호 04(WLTVR) 및 서열 번호 05(WQEGGR)로부터 선택되는 서열 요소 II

로 이루어져 있다.

서열 요소들의 순서는 N 말단에서 C 말단의 방향으로, 서열 요소 III, 서열 요소 I, 서열 요소 II이다. 이러한 검출 태그의 질량은, ESI-MS에 의한 정밀 검출에 최적인 903 Da 내지 2180 Da의 범위 이내이다. 단리된 태그는 생리학적 pH 및 그 이하의 pH에서 양 전하 2개를 운반하는데, 즉 C 말단에는 R을, 그리고 N 말단에는 1차 아민을 운반한다. 단리된 검출 태그 C 말단의 양 전하는 질량 분광분석 검출을 위한 태그의 이온화를 가속화하고, 고유의 트립신 절단 부위로서의 역할을 한다. C 말단 아르기닌 또는 리신을 가지는 펩티드는 특히 질량 분광분석법에 의해 잘 검출될 수 있다(유리한 이온화 특성). 각각의 단리된 검출 태그에 있어서, N 말단 아민은 유일한 1차 아민으로서, NHS 화학을 통한 아민 커플링(coupling)에 사용된다. 이는, 정량적 질량 분광분석을 위해 표지를 부착하여, 예를 들어 iTRAQ(상대적 및 절대적 정량을 위한 동중 태깅)의 수행을 허용한다. 검출 태그는 표준 역상 크로마토그래피 컬럼에 의한 펩티드 분리에 이상적으로 부합되는 다양한 소수성을 보이도록 조작되었다.

임의의 구현예에서, 제1 핵산 라이브러리에 포함된 모든 서열 요소 I들은 함께 서열 요소 I 무리를 구성한다. 서열 요소 I들의 무리 안에서 각각의 아미노산은 표 1에 지정된 바와 같은 출현빈도로 발생한다.

단백질 검출 방법

임의의 구현예에서, 상기 절단가능한 제1 요소 및/또는 절단가능한 제2 요소 중 하나는 프로테아제 인지 서열이거나 이 서열을 포함한다. 임의의 구현예에서, 상기 절단가능한 제1 요소 및 절단가능한 제2 요소 둘 다는 프로테아제 인지 서열이거나 이 서열을 포함한다.

임의의 구현예에서, 절단가능한 제1 요소는 트롬빈 인지 서열이거나 이 서열을 포함하고/포함하거나 절단가능한 제2 요소는 트립신 인지 서열이거나 이 서열을 포함한다.

폴리펩티드의 무리

제2 양태에 따르면, 폴리펩티드 무리가 제공된다. 폴리펩티드 무리의 각 일원은 검출 태그와 결합한다. 임의의 구현예에서, 폴리펩티드 무리의 각 일원은 적어도 하나의 검출 태그와 결합한다. "적어도 하나의 검출 태그와 결합한"이란 표현은, 폴리펩티드 무리의 각 일원이 하나를 초과하는 검출 태그와 결합하되, 폴리펩티드 분자 하나당 오로지 하나의 검출 태그와 결합할 수 있는 경우를 지칭한다. 다시 말해서, 폴리펩티드 무리는 검출 태그 X와 결합한 폴리펩티드 A와, 검출 태그 Y와 결합한 폴리펩티드 A를 포함할 수 있지만, 검출 태그 X 및 검출 태그 Y 둘 다와 결합한 폴리펩티드 A는 포함할 수 없다. 임의의 구현예에서, 폴리펩티드 무리의 각 일원은 적어도 2개의 검출 태그와 결합한다. 임의의 구현예에서, 폴리펩티드 무리의 각 일원은 적어도 5개의 검출 태그와 결합한다. 임의의 구현예에서, 폴리펩티드 무리의 각 일원은 적어도 10개의 검출 태그와 결합한다. 임의의 구현예에서, 폴리펩티드 무리의 각 일원은 대략 20개의 검출 태그와 결합한다. 각각의 검출 태그는 하기의 특징들을 가진다:

a. 발현 벡터 집단에 의해 암호화되는 임의의 다른 검출 태그의 아미노산 서열과 상이한 아미노산 태그 서열에 의해 특징지어지는 특징;

b. 분자 질량 200 Da 내지 5000 Da에 의해 특징지어지는 특징[임의의 구현예에서, 태그는 분자 질량 500 Da 내지 2500 Da에 의해 특징지어짐. 임의의 구현예에서, 태그는 분자 질량 대략 900 Da 내지 대략 2200 Da에 의해 특징지어짐. 임의의 구현예에서, 태그는 분자 질량 903 Da 내지 2180 Da에 의해 특징지어짐];

c. 절단가능한 제1 요소에 의해 상기 폴리펩티드 무리의 상기 일원으로부터 분리되는 특징.

본 발명의 제2 양태에 관한 임의의 구현예에서, 검출 태그는 -27 내지 128인 소수성 값에 의해 특징지어진다. 임의의 구현예에서, 검출 태그는 -1 내지 70인 소수성 값에 의해 특징지어진다.

본 발명의 제2 양태에 관한 임의의 구현예에서, 폴리펩티드 무리의 일원은 친화성 태그와 결합한다.

본 발명의 제2 양태에 관한 임의의 구현예에서, 검출 태그는 친화성 태그와 결합한다. 친화성 태그 및 검출 태그는 동일한 1차 아미노산 서열 내에 포함된다. 친화성 태그는 절단가능한 제2 요소에 의해 검출 태그로부터 분리된다. 검출 태그는 절단가능한 제2 요소의 절단을 통하여 친화성 태그로부터 떨어져 나올 수 있다. 임의의 구현예에서, 친화성 태그는 His-태그, CBP-태그, CYD-태그, Strep-태그, StrepII-태그, FLAG-태그, HPC-태그, GST-태그, Avi-태그, 바이오틴화 태그, Myc-태그, 3xFLAG 태그 및 MBP-태그를 포함하는 군으로부터 선택된다. 임의의 구현예에서, 친화성 태그는 His-태그이다.

본 발명의 제2 양태에 관한 임의의 구현예에서, 단리된 검출 태그는 5개 내지 30개의 연속 아미노산으로 이루어져 있으며, 양 하전 측쇄를 가지는 아미노산 하나 및 단 하나를 포함한다. 임의의 구현예에서, 단리된 검출 태그는 7개 내지 21개의 연속 아미노산으로 이루어져 있으며, 양 하전 측쇄를 가지는 아미노산 하나 및 단 하나를 포함한다. 임의의 구현예에서, 단리된 검출 태그는 11개 내지 15개의 연속 아미노산으로 이루어져 있으며, 양 하전 측쇄를 가지는 아미노산 하나 및 단 하나를 포함한다.

임의의 구현예에서, 양 하전 측쇄를 가지는 아미노산은 단리된 검출 태그의 C 말단에 위치한다. 임의의 구현예에서, 양 하전 측쇄를 가지는 아미노산은 아르기닌(R) 및 리신(K)으로부터 선택된다. 임의의 구현예에서, 양 하전 측쇄를 가지는 아미노산은 단리된 검출 태그의 C 말단에 위치하는 아르기닌(R)이다.

본 발명의 제2 양태에 관한 임의의 구현예에서, 검출 태그는

a. A, S, T, N, Q, D, E, V, L, I, F, Y, W, G 및 P로부터 서로 독립적으로 선택되는 아미노산 연속으로 5개 내지 10개, 구체적으로 7개로 이루어진 서열 요소 I; 및

b. 서열 번호 01(WR), 서열 번호 02(WLR), 서열 번호 03(WQSR), 서열 번호 04(WLTVR) 및 서열 번호 05(WQEGGR)로부터 선택되는 서열 요소 II

를 포함한다.

검출 태그

제3 양태에 따르면, 질량 분광분석법에 의한 최적의 검출을 위해 디자인된 펩티드 검출 태그가 제공된다. 검출 태그는 4개 내지 20개의 아미노산으로 이루어져 있으며, 하기의 특징들을 가진다:

a. 양 하전 측쇄를 가지는 아미노산을 단 하나만 포함하는 특징;

b. 200 Da 내지 5000 Da의 분자 질량에 의해 특징지어지는 특징[임의의 구현예에서, 검출 태그는 500 Da 내지 2500 Da의 분자 질량에 의해 특징지어짐. 임의의 구현예에서, 검출 태그는 900 Da 내지 2200 Da의 분자 질량에 의해 특징지어짐. 임의의 구현예에서, 검출 태그는 903 Da 내지 2180 Da의 분자 질량에 의해 특징지어짐].

본 발명의 제3 양태에 관한 임의의 구현예에서, 검출 태그는 7개 내지 18개의 아미노산으로 이루어져 있다. 본 발명의 제3 양태에 관한 임의의 구현예에서, 검출 태그는 11개 내지 15개의 아미노산으로 이루어져 있다.

본 발명의 제3 양태에 관한 임의의 구현예에서, 검출 태그는 본질적으로

a. A, S, T, N, Q, D, E, V, L, I, F, Y, W, G 및 P로부터 서로 독립적으로 선택되는 아미노산 연속으로 5개 내지 10개, 구체적으로 7개로 이루어진 서열 요소 I; 및

b. 서열 번호 01(WR), 서열 번호 02(WLR), 서열 번호 03(WQSR), 서열 번호 04(WLTVR) 및 서열 번호 05(WQEGGR)로부터 선택되는 서열 요소 II

로 이루어져 있다.

검출 태그 무리

다른 양태에 따르면, 펩티드 태그 무리가 제공된다. 펩티드 태그 무리는 본 발명의 제3 양태에 따른 펩티드 태그를 포함한다. 펩티드 태그 무리에 포함된 각각의 검출 태그는 4개 내지 20개의 아미노산으로 이루어져 있으며, 상기 검출 태그 무리 내에 포함된 임의의 또다른 검출 태그의 아미노산 서열과 상이한 아미노산 서열에 의해 특징지어진다. 임의의 구현예에서, 각각의 검출 태그는 7개 내지 18개의 아미노산으로 이루어져 있다. 임의의 구현예에서, 각각의 검출 태그는 11개 내지 15개의 아미노산으로 이루어져 있다. 임의의 구현예에서, 펩티드 태그 무리는 적어도 96개의 펩티드 태그를 포함한다. 임의의 구현예에서, 펩티드 태그 무리는 적어도 500,000개의 펩티드 태그를 포함한다. 임의의 구현예에서, 펩티드 태그 무리는 적어도 107개의 펩티드 태그를 포함한다. 임의의 구현예에서, 펩티드 태그 무리는 대략 108개의 펩티드 태그를 포함한다.

본 발명의 이 양태에 관한 임의의 구현예에서, 검출 태그는 양 하전 측쇄를 가지는 단 하나의 아미노산을 포함하고, 나머지 아미노산은 A, S, T, N, Q, D, E, V, L, I, F, Y, W, G 및 P로부터 선택된다.

본 발명의 이 양태에 관한 임의의 구현예에서, 태그는 -27 내지 128의 소수성 값에 의해 특징지어진다. 임의의 구현예에서, 검출 태그는 -1 내지 70의 소수성 값에 의해 특징지어진다.

본 발명의 이 양태에 관한 임의의 구현예에서, 검출 태그는 친화성 태그와 결합한다. 임의의 구현예에서, 친화성 태그는 His-태그, CBP-태그, CYD-태그, Strep-태그, StrepII-태그, FLAG-태그, HPC-태그, GST-태그, Avi-태그, 바이오틴화 태그, Myc-태그, 3xFLAG 태그 및 MBP-태그를 포함하는 군으로부터 선택된다. 임의의 구현예에서, 친화성 태그는 His-태그이다. 친화성 태그와 검출 태그는 동일한 1차 아미노산 서열 내에 포함된다. 친화성 태그는 절단가능한 요소에 의해 검출 태그로부터 분리된다.

본 발명의 이 양태에 관한 임의의 구현예에서, 검출 태그는 본질적으로

a. A, S, T, N, Q, D, E, V, L, I, F, Y, W, G 및 P로부터 서로 독립적으로 선택되는 아미노산 연속으로 5개 내지 10개, 구체적으로 7개로 이루어진 서열 요소 I; 및

b. 서열 번호 01(WR), 서열 번호 02(WLR), 서열 번호 03(WQSR), 서열 번호 04(WLTVR) 및 서열 번호 05(WQEGGR)로부터 선택되는 서열 요소 II

로 이루어져 있다.

플라스미드 벡터 무리

또 다른 양태에 따르면, 플라스미드 벡터 무리가 제공된다. 상기 플라스미드 벡터 무리의 각 일원은 검출 태그를 암호화하는 핵산 서열을 포함한다. 각각의 검출 태그는 4개 내지 20개의 아미노산을 포함하고, 상기 플라스미드 벡터 무리에 의해 암호화되는 임의의 또 다른 검출 태그의 아미노산 서열과 상이한 아미노산 서열에 의해 특징지어진다. 임의의 구현예에서, 각각의 검출 태그는 7개 내지 18개의 아미노산으로 이루어져 있다. 임의의 구현예에서, 각각의 검출 태그는 11개 내지 15개의 아미노산으로 이루어져 있다. 임의의 구현예에서, 플라스미드 벡터 무리는 적어도 96개의 플라스미드 벡터를 포함한다. 임의의 구현예에서, 플라스미드 벡터 무리는 적어도 500,000개의 플라스미드 벡터를 포함한다. 임의의 구현예에서, 플라스미드 벡터 무리는 적어도 107개의 플라스미드 벡터를 포함한다. 임의의 구현예에서, 플라스미드 벡터 무리는 대략 108개의 플라스미드 벡터를 포함한다.

본 발명의 이 양태에 관한 임의의 구현예에서, 검출 태그는 양 하전 측쇄를 가지는 단 하나의 아미노산을 포함한다.

본 발명의 이 양태에 관한 임의의 구현예에서, 검출 태그는 200 Da 내지 5000 Da의 분자 질량에 의해 특징지어진다. 임의의 구현예에서, 검출 태그는 500 Da 내지 2500 Da의 분자 질량에 의해 특징지어진다. 임의의 구현예에서, 검출 태그는 900 Da 내지 2200 Da의 분자 질량에 의해 특징지어진다. 임의의 구현예에서, 검출 태그는 903 Da 내지 2180 Da의 분자 질량에 의해 특징지어진다.

본 발명의 이 양태에 관한 임의의 구현예에서, 태그는 -27 내지 128의 소수성 값에 의해 특징지어진다. 임의의 구현예에서, 검출 태그는 -1 내지 70의 소수성 값에 의해 특징지어진다.

본 발명의 이 양태에 관한 임의의 구현예에서, 검출 태그는 친화성 태그와 결합한다. 임의의 구현예에서, 친화성 태그는 His-태그, CBP-태그, CYD-태그, Strep-태그, StrepII-태그, FLAG-태그, HPC-태그, GST-태그, Avi-태그, 바이오틴화 태그, Myc-태그, 3xFLAG 태그 및 MBP-태그를 포함하는 군으로부터 선택된다. 임의의 구현예에서, 친화성 태그는 His-태그이다. 친화성 태그와 검출 태그는 동일한 1차 아미노산 서열 내에 포함되어 있다. 친화성 태그는 절단가능한 제2 요소에 의해 검출 태그로부터 분리된다.

본 발명의 이 양태에 관한 임의의 구현예에서, 검출 태그는 본질적으로

a. A, S, T, N, Q, D, E, V, L, I, F, Y, W, G 및 P로부터 서로 독립적으로 선택되는 아미노산 연속으로 5개 내지 10개, 구체적으로 7개로 이루어진 서열 요소 I; 및

b. 서열 번호 01(WR), 서열 번호 02(WLR), 서열 번호 03(WQSR), 서열 번호 04(WLTVR) 및 서열 번호 05(WQEGGR)로부터 선택되는 서열 요소 II

로 이루어져 있다.

본 발명의 이 양태에 관한 임의의 구현예에서, 플라스미드 벡터 무리의 각 일원은

a. 5'말단 쪽은 제1 엔도뉴클레아제 제한 부위가 측접하고, 3'말단 쪽은 제2 엔도뉴클레아제 제한 부위가 측접하는 음성 선택 카세트;

b. 제1 엔도뉴클레아제 제한 부위의 5'말단 쪽에 위치하는 프로모터;

c. 제2 엔도뉴클레아제 제한 부위의 3'말단 쪽에 위치하는, 검출 태그를 암호화하는 핵산 태그 서열[임의의 구현예에서, 검출 태그를 암호화하는 핵산 서열과 제2 엔도뉴클레아제 제한 부위는 100개 미만의 염기쌍으로 분리됨. 임의의 구현예에서, 검출 태그를 암호화하는 핵산 서열과 제2 엔도뉴클레아제 제한 부위는 50개 미만의 염기쌍으로 분리됨. 임의의 구현예에서, 검출 태그를 암호화하는 핵산 서열과 제2 엔도뉴클레아제 제한 부위는 대략 20개의 염기쌍으로 분리됨. 임의의 구현예에서, 검출 태그를 암호화하는 핵산 서열과 제2 엔도뉴클레아제 제한 부위 사이에 위치하는 염기쌍은 절단가능한 제1 요소를 암호화함]

을 포함한다.

본 발명의 이 양태에 관한 임의의 구현예에서, 플라스미드 벡터 무리의 각 일원은

a. 동일한 해독 틀 내에서 폴리펩티드를 암호화하는 핵산 서열과 결합하는, 검출 태그를 암호화하는 핵산 태그 서열;

b.서열결정 중 신호의 과부하를 막아주는, 비 동일 염기를 포함하는 다양성 요소(diversity element);

c. 서열결정 프라이머의 결합을 위한 프라이머 결합 부위;

d. 다중 처리를 위한 몇몇 정의된 핵산 서열들 중 하나를 포함하는 인덱스 요소(index element);

e. 서열결정 중 DNA 분자를 고정시키는 어댑터 요소(adapter element); 및

f. 서열결정 전 플라스미드 벡터로부터 DNA 단편을 방출시키는, 요소 a ~ e에 측접하는 2개의 엔도뉴클레아제 제한 부위

를 포함한다.

상기 구현예에 기술된 플라스미드 벡터는 딥 시퀀싱 플라스미드로서 사용된다. 우선적으로 이 벡터는 서열결정될 단편의 길이가 감소하도록 친화성 태그를 포함하지 않는다.

단백질 검출 방법

다른 양태에 따르면, 단백질 검출 방법이 제공된다. 본 방법은 하기 단계들을 포함한다:

a. 폴리펩티드 라이브러리를 암호화하는 핵산 라이브러리를 제공하는 단계:

폴리펩티드 라이브러리 내에 포함된 각각의 폴리펩티드는 검출 태그와 결합한다. 폴리펩티드 및 검출 태그는 동일한 1차 아미노산 서열 내에 포함된다. 각각의 검출 태그는 하기 특징들, 즉

i) 핵산 라이브러리에 의해 암호화되는 임의의 다른 검출 태그의 아미노산 서열과 상이한 아미노산 서열에 의해 특징지어지는 특징;

ii) 200 Da 내지 5000 Da의 분자 질량에 의해 특징지어지는 특징[임의의 구현예에서, 태그는 500 Da 내지 2500 Da의 분자 질량에 의해 특징지어짐. 임의의 구현예에서, 태그는 대략 900 Da 내지 대략 2200 Da의 분자 질량에 의해 특징지어짐. 임의의 구현예에서, 태그는 903 Da 내지 2180 Da의 분자 질량에 의해 특징지어짐];

iii) 절단가능한 제1 요소에 의해 결합한 폴리펩티드로부터 분리되어 있는 특징

을 가진다.

핵산 라이브러리에 의해 암호화되는 각각의 검출 태그는, 핵산 라이브러리에 의해 암호화되는 임의의 다른 검출 태그에 대해 고유한 것이다. 폴리펩티드 라이브러리 내에 포함된 각각의 폴리펩티드는 적어도 하나의 검출 태그와 결합한다. 임의의 구현예에서, 폴리펩티드 라이브러리 내에 포함된 각각의 폴리펩티드는 적어도 2개의 검출 태그와 결합한다. 임의의 구현예에서, 폴리펩티드 라이브러리 내에 포함된 각각의 폴리펩티드는 적어도 5개의 검출 태그와 결합한다. 임의의 구현예에서, 폴리펩티드 라이브러리 내에 포함된 각각의 폴리펩티드는 적어도 10개의 검출 태그와 결합한다. 임의의 구현예에서, 폴리펩티드 라이브러리 내에 포함된 각각의 폴리펩티드는 대략 20개의 검출 태그와 결합한다. 각각의 폴리펩티드 분자는 단 하나의 검출 태그를 포함한다.

b. 데이터베이스를 제공하는 단계:

데이터베이스는 하기의 정보, 즉

i) 핵산 및/또는 아미노산 서열 집단[다만 서열 집단은 핵산 라이브러리 일원 모두의 서열을 포함함. 각각의 서열은 폴리펩티드를 지정하는 서열과 검출 태그를 지정하는 서열을 포함함]

ii) 핵산 라이브러리에 의해 암호화된 각각의 검출 태그에 대한 질량 분광분석 단편화 패턴

을 포함한다.

c. 핵산 라이브러리로부터 폴리펩티드 라이브러리를 발현시키는 단계;

d. 선택 단계에서 폴리펩티드 라이브러리 일원을 선택하여, 선택된 폴리펩티드를 수득하는 단계;

e. 절단가능한 제1 요소를 절단하는 단계:

이로써, 검출 태그는 선택된 폴리펩티드로부터 분리되고, 단리된 검출 태그가 수득된다.

f. 단리된 검출 태그를 하기의 방법, 즉

i) 단리된 검출 태그의 단편화 패턴을 질량 분광분석법에 의해 기록함.

ii) 제공된 데이터베이스 내 예측 단편화 패턴과 단계 i)에서 수득된 단편화 패턴을 매칭하는 단계[이로써, 단리된 검출 태그가 동정됨. 질량 분광분석법에 의해 수득된 정보와, 태깅된 핵산 라이브러리의 서열결정에 의해 수득된 정보가 조합되면, 주어진 검출 태그의 명확한 동정이 가능함]

으로 동정하는 단계;

g. 단계 f에서 동정된 검출 태그를 지정하는 서열을 데이터베이스에 포함된 서열 집단으로부터 선택하는 단계: 이로써, 단계 f에서 동정된 검출 태그와 결합한 폴리펩티드 라이브러리의 일원이 동정된다.

임의의 구현예에서, 상기 폴리펩티드 라이브러리의 각 일원은 친화성 태그와 결합한다.

임의의 구현예에서, 각각의 검출 태그는 친화성 태그와 결합한다.

임의의 구현예에서, 친화성 태그는 His-태그, CBP-태그, CYD-태그, Strep-태그, StrepII-태그, FLAG-태그, HPC-태그, GST-태그, Avi-태그, 바이오틴화 태그, Myc-태그, 3xFLAG 태그 및 MBP-태그를 포함하는 군으로부터 선택된다.

임의의 구현예에서, 친화성 태그는 절단가능한 제2 요소에 의해 상기 검출 태그로부터 분리되고, 상기 절단가능한 제2 요소는 단계 f 이전에 절단된다. 그러므로 오로지 친화성 태그가 결합하고 있지 않은 검출 태그만이 질량 분광분석법에 의해 분석된다.

검출 태그의 질량 및 단편화 패턴 사양은, 결합한 폴리펩티드와 친화성 태그로부터 검출 태그가 분리된 후, 즉 절단가능한 제1 요소와 절단가능한 제2 요소가 절단된 후의 이 검출 태그의 질량 및 단편화 패턴에 관한 것이다. 당 업자는, 질량 분광분석법 이전에 검출 태그가, 그것과 결합하고 있던 친화성 태그로부터 떨어져나오지 않는 경우, 이러한 상태는 질량 분광분석법의 결과들에 영향을 미칠 것임을 인지하고 있다. 모든 검출 태그는 동일한 친화성 태그와 결합하고 있으므로, 질량 및 단편화 패턴의 변화가 설명될 수 있고, 따라서 검출 태그를 동정하는 것은, 절단가능한 제2 요소의 절단에 의해 친화성 태그로부터 검출 태그가 분리되는 경우만큼 효율적이고 명확하지는 않겠지만, 여전히 가능할 것이다.

임의의 구현예에서, 친화성 태그는 His-태그이다.

당 업자는, 단계 d 내지 g가 폴리펩티드 라이브러리의 상이한 일원들 다수에 대해 동시에 수행됨을 인지하고 있다. 몇몇 폴리펩티드의 풀이 단계 g에서 선택되고, 이러한 폴리펩티드 모두가 이것들의 검출 태그에 대한 질량 분광분석법을 통해 동정된다. 당 업자는, 기술상의 이유로 말미암아 이 단계에서 단 하나의 폴리펩티드만이 동정될 수 있는 것은 아님을 인지하고 있다.

단계 f에서 수행된 질량 분광분석법은 정량적 방법이므로, 본 발명에 따른 방법은 폴리펩티드의 동정을 허용할뿐만 아니라, 시료 중 이 폴리펩티드의 양의 정량도 허용한다.

폴리펩티드와 고유의 검출 태그를 결합시키는 방법

또 다른 양태에 따라서, 폴리펩티드와 고유의 검출 태그를 결합시키는 방법이 제공된다. 이 방법은 하기 단계들을 포함한다:

a. 제1 핵산 라이브러리를 제공하는 단계:

제1 핵산 라이브러리의 각 일원은 제1 폴리펩티드 라이브러리 일원을 암호화하는 폴리펩티드 암호화 서열을 포함한다.

b. 제2 핵산 라이브러리를 제공하는 단계:

제2 핵산 라이브러리의 각 일원은 검출 태그를 암호화하는 태그 암호화 서열을 포함한다. 각각의 검출 태그는 하기의 특징들, 즉

i) 제2 핵산 라이브러리에 의해 암호화되는 임의의 다른 검출 태그의 아미노산 서열과 상이한 아미노산 서열에 의해 특징지어지는 특징;

ii) 200 Da 내지 5000 Da의 분자 질량에 의해 특징지어지는 특징[임의의 구현예에서, 태그는 500 Da 내지 2500 Da의 분자 질량에 의해 특징지어짐. 임의의 구현예에서, 태그는 대략 900 Da 내지 대략 2200 Da의 분자 질량에 의해 특징지어짐. 임의의 구현예에서, 태그는 903 Da 내지 2180 Da의 분자 질량에 의해 특징지어짐]

을 가진다.

c. 제1 핵산 라이브러리의 일원에 포함된 폴리펩티드 암호화 서열을 제2 핵산 라이브러리의 일원에 삽입하는 단계:

이로써, 폴리펩티드-태그 조합 플라스미드 집단이 제조된다.

제1 핵산 라이브러리의 크기는 5 내지 100,000이다. 임의의 구현예에서, 제1 핵산 라이브러리의 크기는 100 내지 50,000이다. 임의의 구현예에서, 제1 핵산 라이브러리의 크기는 500 내지 5,000이다.

제2 핵산 라이브러리의 크기는 103 내지 1011이다. 임의의 구현예에서, 제2 핵산 라이브러리의 크기는 105 내지 1010이다. 임의의 구현예에서, 제2 핵산 라이브러리의 크기는 106 내지 109이다. 임의의 구현예에서, 제2 핵산 라이브러리의 크기는 대략 108이다.

폴리펩티드/태그 조합 플라스미드 집단 내에서, 제1 핵산 라이브러리의 각 폴리펩티드 암호화 서열은 제2 핵산 라이브러리의 태그 암호화 서열과 결합한다. 결합은 동일한 해독 틀 안에서 일어난다.

d. 폴리펩티드-태그 조합 플라스미드 집단의 하위세트를 선택하는 단계:

이 선택 단계는, 각각이 폴리펩티드-태그 조합 플라스미드 집단의 한 일원을 포함하는 클론의 정의된 수만큼을 선택하는 과정을 포함한다. 이로써, 태깅된 폴리펩티드 라이브러리를 암호화하는 태깅된 핵산 라이브러리가 제조된다. 태깅된 폴리펩티드 라이브러리의 각 일원은 폴리펩티드 및 검출 태그를 포함한다. 각각의 태그는 태깅된 폴리펩티드 라이브러리의 단 하나의 일원에 포함된다. 다시 말해서 각각의 검출 태그는 태깅된 폴리펩티드 라이브러리 내에 고유하게 존재한다. 그러나 각각의 폴리펩티드는 태깅된 폴리펩티드 라이브러리의 몇몇 일원에 포함될 수 있다(과잉 태깅).

임의의 구현예에서, 각각의 폴리펩티드는 적어도 하나의 검출 태그와 결합한다. 임의의 구현예에서, 각각의 폴리펩티드는 적어도 2개의 검출 태그와 결합한다. 임의의 구현예에서, 각각의 폴리펩티드는 적어도 5개의 검출 태그와 결합한다. 임의의 구현예에서, 각각의 폴리펩티드는 적어도 10개의 검출 태그와 결합한다. 임의의 구현예에서, 각각의 폴리펩티드는 대략 20개의 검출 태그와 결합한다.

본 발명의 이 양태에 관한 임의의 구현예에서, 폴리펩티드-태그 조합 플라스미드 집단의 선택된 하위세트는 그 수가 제1 핵산 라이브러리 일원의 수의 적어도 10배이다. 임의의 구현예에서, 폴리펩티드-태그 조합 플라스미드 집단의 선택된 하위세트는 그 수가 제1 핵산 라이브러리 일원의 수의 적어도 20배이다.

본 발명의 이 양태에 관한 임의의 구현예에서, 폴리펩티드-태그 조합 플라스미드 집단의 선택된 하위세트는 그 수가 제2 핵산 라이브러리 일원의 수의 50% 미만이다. 본 발명의 이 양태에 관한 임의의 구현예에서, 폴리펩티드-태그 조합 플라스미드 집단의 선택된 하위세트는 그 수가 제2 핵산 라이브러리 일원의 수의 5% 미만이다. 본 발명의 이 양태에 관한 임의의 구현예에서, 폴리펩티드-태그 조합 플라스미드 집단의 선택된 하위세트는 그 수가 제2 핵산 라이브러리 일원의 수의 0.05% 미만이다.

폴리펩티드-태그 조합 플라스미드 집단의 선택된 하위세트의 최적 크기가 선택되면, 태깅된 폴리펩티드 라이브러리에 있어서 각각의 검출 태그는 고유하게 존재하게 되지만(오로지 하나씩만 존재하게 되지만), 각각의 폴리펩티드는 수 개씩 존재하되, 매번 상이한 검출 태그와 결합하여 존재하는 것이 보장된다.

분리가능한 단일의 특징에 대한 대안이 본원에 "구현예"로서 제시된 경우라면 언제든지, 이러한 대안은 자유로이 조합되어 본원에 개시된 본 발명의 별개의 구현예들을 이룰 수 있음이 이해될 것이다.

본 발명은, 추가의 구현예들과 이점들이 추론될 수 있는 하기 실시예들 및 도면들에 의해 추가로 기술된다. 이러한 실시예는, 본 발명을 예시하기 위한 의미를 가지지, 본 발명의 범위를 제한하는 의미를 가지지 않는다.

도면의 간단한 설명

도 1은 NestLink 기술의 개요를 보여주는 것이다. A) 나노바디 라이브러리는 발현 벡터 pNLx상에 암호화되는 플라이코드 라이브러리 내에 개재된다. 이후 플라이코딩된 나노바디 서열은 제한 분해를 통해 절개되어, pNLs에 삽입되는데, 그 결과 딥 시퀀싱에 필요한 어댑터 서열의 부착이 초래된다. 그 다음, 플라이코딩된 나노바디에 결합한 어댑터는 제한 분해를 통해 절개되고 나서, 선형의 형태로 딥 시퀀싱의 대상이 된다. B) pNLx에서 암호화되어 개재된 라이브러리는 발현 및 정제된다. 선택압이 적용되고(이러한 특정의 경우, 나노바디 단량체의 겉보기 분자량을 가지는 단백질이 크기별 배제 크로마토그래피를 통해 선택됨), 선택된 나노바디의 플라이코드는 프로테아제 절단을 통해 단리된다. C) 딥 시퀀싱 데이터는 모든 플라이코드를 이것의 대응 나노바디에 할당하는 데이터베이스의 생성을 허용한다. 각각의 나노바디의 플라이코드들이 연쇄결찰(concatenating)된다. 앞서 단리된 플라이코드들(B 참조)은 LC-MS의 대상이 되고, 기록된 MS/MS 데이터의 피크 목록이 작성된다. MS/MS 데이터는 연쇄결찰된 플라이코드들을 함유하는 데이터베이스에 대해 검색되고, 이로써 선택된 나노바디의 동정과 상대적 정량이 허용된다.

도 2는 라이브러리 삽입 전(윗 열)과 삽입 후(아래 열) NestLink 기술에 관련된 플라스미드 디자인을 보여주는 것이다. A) 표적 분자에 대한 나노바디의 파지 전시 선택에 사용되는 파지미드. 파지미드는 파지 전시에 의한 증량 후 나노바디 라이브러리의 삽입과, 이 라이브러리의 NestLink 발현 벡터 pNLx로의 효율적 이동을 허용하는 SapI 제한 부위 2개를 운반한다. B) 대략 108개 변이체 플라이코드 다양성을 보유하는 NestLink 발현 벡터 pNLx. 나노바디 라이브러리 삽입이 일어날 때 SapI 부위는 제거되도록 디자인된다. 플라이코딩된 나노바디는 특별히 SfiI 제한을 통하여 발현 벡터로부터 절개될 수 있다. Sfi 부위들의 치환은 전체 나노바디의 대응 플라이코드에 부착된 이 전체 나노바디의 딥 시퀀싱을 보장하되, 과잉 서열, 예컨대 PelB 및 His-태그를 배제함으로써 딥 시퀀싱 해독 길이를 최소화한다. C) 다양한 인덱스를 가지는 딥 시퀀싱 벡터(pLN)들(각각의 벡터는 Illumina MiSeq 서열결정에 필요한 서열 모두를 보유함)의 한 세트가 제조되었다. 플라이코딩된 나노바디는 Sfi 제한 및 결찰을 통해 이 벡터에 삽입된다. 그 다음, 이 플라이코딩된 나노바디는 BseRI 제한에 의해 모든 MiSeq 어댑터 영역을 함유하는 선형의 단편으로서 방출된다. 이러한 방식으로 MiSeq 분석용 DNA 단편을 제조함에 있어 PCR은 필요하지 않게 되고, 이 점은 나노바디-플라이코드 서열에서의 재조합 현상을 초래할 것이며, 이로써 플라이코드와 나노바디 서열 간 연계는 파괴될 것이다. D) 딥 시퀀싱 어댑터는 또한 pNLx에 암호화된 SfiI 제한 부위에 상보성인, 적당한 단일 가닥 돌출부(overhang)를 통하여 합성 이중 가닥 어댑터 올리고뉴클레오티드에 의해 부착될 수 있다.

도 3은 LC-MS가 사용되는, 플라이코드를 통한 PLOI 일원들의 절대적 정량의 결과를 보여주는 것이다. 이. 콜라이(E. coli) 유래 용해물 또는 엠. 스메그마티스(M. smegmatis) 유래 용해물 중 어느 하나를 함유하는 상이한 시료 2개 각각에 공지된 양(x축, 7가지)만큼의 플라이코딩된 사이바디가 스파이킹(spiking)되었다(백그라운드). 플라이코딩된 사이바디는 0.2, 0.4, 1.3, 4.1, 8.5, 18.0 및 27.5 흡광도 단위(280 nm)에서 스파이킹되었고, 딥 시퀀싱에 의해 확인되는 바와 같이 28, 56, 112, 56, 112, 84 및 112개의 플라이코드를 함유하였다. 단리된 플라이코드는 LC-MS에 의해 분석되었다. 각 사이바디의 모든 플라이코드로부터 구하여진 MS1 세기는 소프트웨어 Progenesis를 사용하여 합하여졌다.

도 4는 최고의 오프-레이트를 보이는 사이바디의, NestLink를 통한 1,080개 후보 결합물질로부터의 동정 결과를 보여주는 것이다. A: 용액 중 바이오틴화 표적 단백질과 공동 용리된(SEC) 단량체 사이바디는 2개의 동등한 스트렙타비딘 세파로스 컬럼상에 고정되었다. 컬럼 하나는 완충제로 세척되었고, 컬럼 다른 하나는 과량의 비 바이오틴화 표적으로 3분 동안 세척되었다. 그 다음, 나머지 결합하고 있던 사이바디의 플라이코드가 단리되었고, LC-MS1 세기에 의해 정량되었다. B: LC-MS1 세기(모든 플라이코드에 대한 합)는 풀의 각 일원에 대해 확정되었고, 두 컬럼 간 비율은 각각의 개별 사이바디(x축)에 대해 y축에 플롯작성되었다. 용액 중에서 발현되지 않았거나, 단량체가 아니거나, 또는 표적과 결합하지 않은 사이바디들은 컬럼 중 그 어떤 것에서도 검출되지 않았는데, 그 이유는 이러한 사이바디가 원리 증명 실험에 기술된 예비 선택압으로 말미암아 제거되었기 때문이다(사이바디 320 ~ 1,080). 약하게 결합하고 있는 사이바디는 완충제 세척 이후에만 검출 가능하였지만, 과량의 표적과는 경쟁하지 않았다(사이바디 187 ~ 320). 사이바디 1 ~ 186은 두 컬럼에서 검출되었고, 이것들의 오프-레이트에 따라 순위가 매겨졌다. 하류 적용에 대해 가장 기대되는 사이바디는 오프-레이트가 가장 느려서 비율이 1에 가까운 것이다. C: 개별적으로 골라진 사이바디의 NestLink 해독출력과 SPR 실험의 상관관계. B에서 분석된 사이바디 11개의 DNA 서열이 합성되었으며(유전자 합성), 대응하는 결합물질은 발현된 다음, 정제된 후, 표면 플라스몬 공명법에 의해 하나씩 분석되었다. 3분간의 세척 후 잔여 결합 신호(오프-레이트의 척도)를 x축으로, 그리고 B에 보인 바와 같이 NestLink에 의해 확정된 사이바디 비율을 y축으로 하여 SPR 데이터가 플롯작성되었다.

도 5: 면역화된 알파카로부터 유래한 3,469개 나노바디의 분석 결과와, 용액 중 가장 강한 항원 결합성을 보이는 나노바디의 동정 결과. 발현 수준이 떨어지는 풀 일원들이 제거되고(단계 1), 용해도가 불량한 풀 일원들이 제거된 후(단계 2, 단량체 나노바디의 선택), 풀의 단량체 분획은 3가지 상이한 화학양론적 비율로 막 단백질 항원과 항온처리된 다음, SEC를 통해 분석되었다. LC-MS 시료는 단계 1(각각의 개별 풀 일원의 발현 수준 보고) 이후, 단계 2(용해도 또는 각각의 개별 풀 일원 보고)에서 수집되었으며, 단계 3에서는 모든 표적/복합체 피크들을 보이는 분획으로부터 수집되었다. 원 그래프는 각각의 나노바디에 대한 모든 MS1 세기의 합에 의해 측정되는 바와 같은, 선택 과정의 상이한 단계에서의 풀 중 각 나노바디의 상대적 양(100% = 모든 나노바디의 모든 플라이코드에 대한 모든 MS1 세기의 합)을 나타낸다(비 결합물질 또는 약 결합물질은 다 함께 회색으로 보였으며, 풀 일원의 총량은 100%에 대응함). 단계 3에 대해 예상되는 바와 같이, 풀 대 항원 비율의 증가는, 제한된 양의 항원에 대한 다수의 결합 풀 일원의 내부 경쟁 증가를 유도한다. 그러므로 친화성이 가장 큰 풀 일원의 분율은 제한된 에피토프에 대해 더 큰 경쟁을 보이며 증가한다.

도 6: 관심 있는 그램 음성 세균의 세포 표면 결합(단계 2)에 있어서, 정제된 외막 단백질 표적에 대한 시험관 내 선택(단계 1)에 의해 제조된 풀로부터 유래한 1,456개 사이바디 분석 결과. 단계 2(NestLink)에 있어서, 발현 수준이 떨어지고 용해도가 불량한 풀 일원이 처음에 총체(ensemble)로부터 제거되었고, 그 다음 상이한 관심 있는 세균 균주 4개가 사용되어 4회의 상이한 풀-다운(pull-down) 실험이 실시되었다. 세포와 큰 친화성으로 결합하지 않았던 풀 일원이 세척에 의해 제거된 후, 풀의 모든 플라이코드가 단리되어 LC-MS에 의해 분석되었다. 그 다음, 사이바디당 모든 플라이코드의 모든 MS1 세기들의 합은 표적 세포 각각에 있어서의 풀 중 각각의 개별 사이바디의 상대적 농도에 대한 척도로서 사용될 수 있었다. 이는, 4가지 세포 유형 각각에 있어서의 (전체 풀을 기준으로 한) 사이바디의 상대적 농도(x축)를 각각의 사이바디에 대해 보고하는 명확한 세포-특이성 해독출력(B)의 수득을 허용하였다. 명확성을 도모하기 위해, 분석된 모든 사이바디의 25%만을 B에 보였다.

실시예

플라이코드 서열 라이브러리

짧은 DNA 암호화 펩티드의 무작위화 라이브러리가, 질량 분광분석법(MS), 구체적으로 LC-MS(ESI-MS와 연계된 액체 역상 크로마토그래피)에 의해 최적으로 검출될 수 있도록 디자인되었다. 이 펩티드의 질량 범위는 ESI-MS에 의한 정밀 검출에 최적인 903 Da 내지 2180 Da이다. 플라이코드는 생리적 pH 이하에서 2개의 양 전하를 운반하는데, 즉 C 말단의 R과, N 말단의 1차 아민을 운반한다. 플라이코드의 C 말단에 있는 양 전하는 질량 분광분석 검출을 위한 펩티드의 이온화를 가속화하고, 고유의 트립신 절단 부위로서의 역할을 한다. 각각의 플라이코드에 있어서, N 말단 아민은 단지 1차 아민으로서, 간단한 NHS 화학을 통한 아민 커플링에 사용된다. 이는, 정량적 질량 분광분석을 위해 표지를 부착하여, 예를 들어 iTRAQ(상대적 및 절대적 정량을 위한 동중 태깅)가 수행될 수 있도록 허용한다. 플라이코드는 표준 역상 크로마토그래피 컬럼에 의한 펩티드 분리에 이상적으로 부합되는 소수성을 다양하게 보이도록 조작되었다.

플라이코드 라이브러리는 2개의 부분과, 일정한 측접 아미노산, 즉 N 말단의 GS 및 C 말단의 R로 이루어져 있다. N 말단의 "GS" 서열은 트롬빈 프로테아제 절단 부위의 일부로서, 절단후 플라이코드에 남는다.

제1 부분: 바코드(barcode) 영역으로서, 7개의 연속 무작위 아미노산 위치를 포함한다. 아미노산의 평균 출현빈도(%)는 상기 표 1에 제시되어 있다.

20개의 자연발생 아미노산 모두가 바코드에 존재하는 것은 아니다(C, M, K, R, H 및 I는 존재하지 않음). C 및 M은 산화되는 경향이 있으므로 배제된다. K, R 및 H는 플라이코드 서열에 추가의 양 전하를 부가할 것이고, 이러한 부가는 요망되지 않았으므로 배제되는데, 그 이유는 이와 같은 경우에 펩티드는 ESI-MS 검출 동안 추가의 전하를 운반하여, 최적의 검출 범위로부터 벗어나도록 만들 것이기 때문이다. K 및 R은 플라이코드 서열에 추가의 트립신 절단 부위를 부가할 것인데, 이러한 부가도 요망되지 않았다. K는 또다른 1차 아민을 부가할 것인데, 이러한 부가는 NHS 화학에 의한 펩티드 표지화를 복잡하게 만들 것이다. 이소루신은 질량에 의해 루신과 구별될 수 없으므로 배제되었다.

제2 부분: 5개의 상이한 변이체, 즉 플라이코드 라이브러리에 동일하게 출현하고, 모두 R로 종결되는 변이체에 구성된 C 말단. 이 변이체도 또한 C, M, K, H 및 I가 존재하지 않는다. 그러므로 플라이코드는 최소 11개의 아미노산, 그리고 최대 15개의 아미노산으로 이루어져 있다(즉 GS + 7개의 무작위 배당 잔기 + 2 ~ 6개의 C 말단 잔기). 5개의 상이한 C 말단의 종결부들이 하기에 나열되어 있다: 서열 번호 01(WR), 서열 번호 02(WLR), 서열 번호 03(WQSR), 서열 번호 04(WLTVR), 서열 번호 05(WQEGGR).

플라이코드 라이브러리를 함유하는 NestLink 발현 벡터 pLNx

NestLink 발현 벡터 pLNx는, 108개 서열 변이체 다양성을 보이는 플라이코드 라이브러리를 보유하고(도 2), 관심 있는 단백질 라이브러리(PLOI)를 플라이코드와 함께 틀 내에 도입하는 것을 허용한다. 이때, 2개의 라이브러리(PLOI 및 플라이코드 라이브러리)가 서로 개재되므로, 이 단계의 결과물은"개재된 라이브러리"이다. 발현 벡터는 또한 개재된 라이브러리(플라이코드에 융합된 PLOI)의 제한 효소 매개 절개를 허용하므로, 이 개재된 라이브러리는 딥 시퀀싱 플라스미드에 삽입될 수 있거나, 또는 이중 가닥 올리고뉴클레오티드(어댑터)가 사용됨으로써 Illumina MiSeq 어댑터의 직접 결찰이 수행될 수 있다. PLOI는 유전자 암호화된 임의의 라이브러리일 수 있음을 주목한다.

PLOI는, 이 라이브러리를 암호화하는 근원 DNA를 제한 분해한 다음, 발현 벡터에 결찰시킴으로써 발현 벡터에 도입된다. 본 발명자들은 이를 위하여 IIS형 제한 효소(SapI)를 사용한다. 근원 DNA는 통상 파지 전시 선택 후에 수득된 파지미드로서, PLOI가 PCR 증폭을 거치지 않고도 NestLink 발현 벡터(이 벡터에 관한 설명은 이하를 참조함)에 서브클로닝(subcloning)될 수 있도록 배향된 SapI 부위를 함유하는 파지미드로부터 기원한다. PLOI가 삽입되면, 이는 음성 선택 카세트(ccdB)를 대체하게 되고, 이로 말미암아 삽입 부위의 효율은 대폭 개선된다.

플라이코드는 트롬빈에 의해 PLOI로부터 절단되어 떨어져 나가고, His-태그는 트립신에 의해 플라이코드로부터 제거된다. 이러한 절단은, 최적의 질량, 최적의 소수성 및 최적의 하전을 보이는 펩티드가 질량 분광분석법을 위해 단리되는 것을 보장한다(플라이코드에 관한 상기 설명 참조). 프로테아제들의 기타 임의의 조합이 동일한 목적으로 사용될 수 있음도 상상할 수 있는 일이다.

주목할 점은, 플라이코드의 C 말단 아르기닌(R)이 중요한 역할을 한다는 점인데, 첫 번째, 리신과 다른 아르기닌은 플라이코드 라이브러리에서 배제되므로, 이 C 말단 아르기닌은 플라이코드의 유일한 양 하전 아미노산이다. 이러한 이유로 트립신(양 하전 잔기 뒤를 절단하는 프로테아제로서, 약간 비특이적인 것으로 간주됨)은 아르기닌과 His-태그 사이의 펩티드 결합을 특이적으로 절단하는데 사용될 수 있다(플라이코드는 His-태그를 가져서 질량 분광분석에 좀 지나치게 무거우므로, His-태그는 질량 분광분석 전 역상 크로마토그래피에 의한 분리를 저하시킬 것임). 두 번째, C 말단 아르기닌을 가지는 펩티드는 특히 질량 분광분석법에 의해 잘 검출되는 것으로 공지되어 있다(유리한 이온화 특성). 그리고 세 번째, 이처럼 양 하전 아미노산 하나가 플라이코드 내에 존재하므로, 총 전하량은 일관되게 2 + (N 말단 + 아르기닌)(다만 다른 모든 잔기는 낮은 검출 pH에서 중성임)인데, 이 점은 데이터 분석을 용이하게 해준다.

본 기술의 중요한 양태는, 몇몇 고유의 플라이코드를 관심 있는 단백질 라이브러리의 동일한 일원에 부착하는 것이 가능하다(그리고 필요하다)는 사실이다. 예를 들어 100개의 상이한 단백질로 이루어진 풀을 분석하기 위해서는 풀을 구성하는 각각의 단백질이 상이한 플라이코드와 평균적으로 20개꼴로 결합하도록, 2000개의 플라이코드는 이 단백질 100개에 부착된다(풀의 일원과 플라이코드 간 비율은 실상 요망되는 바에 따라 달라질 수 있음). 과잉 태깅은 다수의 플라이코드 서열을 통해 풀 일원의 명확한 검출을 가속화하고, 분석 대상인 관심 있는 단백질의 생물물리학적 특성에 대한 플라이코드 서열의 잠재적 영향력을 평균낸다. 과잉 태깅은 또한 선택된 하나의 시료 중 상이한 단백질 라이브러리 일원들 또는 별도로 선택된 시료들 중 동일한 단백질 라이브러리 일원의 상대적 양의 확정을 가능하게 한다. 게다가 과잉성은 기술상의 이유로 필요한데: 플라이코드가 질량 분광분석법에 의한 최적의 검출을 위해 디자인되긴 하지만, 몇몇 플라이코드는, 시료 제조중에 소실되거나, 질량 분광분석법에 의한 분석 대상인 역상 컬럼의 소수성 윈도우 안에서 용리되지 않을 것이므로, 검출되지 않을 것이다.

더욱이 NestLink 발현 벡터는 개재된 라이브러리(플라이코드에 융합된 PLOI)의 절개를 허용하는 SfiI 제한 부위 2개를 함유하므로, 이 라이브러리는 딥 시퀀싱 플라스미드에 삽입될 수 있거나, 또는 이중 가닥 올리고뉴클레오티드(어댑터)가 이용되어 이 라이브러리에 Illumina MiSeq 어댑터가 직접 결찰될 수 있다. 이와 같은 결정적인 단계에 대한 근거는 이하에 제공되어 있다.

주목할 점은, SfiI 제한 부위 및/또는 PLOI 내부에 있거나, PLOI와 플라이코드 사이에 있는 다른 제한 부위는 개재된 라이브러리에 추가 서열을 부가하는데 사용될 수 있다는 점이다. 따라서 이러한 추가의 서열은 (플라이코드와 PLOI 사이에, 또는 개재된 라이브러리에 인접하여) 개재된 라이브러리에 대한 융합체로서 발현될 수 있다. 중요한 점은, 딥 시퀀싱 플라스미드로의 이동(또는 올리고뉴클레오티드를 통한 딥 시퀀싱 어댑터의 직접적인 결찰)은 이러한 추가 서열이 도입되기 전에 수행되므로, 이 추가 서열은 (기술상의 이유로 말미암아 제한된) 딥 시퀀싱 해독 길이를 증가시키지 못한다는 점이다. 더욱이 이러한 방식으로 추가 서열을 부가하는 것은, 플라이코드와 PLOI 사이의 물리적 연계를 유지시키는데, 이 점은 플라이코드 대 PLOI-일원의 올바른 할당에 있어 굉장히 중요하다.

딥 시퀀싱 플라스미드

딥 시퀀싱 플라스미드는 Illumina MiSeq에 의한 딥 시퀀싱에 필요한 서열 모두를 운반하고, NestLink 발현 벡터로부터 유래하는 개재 라이브러리 일원들의 풀들의 삽입을 허용하는 벡터들의 한 세트이다.

개재 라이브러리의 딥 시퀀싱 플라스미드로의 이동(도 1 및 도 2)은 제한 분해 및 결찰을 통해 수행된다. 제한 효소 SfiI은 충분히 큰 특이성(다만 이 특이성은 제한 부위를 암호화할 수 있는 전체 라이브러리들을 확률적으로 분해할 때 중요함)을 가지므로, 본 발명자들은 이러한 목적으로 제한 효소 SfiI을 사용하였다. 더욱이 선택된 SfiI 인지 부위는 발현 구조체에서 링커 아미노산으로 사용될 수 있는, 합리적으로 가요성이고 친수성인 아미노산으로 번역된다.

본 발명자들은, NestLink 발현 벡터로부터 딥 시퀀싱 플라스미드로의 이동 단계는 개재 라이브러리의 PCR 증폭 단계를 포함하지 않는 것이 NestLink에 있어서 괄목할만한 점임을 실험을 통하여 보여줄 수 있었다. 단백질-플라이코드 서열의 PCR 증폭은 불가피하게 라이브러리 일원과 플라이코드 일원 간 비상동성 영역(예컨대 CDR)들의 재조합(즉 관심 있는 단백질 하나의 플라이코드의, NestLink 발현 벡터에서 부착되지 않았던 다른 단백질로의 의도하지 않은 부착)을 초래한다. 이로 말미암아 플라이코드와 단백질 간 연계가 파괴된다.

전술된 바와 같이, 개재 라이브러리는 SfiI을 통해 발현 벡터로부터 잘라져 나온다. 그 다음, 잘라져 나온 라이브러리는 딥 시퀀싱 플라스미드에 결찰된다. 여기서 이 라이브러리는 음성 선택 카세트(ccdB)를 대체하게 되는데, 이 과정은 삽입 단계의 효율에 중요하다. 삽입 후, 여기에는 Illumina MiSeq에 의한 딥 시퀀싱에 필요한(그리고 자주 사용되는) 서열이 측접하게 된다. 서열결정은 양쪽으로부터 시작되어 중앙을 향하여 진행된다. 따라서 관련 영역들은 삽입편의 양쪽에 반대방향으로 존재하게 된다(인덱스를 제외하고 역 상보성 서열임).

이하, 내부(삽입편)로부터 외부 영역을 향하는 서열에 관한 설명이 제시된다:

SfiI 부위: ccB를 개재 라이브러리로 대체하는데 사용된다.

다양성: Illumina MiSeq 기술은 프라이머 결합 부위 다음에 있는 서열을 바탕으로 제1 서열결정 신호를 발생시킨다. 소수의 제1 염기들은, 검출 채널의 신호 과부하와 서열결정 운영의 실패를 막기위해 (동일해서는 안되고) 다양해야 한다.

프라이머 결합 부위: 서열결정 프라이머가 결합하는 부위이다.

인덱스(번호 501 및 701이 붙여짐): Illumina MiSeq 기술은 다중 처리를 가능하게 하는데, 즉 수 개의 시료들이 하나의 서열결정 운영으로 분석될 수 있다. 어떤 해독결과가 어느 시료의 것인지를 확정하기 위해, 인덱스(가변적인 8 bp 확장부)도 또한 해독된다. 본 발명자들은, 단일 딥 시퀀싱 운영으로 수 개의 NestLink 실험이 순차적으로 실시될 수 있도록 하기 위해, 각각 상이한 인덱스 쌍을 운반하는 딥 시퀀싱 플라스미드 11개로 이루어진 한 세트를 만들었다(삽입편 양쪽에는 인덱스 서열이 존재함에 주목한다).

어댑터: 이는 Illumina MiSeq 유세포를 대상으로 하는 딥 시퀀싱을 위해 DNA 주형을 고정하는데 사용된다.

BseRI 제한 부위: 이는 Illumina MiSeq 딥 시퀀싱에 필요한 선형 DNA 단편을 제조하는데 사용된다. BseRI이 IIS형 제한 효소(자체의 인지 서열 외부를 절단함)라는 사실은 어댑터에서 돌출부 생성을 최소화하는데 특히 유용하다.

전통적인 방법에서는 이러한 Illumina MiSeq 서열 요소 모두는 PCR, Illumina 어댑터 결찰 → PCR 증폭, 또는 TRuSeq DNA 비 PCR 시료 프렙 키트(Illumina)에 의해 서열결정될 DNA에 부착된다. 본 발명자들의 프로토콜에서는 서열결정될 DNA(여기서는 단백질-플라이코드 서열)가 공여 벡터(여기서는 NestLink 발현 벡터)로부터 딥 시퀀싱 벡터로 제한 및 결찰에 의해 서브클로닝됨으로 말미암아 PCR이 생략된다. 최종 단계에서, 딥 시퀀싱 벡터는 BseRI가 사용되어 절단된다. 이러한 절단은, DNA 아가로스 겔에 의해 벡터 백본(vector backbone)으로부터 분리되고, 겔 추출에 의해 정제되는 Illumina MiSeq 서열결정 주형 전체를 방출시킨다.

딥 시퀀싱을 위한 이중 가닥 어댑터-올리고뉴클레오티드

Illumina MiSeq 딥 시퀀싱에 필요한 어댑터 서열의, PLOI로의 PCR 의존적 부착을 허용하는 제2의 전략은, 딥 시퀀싱 플라스미드에 대해 기술된 바와 같이 어댑터 서열의 동일한 세트를 운반하고, 상보성 단일 가닥 올리고뉴클레오티드의 유전자 합성 및 후속되는 어닐링(annealing) 반응을 통해 생성될 수 있는 이중 가닥 올리고뉴클레오티드에 달려있다. 상보성 단일 가닥은 그 길이가 상이하도록 합성되어서, 어닐링된 어댑터의 점착 돌출부(sticky overhang)를 형성한다. 이 돌출부는 플라이코딩된 PLOI가 NestLink 발현 벡터로부터 절개될 때 생성되는 것으로서, SfiI 제한 부위 절단편의 상보성 서열에 대응한다. 그러므로 어닐링된 올리고뉴클레오티드는 플라이코딩된 PLOI에 고효율로 결찰될 수 있으며, 그 결과 Illumina MiSeq 딥 시퀀싱에 요구되는 어댑터 서열이 부착될 수 있다. 결찰 생성물은 딥 시퀀싱 이전에 아가로스 겔을 통해 정제된다.

이하, 내부(삽입편)로부터 외부 영역을 향하는, 최종 딥 시퀀싱 주형의 서열에 관한 설명이 제시된다:

플라이코딩된 PLOI : 플라이코딩된 PLOI는 SfiI 제한 분해를 통해 NestLink 발현 벡터로부터 절개된다.

SfiI 제한 부위의 나머지: 이 효소는, NestLink 발현 벡터로부터의 절개를 허용하고, 이때 생성된 점착성 말단은 딥 시퀀싱 어댑터를 부위 특이적으로 부착하는데 사용된다.

다양성: Illumina MiSeq 기술은 프라이머 결합 부위 다음에 있는 서열을 바탕으로 제1 서열결정 신호를 발생시킨다. 소수의 제1 염기들은 몇몇 검출 채널의 신호 과부하와 서열결정 운영의 실패를 막기위해 (동일해서는 안되고) 다양하여야 한다.

프라이머 결합 부위: 서열결정 프라이머가 결합하는 부위이다.

인덱스(번호 501 및 701로 표시됨):Illumina MiSeq 기술은 다중 처리를 가능하게 하는데, 즉 수 개의 시료들이 하나의 서열결정 운영으로 분석될 수 있다. 어떤 해독결과가 어느 시료의 것인지를 확정하기 위해, 인덱스(가변적인 8 bp 확장부)도 또한 해독된다. 본 발명자들은, 단일 딥 시퀀싱 운영으로 수 개의 NestLink 실험이 순차적으로 실시될 수 있도록 하기 위해, 상이한 인덱스 쌍 12개의 생성을 허용하는 딥 시퀀싱 어댑터 7개(한쪽 말단용 3개와 반대쪽 말단용 4개)를 만들었다.

어댑터: 이는 Illumina MiSeq 유세포를 대상으로 하는 딥 시퀀싱을 위해 DNA 주형을 고정하는데 사용된다.

플라이코드를 통한 PLOI-일원의 정량

다수의 NestLink 적용에는 플라이코딩된 PLOI 일원의 절대 정량이 필요하다. LC-MS는 단백질체학에서 개별 펩티드를 정량하는데 부정확한 반면에, NestLink는 각각의 PLOI 일원에 부착된 다수의 플라이코드와, 질량 분광분석법에 의한 최적의 검출을 위해 디자인된 동질의 플라이코드 라이브러리로부터 이득을 본다. 본 발명자들은 이러한 고려사항을 기반으로 하여, 임의의 주어진 PLOI 일원의 모든 플라이코드의 합하여진 MS1 세기는 시료중 이 PLOI 일원의 양에 비례함에 틀림없을 것이라는 가설을 세웠다. 본 발명자들은 가변적 수만큼의 플라이코드에 결합된 8개의 사이바디의 공지된 양만큼을 이. 콜라이 및 엠. 스메그마티스로부터 유래한 용해물을 각각 함유하는 시료 2개에 스파이킹함으로써 상기 가설을 시험하였다(도 3). 각각의 플라이코딩된 사이바디의 모든 플라이코드의 합하여진 MS1 세기와, 이의 스파이킹된 양 사이에 관찰된 선형의 관계는, 상기 가설이 옳다는 것을 증명하였고, 본원에 기술된 NestLink 절차가 풀 내부 개별 PLOI 일원을 정량하는데 사용될 수 있음을 입증하였다. 만일 LC-MS를 위한 플라이코드 단리가 수행되기 전에 하나 이상의 플라이코딩 단백질(표준) 공지된 양만큼이 시료에 스파이킹되면, 개별 PLOI 일원의 절대 양이 확정될 수 있다.

(NestLink 전) 파지 전시 선택을 위한 파지미드

본 발명자들의 본 출원 대부분에 있어서, PLOI는 증량된 합성 나노바디(사이바디라 칭함)의 풀이다. 통상, 대형 사이바디 라이브러리는 표적 단백질과의 결합을 도모하기 위해 파지 전시법을 사용하여 증량된다. 비상동성 영역(즉 CDR)들의 재조합을 피하기 위해서, PLOI는 파지 전시 선택 후 PCR에 의해 증폭되어서는 안된다. 이를 위하여, 파지미드 벡터(도 2A)는, PLOI가 SapI 제한 부위를 통해 NestLink 발현 벡터에 서브클로닝될 수 있도록 구성되었다. 주목할 점은, SapI 부위들이 파지 표면에 전시된 번역 생성물의 일부라는 점이다. 본 발명자들은 SapI 부위들로부터 유래하는 이 추가 아미노산들이 파지 전시 효율을 떨어뜨리지 않음을 실험을 통해 보일 수 있었다.

SapI 부위는 논외로 하고, 파지 전시 벡터는 M13 파지에서 단백질을 전시하는데 사용된 파지미드 내에 통상 존재하는 모든 요소를 함유하는, 벡터 pMESy4의 유도체(유전자은행: KF415192)이다.

본원에 기술된 모든 벡터와 관련하여 일반적으로 주목해야 할 추가 사항은, 하나의 벡터로부터 유래한 삽입편을 다른 벡터로 효율적으로 이동시키는 것을 가능하게 하기 위해 벡터는 상이한 항생제 내성을 운반하는 것이 중요하다는 것이다. 따라서 NestLink 발현 벡터는 클로람페니콜 내성 마커를 운반하고, 딥 시퀀싱 벡터는 카나마이신 마커를 운반한다. 또한, 파지 전시 선택을 위한 파지미드는 암피실린 내성 마커를 함유한다.

개념 증명 실험

이 실험에서 본 발명자들은, NestLink가 전례에 없던 방식으로 단백질 후보의 대형 풀 내 개별 단백질을 특성규명하는데 사용될 수 있음과, 선택된 하류 적용에 가장 기대되는 특징들을 가지는 풀 일원이 동정될 수 있음을 입증하였다.

더욱 구체적으로, 이하에 기술된 개념 증명 실험은 i) 라이브러리 다양성 제어가 잘 이루어지며 라이브러리를 효율적으로 개재하는 방법이 개발되었음과, ii) 개재된 라이브러리들이 결합물질 풀에 대해 전례에 없던 선택압의 기초로서 사용될 수 있음을 입증하고 있다.

본 실시예에서, 본 발명자들은 말토스-결합 단백질(MBP)에 대한 리보좀 및 파지 전시 및 리보좀(기술하지 않음)을 통해 사전에 증량된 사이바디 풀로 이루어진 PLOI를 사용하여 연구를 진행하였다.

본 발명자들은 본 특허에 기술된 NestLink 방법을 사용하여, 하기와 같은 선택압, 즉 i) 최다 발현되는 사이바디의 선택, ii) 최고 용해도를 보이는 사이바디의 선택, 그리고 iii) 용액 결합 검정에서 표적과 결합하는 사이바디의 선택을 사이바디 다양성 풀에 한 번에 부과하였다.

본 발명자들은 "재료 및 방법" 섹션에 기술된 프로토콜을 이용하여 약 1200개의 변별적 사이바디 풀 일원들을 대략 17,000개의 고유 플라이코드에 결합시켜 소위 "개재 라이브러리"를 만들하고자 하였다. 이 과정은, 우선 사이바디 암호화 파지미드를 함유하는 세포 적당한 클론 수만큼을 하나의 용기에서 배양한 다음, 이의 플라스미드 DNA를 단리함으로써 수행되었다. 사이바디 클론을 개별적으로 고르는 대신에, 형질전환 후 회수된 세균 부피당 콜로니 형성 단위(cfu) 수가 아가 평판 상 도말을 통해 추산되었다. 그러므로 회수된 세균 적당한 부피만큼(대략 1,200 cfu)이 배양액 접종에 사용되었고, 추후 이 배양액은 플라스미드 DNA 단리를 위해 수집되었다. 그 다음, 이와 같은 다양성 제한 파지미드의 DNA 삽입편은 대략 108개의 변별적 변이체의 플라이코드 라이브러리를 함유하는 발현 벡터 pNLx에 결찰되었다. 클론의 수는, 상기 개략적으로 제시된 바와 같은 cfu 추산치가 이용되었을 때 대략 17,000개로 제한되었다. 108개의 변이체 중 (cfu 추산에 의해 확정된 바와 같이) 단지 약 17,000개의 플라이코드 함유 벡터만이 사용되었기 때문에, 본 발명자들은 플라이코드 99.974 %가 고유의 것이고, 따라서 대다수의 플라이코드가 하나의 고유 사이바디를 태깅하는 것으로 계산하였다. 더욱이, 플라이코드들은 약 17000개의 플라이코드 함유 벡터 내 약 1,200개의 사이바디 유전자에 개재되었으므로, 사이바디는 평균 14개의 상이한 플라이코드로 태깅될 것으로 예상되었다.

벡터 pNLx 내에 개재된 라이브러리는 단일 플라스크 내 세균에서 발현되었고, 플라이코딩 결합물질 풀로서 정제되어 선택 실험에 투입되었다(이하 참조). 플라이코딩된 사이바디는, 개재된 라이브러리를 서열결정하기 위해 MiSeq 디바이스가 사용되는 Illumina 딥 시퀀싱용 관련 서열 모두를 보유하는 딥 시퀀싱 벡터 pNLs로 이동되었다. 개재된 라이브러리의 딥 시퀀싱은 매 플라이코드들이 이것들의 대응 사이바디에 명확하게 할당되는 것을 가능하게 하였다. 13,620개의 고유한 플라이코드에 결합된 1080개의 변별적 사이바디 서열은 데이터 필터링을 거쳐 수득되었기 때문에, 딥 시퀀싱 데이터는 개재된 라이브러리 내 사이바디 및 플라이코드 예상 수와 일치하였다. 따라서 각각의 사이바디는 상이한 플라이코드에 평균적으로 12.61개 꼴로 결합하였다. 본 발명자들은 서열결정 데이터 필터링 이후에 사이바디와 플라이코드의 모호한 결합(즉 동일한 플라이코드가 2개 이상의 상이한 사이바디에 부착하는 것)을 관찰하지 못하였다. 이처럼 다양성 제어가 잘 이루어지는 가운데 라이브러리를 서로 간에 개재하기 위한 시도의 성공적 달성은, 본 발명자들이 알고 있던 한에서 전례에 없던 일이다.

딥 시퀀싱 데이터가 사용되면서, 각 사이바디의 모든 플라이코드를, 대응하는 사이바디를 식별자로서 사용하여 이론상의 연속 단백질 서열로 연쇄결찰함으로써, 개재된 라이브러리의 전체 서열 정보를 담고 있는 데이터베이스가 구축되었다. 그 다음, 이 데이터베이스는 추후 MS/MS 이온 검색에 사용하기 위해 Mascot 서버에 업로드되었다.

본 기술의 신규 적용에 관한 일례로서, 본 발명자들은 개재된 라이브러리를 사용하였고, 임의의 겉보기 유체역학 반경을 가지고, 용액 중 MBP에 대하여 큰 친화성 상호작용을 보였던 사이바디를 특이적으로 선택 및 동정하였다. 유전자형은 전시된 단백질 크기를 100배 초과하에 증가시키고, 이로 말미암아 전시 입자는 단백질 수준에서 크기의 작은 차이에 대해서 비감수성이 되기 때문에, 이러한 특징들 둘 다는 크기별 배제 크로마토그래피(SEC)에 의해 확정되었지, 유전자형-표현형 연계를 필요로 하는 현재의 최첨단 기술인 전시 시스템이 사용되어 확정되지는 않았다.

이를 위해, 개재된 라이브러리가 발현되었고, 플라이코딩된 결합물질은 Ni-NTA 수지를 통해 정제되어 SEC의 대상이 되었다. 단량체 단백질에 대응하였던 사이바디의 용리된 분획들(용해도가 가장 높은 결합물질 후보)은 풀링된 다음 2개의 동등한 분취액으로 나누어졌다. 하나의 분취액은 MBP와 함께 항온처리되었고, 나머지 하나는 오로지 완충제와 함께 항온처리되었다. 두 시료는 별도로 SEC에서 분석되었으며(MBP 부재하에서의 운영은 대조군으로 사용됨), 사이바디-MBP 복합체의 크기별로 대응하는 용리 분획들이 수집되었다. MBP 및 대조군 운영의 수집된 분획들 중 플라이코드는 추후 단리되어, 2회의 별도 LC-MS 운영의 대상이 되었거나, 아니면 단리된 플라이코드의 동중 태그 표지화 후 1회로 통합된 LC-MS/MS의 대상이 되었다. 그 다음, 앞서 구축된 딥 시퀀싱 데이터베이스(플라이코드 대 사이바디 할당)가 사용되어, Mascot 검색시 플라이코드를 동정하는데 사용될 수 있었고, 이로 말미암아 사이바디-MBP 복합체 크기로 용리된 사이바디가 명확하게 동정될 수 있었다. 이 실험은 모두 잘 발현되었고, 단량체이며, 용액 중 표적 단백질과 결합하는 고유의 사이바디 300개 초과하는 만큼을 본 발명자들이 동정하는 것을 허용하였다.

오프 - 레이트 확정을 위한 NestLink 적용

전술된 원리 증명 실험에서 동정된 MBP 특이적 사이바디의 점수를 매기기 위하여, 본 발명자들은 이 바이오틴화된 MBP에 의해 단리된 MBP-사이바디 복합체 동량을 사이바디의 결합 오프-레이트에 따라서 2개의 스트렙타비딘-세파로스 컬럼 상에 고정시켰다(도 4). 이후 과량의 비 바이오틴화 MBP에 의한 오프-레이트 선택(3분 동안의 세척)이 하나의 컬럼에서 수행되었으며, 이 때 다른 컬럼은 완충제만으로 세척되었다. 세척 후, 잔류하는 (상기 두 컬럼 유래) 사이바디가 용리되었고, 이의 플라이코드를 대상으로는 2회의 LC-MS/MS 운영이 이루어졌다. 전술된 용액 중 결합 실험(SEC 운영)과 유사하게, 플라이코드를 통한 사이바디의 동정을 위해 Mascot 검색시 딥 시퀀싱 데이터베이스가 사용되었다. 게다가 동정된 모든 플라이코드의 MS1 세기들은 Progenesis 소프트웨어가 사용되어 각각의 사이바디에 대해 합하여졌다. 상기 확정된 바와 같은 MS1 피크 세기의 정량적 성질로 말미암아, 본 발명자들은 상기 두 컬럼간 각각의 사이바디에 대한 플라이코드-세기-합 사이의 비율이 과량의 비 바이오틴화 표적에 의한 오프-레이트 선택 이전과 이후의 이것들의 상대적 농도에 대응할 것으로 예상하였다. 본 발명자들은, 각각의 해리 반응이 단일 지수 붕괴를 따른다고 가정하고, 과량의 표적에 의한 세척 시간(3분)에 관한 지식을 이용함으로써 300개를 초과하는 결합물질에 대한 오프-레이트 근사치를 한 번에 확정할 수 있었다. 이 분석은, 표면 플라스몬-공명법을 사용하여 11개의 개별 결합물질의 오프-레이트를 측정함으로써 확인되었다. 단일 실험에 있어 결합물질 후보들의 풀을 대상으로 하는 오프-레이트 확정은 본 발명자들이 알고 있던 한에서 전례에 없던 일이다. 개별 단백질 처리의 필요성으로 말미암아 사전에 수 주 소요되었던 과정은 이제 본원에 기술된 기술이 사용될 경우 한 번에 수행될 수 있게 되었다.

면역화된 낙타과로부터의 결합물질 동정을 도모하기 위한 NestLink의 적용

면역화된 알파카(낙타과)의 B 세포로부터 cDNA 단리를 통해 수득된 자연발생 나노바디 풀에 NestLink가 적용되었다. 면역화에 사용된 항원은 TM287/288, 즉 서모토가 마리티마(Thermotoga maritima) 유래 ABC 운반체(내재성 막 단백질)였다. 낙타과로부터 나노바디를 제조하는 것에 관한 전통적인 프로토콜과는 반대로, 이 나노바디 풀은 파지 전시를 사용하여 표적에 대해 증량되지 않았다.

나노바디는 PCR 증폭되었고, 다양성 제한되었으며, 플라이코드 라이브러리와 인터레이싱(interlacing)되었는데, 그 결과 Illumina MiSeq 딥 시퀀싱("재료 및 방법" 섹션 참조)에 의해 확인되는 바에 따르면 3,469개의 고유 나노바디 서열이 59,974개의 고유 플라이코드에 부착된 채 수득되었다. 개재된 라이브러리는 발현된 다음, Ni-NTA를 통해 정제되었고, 이후 SEC를 통해 단량체 풀 일원의 단리가 이루어졌다. 원리 증명 실험(전술됨)과 유사하게, 불리한 결합물질 후보, 즉 가용성이 아니었거나 또는 발현되지 않았던 결합물질 후보는 이와 같은 예비 선택 단계에서 제거되었다. LC-MS 시료는 Ni-NTA 컬럼 및 SEC 운영시의 단량체 분획으로부터 용리된 후 수집되었다. 그 다음, 풀은 증량되면서 TM287/288과 함께 대략 0.1:1, 2:1 및 100:1의 비율로 항온처리되었고, 항원/풀 혼합물을 대상으로 다시 3회의 SEC 운영이 이루어졌다(도 5). 표적/나노바디 복합체의 크기에 대응하는 분획별로 수집되었다. 수집된 모든 시료들의 플라이코드는 별도로 단리되어 LC-MS/MS에 의해 분석되었으며, 이로써 모든 결합물질에 대한 발현 수준, 용해도(SEC상 단량체) 및 용액 중 항원과의 결합 세기의 비교가 한 번에 가능하였다.

면역화된 낙타과로부터 유래한 3,469개의 고유 나노바디에 관한 이와 같은 분석에 있어서, 본 발명자들은 유리한 안정성, 발현 수준 및 용해도를 보이는 27개의 고친화성 결합물질 과들을 동정하였다. 눈에 띄는 점은, NestLink가, 유의미하게 더 긴 처리 시간 이내에 동일 풀 내 상기 과들 중 단지 5개만을 동정하였던 ELISA 및 Sanger 서열결정법이 사용되는 파지 전시 선택 및 과도한 종래의 스크리닝보다 훨씬 더 효율적이었다는 점이다. 요약하면, NestLink는 면역화된 낙타과로부터 가장 기대되는 후보 생체분자를, 현재까지의 최첨단 방법에 의해서는 충족되지 못하였던 처리량과 정확도로 동정하는데 사용될 수 있다고 진술될 수 있다.

세포 표면에 있는 단백질을 표적화하는 결합물질을 동정하기 위한 NestLink의 적용

전술된 실험은 용액 중 정제된 표적/항원에 대한 결합 단백질을 동정하는 것을 목표로 수행되었으며, 이로부터 시험관 내 적용에 유리한 연구 도구, 예컨대 결정학적 도구가 수득되었다. 이제 본 발명자들은 약물 개발에 있어서 큰 장애(즉 세포 표면에 있는 표적 단백질을 큰 특이성과 친화성으로 인지하는 막 단백 결합물질을 동정해야 하는 것)에 대한 해결책을 마련하고자 한다. 막 단백질 표적에 대한 생체분자 약물을 개발하는 데에는 통상 근본적으로 상이한 2개의 연속 단계를 필요로 한다. 제1 단계는, 결합물질 후보의 다양성 풀을 전시 절차나 면역화를 통해 제조하는 단계이다. 제2 단계는 다양성 풀을 결합 및 기능에 대해 세포 검정법에서 스크리닝하는 단계이다. 제2 단계는 개별 결합물질 후보를 (통상 소형화된 방식으로) 하나 하나 분석하는 것을 필요로 하므로 본질적으로 비효율적이며 느리다. 이 실험에서, 본 발명자들은 제2 단계(스크리닝 단계)를 NestLink로 대체하여, 개별 결합물질 후보를 하나 하나 분석하는 수고를 들이지 않고 내재성 막 단백질 표적에 대해 특이적인 세포 표면 결합물질을 동정하였다.

본 발명자들은 우선 그램 음성 세균의 순수하고 세제에 용해된 외막 단백질 항원에 대한 사이바디 라이브러리의 시험관 내 전시를 수행하였다(단계 1: 결합물질 후보의 다양성 풀의 제조). 이 다양성 풀을 구성하는 각각의 개별 결합물질 후보를 개별적으로 세포 표면 결합에 대해 시험(보통의 단계 2)하는 대신에, 본 발명자들은 NestLink를 수행하였으며, 이로써 대형 후보 풀을 한 번에 시험하였다(도 6A). 1,456개의 사이바디가 플라이코드 라이브러리와 인터레이싱된 결과, 31,500개의 플라이코드 결합이 달성되었다(평균적으로 사이바디 하나당 22개의 플라이코드). 전술된 바와 같이, 플라이코드 대 결합물질 할당은 딥 시퀀싱을 통해 이루어졌으며, 개재된 라이브러리가 발현 및 정제되었고, 단량체 풀 일원들이 단리되었다(원치않는 결합물질 후보의 역 선택/제거). 따라서, 발현 수준이 떨어지고 용해도가 낮은 풀 일원은 우선 제거되었고, 각 풀 일원의 발현 수준과 용해도 특징이 모니터링되었다. 이로써 NestLink 과정은 독점적으로 기대되는 결합물질 후보들을 추려서 세포 표면 선택 과정으로 보냈는데, 이때 상기 세포 표면 선택은 하기와 같이 수행되었다: 단량체 풀 일원은 4개의 동등한 분획으로 나누어졌으며, 각각의 분획은 다른 세균 균주와 함께 항온처리되었다. 결합하지 않은 사이바디 후보는 완충제를 사용하는 펠릿화와 재현탁/세척에 의해 제거되었다. 그 다음, 세균 균주들 중 하나에 결합한 사이바디의 플라이코드 모두는 단리된 다음, LC-MS 분석의 대상이 되었다. 사이바디 하나당 모든 플라이코드의 모든 MS1 세기 합은, 풀 중 각각의 개별 사이바디의 표적 세포 각각에서의 상대적 농도에 대한 척도로서 사용되었다. 이는, 정확한 세포 특이성 해독출력 수득을 허용하였다(도 6B).

풀 중 1,456개의 결합물질 후보로부터 잘 발현되었고 가용성인 사이바디 6개가 동정되었는데, 이 사이바디는 관심 있는 그램 음성 세균(균주 4)의 외막에 매립되어 있는 원산 형태의 단백질 표적을 특이적으로 인지하였다. 본 발명자들은, (사이바디를 형광 표지화한 다음) 상기 6개의 동정된 사이바디를 유세포분석법으로 4개의 균주에 대해 개별 분석함으로써 이러한 발견을 확인하였다. 시험된 모든 후보는 NestLink를 통해 관찰되었던 바와 같이, 이와 같은 단일 클론 검정에서 동일한 특이성 프로필을 보였다. 주목할 점은, 동정된 결합물질 각각은 개재된 풀 내에 겨우 0.05% 미만(Illumina MiSeq 딥 시퀀싱에 의해 확인됨)으로 존재하였다는 점이다. 현재의 최첨단 기술인 스크리닝은 단지 결합물질 후보의 하나의 특징(예컨대 표적 결합)만을 고려하되, 발현 수준 또는 용해도/올리고머화 성향에 대한 보고는 부족하다는 점이 고려되었을 때, 상기 6개의 결합물질들 중 임의의 것은 전통적인 단일 클론 스크리닝 접근법에 의해 동정될 수 있었을 것 같지는 않다. 따라서 본 실험은, NestLink에서는 유전자형-표현형이 연계되지 않고 두 라이브러리가 인터레이싱되는 덕분에 이 NestLink가 결합물질 라이브러리를 전례없이 탁월하게 스크리닝할 수 있음을 입증한다.

모델 유기체 내 생체내분포 및 약동학적 매개변수를 모니터링하기 위한 NestLink의 적용

이전 실시예들에서 본 발명자들은, NestLink 선택에서 유전자형-표현형의 연계(예컨대 SEC 상 단량체 풀/라이브러리 일원의 선택)가 이루어지지 않는 관계로, 이 NestLink 선택은 전례없는 선택압을 허용한다는 것을 보였다. 여기에서는 또 다른 선택압이 도입되는데, 이 선택압은 유전자형-표현형의 물리적 연계가 이루어지는 경우에는 작용할 수 없다(생 유기체 내에서 특정 생체내분포 및 약동학적 특성을 보이는 단백질의 선택). 생체분자 치료제 후보의 개재된(플라이코드 태깅된) 풀은 동물 모델에 주입될 수 있고, 각각의 풀 일원의 상대적 농도는 체내 각 장소(예컨대 상이한 장기, 조직 또는 종양 등)에서 임의의 시간이 경과된 후에 LC-MS에 의해 측정될 수 있다. 이러한 유형의 분석은 특정의 한 시점에서 각각의 개별 풀 일원에 대한 체내 종합적/전반적 생체내분포 분석을 달성할 것이다. 만일 동일 종에 속하는 몇몇 유사 개체가 다수의 상이한 시점 이후에 이 분석의 대상이 된다면, NestLink 생체내분포 분석은 시간 단위로 연장될 수 있으므로, 낮거나 중간 정도의 시간 해상도로 각 후보에 대한 약동학적 데이터 취득이 허용될 수 있다.

본 발명자들은 미리 상이한 양만큼의 플라이코딩 사이바디로 스파이킹된 균질화 마우스 조직으로부터의 플라이코드 추출 과정을 시험하고 최적화함으로써 이러한 유형의 분석에 대한 기초를 설정하였다. 상세히 말하면, 몇몇 사이바디는 우선 소수(20개 ~ 30개)의 플라이코드에 결합하였고, 사이바디 대 플라이코드 할당은 Illumina MiSeq 딥 시퀀싱에 의해 확정되었다. 그 다음, 플라이코드가 태깅된 사이바디는 발현되어 개별적으로 정제되었으며, 이의 농도는 흡광도 측정에 의해 확정되었다. 이후, 개별 사이바디는 (자릿수를 포괄하는) 상이한 농도로 합하여졌다.

이와 동시에, 마우스의 동결 장기(간, 폐, 신장)와 혈액이 해동되었으며, 변성 완충제 조건 및 포터(potter)가 적용 및 사용되어 균질화되었다. 미리 제조하여 두었던 적정 혼합물이 균질물에 스파이킹된 다음, 실온에서 30분 동안 항온처리됨으로써, 잠재적 프로테아제 또는 플라이코드 변형 효소의 작용이 허용되었다. 그 다음, 사이바디는 이에 잔류하는 플라이코드와 함께 추출되었으며, 플라이코드는 프로테아제 절단에 의해 단리된 다음, LC-MS를 통해 분석되었다. 적정 혼합물 중 개별 사이바디의 검출을 기반으로 하였을 때, 본 발명자들은 LC-MS를 통해 이처럼 균질화된 장기와 조직으로부터 사이바디를 검출하는 것은 통상 그 양이 30 ng ~ 100 ng(사이바디)로 적을 때조차 결과를 신뢰할 수 있음을 발견하였다. 만일 1 mg 이하의 치료제가 통상 마우스 모델에 주사될 수 있다면, 개재 풀이 주사된 이후에도 체내 가장 관련성이 큰 장소에 수십 μg만큼이 존재하게 될 것임은 분명하다. 그러므로 결합물질 풀의 전반적인 생체내분포를 모니터링하고 약동학적 분석을 수행하는데 충분한 비분해 및 비변형 플라이코드가 존재하는 것이다.

재료 및 방법

이하, NestLink 방법의 일반적인 프로토콜이 제공된다. 이 NestLink 방법은 상기 개략적으로 소개된 실험들을 수행함에 있어서 필요한 모든 단계들을 포함하며, 라이브러리 개재, 딥 시퀀싱, 플라이코딩된 결합물질 풀의 발현 및 정제, 플라이코드 추출, LC-MS 및 데이터 분석에 관한 세부사항을 제공한다.

플라이코딩된 나노바디의 라이브러리 개재에 의한 클로닝

1. 사이바디/나노바디 풀의 다양성 제한

각각 파지 전시 또는 면역화에 의한 시험관 내 결합물질 선택을 통해 수득된 사이바디 또는 천연발생 나노바디 풀로써 NestLink 실험이 수행되었다. 결합물질 선택에 파지 전시가 사용되었던 경우, 파지미드에서 암호화된 잠재적 결합물질의 시험관 내 선택된 풀 200 ng이, 화학적으로 수용성인 세포(다만, 수용성은 Promega Corporation에 의한 프로토콜(Subcloning Notebook 2004)에 의해 달성됨) 이. 콜라이 MC1061 50 μl에 도입되어 형질전환이 이루어졌다. 암피실린을 120 μg/ml 함유하는 아가 평판 상에 일련의 희석액이 도말되고 나서, 30℃에서 밤새도록 항온처리되었다. 요망되는 콜로니 형성 단위(상기 실시예들에서는 그 값이 1000 cfu 내지 1500 cfu의 범위임)를 포함하는 평판 상 콜로니들은 암피실린을 100 μg/ml 함유하는 LB 배지 2 ml에 의해 재현탁되었으며, 이 현탁액은 암피실린을 100 μg/ml 함유하는 LB 배지 배양액 200 ml에 옮겨졌다. 이 배양액은 37℃에서 밤새도록 생육되어, DNA 제조에 사용되었다(키트: #740412.10, MACHEREY-NAGEL). 제조된 파지미드 15 μg은 반응 부피 140 μl로 50℃에서 1 시간 동안 완충제 NEB 3.1(New England Biolabs, # B7203S) 중 BspQI(New England Biolabs, # R0712L) 100 유닛에 의해 분해되었으며, 이후 80℃에서 20분 동안 효소 열 비활성화가 진행되었다. 2%(w/v) 아가로스 겔 상 전기영동이 수행되었으며, 결합물질 풀에 대응하는 밴드는 절개된 다음 추출되었다(키트: #740609.250, MACHERY-NAGEL). 면역화된 알파카의 경우, 나노바디 서열은 기술된 바와 같이 B 세포의 cDNA로부터 증폭되되(Pardon et al., Nat Protoc., 2014 Mar;9(3):674-93), BspQI 제한 부위를 함유하는 프라이머로 증폭되었다. 정제된 PCR 생성물 5 μg은 반응 부피 140 μl으로 50℃에서 1 시간 동안 완충제 NEB 3.1(New England Biolabs, # B7203S) 중 BspQI(New England Biolabs, # R0712L) 100 유닛에 의해 분해되었으며, 이후 80℃에서 20분 동안 효소 열 비활성화가 진행되었다. 2%(w/v) 아가로스 겔 상 전기영동이 수행되었으며, 결합물질 풀에 대응하는 밴드는 절개된 다음 추출되었다(키트: #740609.250, MACHERY-NAGEL). 분해된 PCR 단편은, 카나마니신 내성 마커를 보유하는 FX 클로닝 초기 벡터에 클로닝되었고(Geertsma et al., Biochemistry, 2011 Apr 19;50(15):3272-8), 3,500 cfu만큼이 50 μg/ml 카나마이신 함유 LB 배지 2 ml에 의해 재현탁되었으며, 이 현탁액은 카나마이신 50 μg/ml를 함유하는 LB 배지 배양액 200 ml에 옮겨졌다. 이 배양액은 37℃에서 밤새도록 생육되어, DNA 제조에 사용되었다(키트: #740412.10, MACHEREY-NAGEL). 제조된 파지미드 15 μg은 반응 부피 140 μl으로 50℃에서 1 시간 동안 완충제 NEB 3.1(New England Biolabs, # B7203S) 중 BspQI(New England Biolabs, # R0712L) 100 유닛에 의해 분해되었으며, 이후 80℃에서 20분 동안 효소 열 비활성화가 진행되었다. 2%(w/v) 아가로스 겔 상 전기영동이 수행되었으며, 결합물질 풀에 대응하는 밴드는 절개된 다음 추출되었다(키트: #740609.250, MACHERY-NAGEL).

2. 사이바디/나노바디 풀에의 플라이코드 부착 및 플라이코드-다양성 제한

플라이코드 라이브러리를 함유하는 벡터 pNLx는, 파지미드에 대해 전술된 바와 같이 BspQ1에 의해 분해되었으며, 1%(w/v) 아가로스 겔 상 전기영동이 수행되었다. 개환된 벡터에 대응하는 밴드는 절개된 다음, 추출되었다(키트: #740609.250, MACHERY-NAGEL). 결합물질 풀 200 ng이 37℃에서 1 시간 동안 반응 부피 28 μl로 분해된 pNLx 400 ng에 결찰되었는데, 이때 T4 리가아제 완충제(Fermentas #B69) 중 T4 리가아제(Fermentas #EL0011) 2.5 유닛이 사용되었으며, 이후 65℃에서 10분 동안 열 비활성화가 진행되었다. 결찰 반응물 25 μl가, (문헌(Howard and Kaser 2007, Making and using antibodies, page 170)에 따라 제조된) 전기 수용성 이. 콜라이 MC1061 세포 150 ul을 형질전환시키는데 사용되었다. 세포가 37℃에서 30분 동안 SOC 배지 중에 회수되었으며, 클로람페니콜 25 μg/ml를 함유하는 배양액 200 ml에는, 희석된 시료를 클로람페니콜 25 μg/ml를 함유하는 아가 평판상에 도말함으로써 측정된 바와 같은 요망 콜로니 형성 단위 값(다만 상기 실시예들에 있어서는 cfu 값이 13,000 내지 30,000의 범위였음)에 대응하였던 부피만큼의 회수 세균이 접종되었다. 배양액은 37℃에서 밤새도록 생육되었으며, 이후에는 DNA 제조가 수행되었고(키트: #740412.10, MACHEREY-NAGEL), 정지상 배양액 1 ml와 50 % (v/v) 글리세롤 1 ml가 혼합되어 함유된 글리세롤 스톡이 마련되었다.

딥 시퀀싱

1. Illumina 어댑터 서열의 부착

플라이코딩된 결합물질을 함유하는 pNLx 15 μg이 반응 부피 140 ul으로 50℃에서 3 시간 동안 완충제 G(Fermentas # BG5) 중 SfiI(Fermentas # ER1821) 120 유닛으로 분해된 후, 효소 비활성화를 위해 여기에 0.5 M EDTA 12 μl가 첨가되었다. 2% 아가로스 겔 상 전기영동이 수행되었으며, 플라이코드에 결합된 결합물질 풀에 대응하는 밴드는 절개된 다음 추출되었다(키트: #740609.250, MACHERY-NAGEL). 항 MBP 사이바디가 사용되는 제1 실시예를 위하여, Illumina MiSeq를 통한 DNA 딥 시퀀싱과 관련된 어댑터와 적당한 인덱스를 함유하는 벡터 pNLs(이 경우 이중 인덱싱(indexing)에 502 및 703이 사용됨)은, 상기 pNLx에 대해 기술된 바와 같이, SfiI에 의해 분해되었으며, 1% 아가로스 겔 상 전기영동이 수행되었다. 벡터 백본에 대응하는 밴드는 절개된 후 추출되었다(키트: #740609.250, MACHERY-NAGEL). 플라이코딩된 결합물질 풀 400 ng은, 37℃에서 1 시간 동안 반응 부피 28 μl로 T4 리가아제 완충제(Fermentas #B69) 중 T4 리가아제(Fermentas #EL0011) 2.5 유닛이 사용되어 분해된 pNLx 300 ng에 결찰되었으며, 이후에는 65℃에서 10분 동안 열 비활성화가 진행되었다. 결찰 반응물 25 μl가, (문헌(Howard and Kaser 2007, Making and using antibodies, page 170)에 따라 제조된) 전기 수용성 이. 콜라이 MC1061 세포 250 μl를 형질전환시키는데 사용되었다. 세포는 37℃에서 45분 동안 SOC 배지 중에 회수되었으며, 카나마이신 30 ug/ml를 함유하는 배양액 200 ml에는 회수된 모든 세포가 접종되었다. 결찰 및 형질전환 효율이, 개재된 전체 라이브러리(총 200,000 cfu 초과)를 이동시키는데 충분하였음을 확인하기 위해, 카나마이신-선택 아가 평판에 시험 시료가 도말되었다. 배양액은 밤새도록 37℃에서 생육되었으며, 이후에는 DNA 제조가 수행되었다(키트: #27106, QUIAGEN). 제조된 pNLs, 즉 플라이코딩된 결합물질 풀을 함유하는 pNLs 1 μg의 제한 분해가, 총 반응 부피 20 μl로 37℃에서 2 시간 동안 CutSmart 완충제(New England Biolabs, #B7204S) 중 BseRI(New England Biolabs, #R0581S) 5 유닛이 사용되어 수행되었으며, 이후에는 80℃에서 20분 동안 열 비활성화가 진행되었다. 이 시점에서 다양한 표적에 대해 플라이코딩된 풀 몇몇은 (BseRI 분해 이전에) 풀링될 수 있으며, 이것들 각각은 상이하게 인덱싱된 pNLs에 삽입될 수 있음을 주목한다. 플라이코딩된 결합물질 풀이 MiSeq 어댑터와 부착된 채 함유되어 있는 삽입편은 추후 1% 아가로스 겔로부터 추출되었다.

상기 제공된 다른 실시예들을 위하여, 점착성 SfiI 돌출부를 함유하는 어닐링된 올리고뉴클레오티드 300 ng ~ 400 ng이, 반응 부피 20 μl로 37℃에서 1 시간 동안 T4 리가아제 완충제(Fermentas #B69) 중 T4 리가아제(Fermentas #EL0011) 5 유닛을 사용하여 SfiI에 의해 pNLx로부터 절개된 플라이코딩된 결합물질 풀 600 ng과 혼합되었으며, 이후에는 65℃에서 10분 동안 열 비활성화가 진행되었다. 그 다음, MiSeq 어댑터에 부착된 플라이코딩된 결합물질 풀은 2% 아가로스 겔(키트: #740609.250, MACHERY-NAGEL)로부터 추출되었다. 이 시점에서 다양한 표적에 대해 플라이코딩된 풀 몇몇은 풀링될 수 있고, 이것들 각각은 결찰된 어댑터들의 상이한 쌍을 함유함을 주목한다.

2. 나노바디-플라이코드 결합의 확정

Illumina의 MiSeq 디바이스상에서 양쪽 말단 프로토콜(paired-end protocol)을 통해 딥 시퀀싱이 수행되었다(MiSeq 시약 키트 v2(300 주기)). 본 분석의 제1 단계에서, 양쪽 말단 해독결과들은 표준 소프트웨어(Illumina)가 사용되어 함께 봉합되었다. 임의의 주어진 인덱스 쌍에 대해서는 총 800,000 ~ 8 Mio 개의 해독이 수득되었는데, 이는 평균 해독 과잉도 25 ~ 70(이 값은, 주어진 개재 라이브러리에 대하여 예상되는 플라이코드 총수로 해독 총수를 나눈 값임)에 대응하는 값이다. 주문 제작된 스트립트가 사용될 때, 이로써 구하여진 미가공 해독결과들은 i) 플라이코드 불변부의 올바른 측접 패턴, ii) 나노바디 불변부의 올바른 측접 패턴, iii) N을 함유하지 않는 서열, iv) 생성가능한 나노바디-플라이코드 융합체의 예상 크기 범위안에 있는 서열, v) 틀 내에 있는(즉 3으로 나누어질 수 있는) 나노바디-플라이코드 융합체의 서열, vi) 종결 코돈을 포함하지 않는 서열과 같은 하기 양적 표준(positive criteria)들을 적용함으로써 필터링되었다. 필터링 이후, 고유 플라이코드 목록이 생성되었다. 적어도 5회 해독된 플라이코드는 올바른 것으로 간주되었다. 각각의 올바른 플라이코드에 대해서, 결합된 나노바디 서열 모두의 공통 서열이 생성되었다. 공통 서열 접근법은 나노바디 서열에 있어서 서열결정 오류를 교정하는데 필요하였다. 동일한 플라이코드에 부착된 나노바디 서열들 간 가변성을 모니터링하기 위해 공통 점수(consensus score)가 도입되었다. 이 점수는, 동일한 플라이코드에 부착된 하나 또는 수 개의 나노바디가 다른 것들과 명백히 상이한 경우, 큰 값의 페널티를 부여하고, 이로써 2개 이상의 상이한 나노바디와 결합한 플라이코드는 추가 분석으로부터 배제된다. 공통 점수가 높은 나노바디-플라이코드 쌍만이 추가로 고려되었다. 최종 단계에서 동일한 (공통) 나노바디 서열과, 플라이코드와 결합한 이의 모든 서열(상기 실시예들에 있어서는 나노바디 하나당 플라이코드 평균 12개 ~ 40개)이 동정되었다. 동일한 나노바디에 연결된 플라이코드 모두는 나노바디 서열(식별자로서)을 사용하여 가설상 단백질 서열로 연쇄결찰되었고, 이 데이터베이스는 패스타 파일(fasta-file) 형식으로 저장되었다.

플라이코딩된 단량체 사이바디 / 나노바디의 발현 및 정제

플라이코딩된 결합물질 풀을 보유하는 pNLx를 함유하는 이. 콜라이 MC1061 글리세롤 스톡은, 37℃에서 밤새도록 배양된 1% 글루코스 함유 LB 예비배양액 50 ml에의 접종에 사용되었다. TB 배양액 600 ml는 OD 0.05가 될 때까지 예비배양액으로 접종되었으며, 37℃에서 1.5 시간 동안 배양되었고, 이후에는 20℃에서 밤새도록 배양되었다. OD600 0.8에서 0.05%(w/v) 아라비노스에 의해 유도가 수행되었다. 5,000 g에서 20분 동안 회전이 이루어짐으로써 세포가 수집되었다. 상청액은 폐기되었고, 세포는 소량의 DNaseI(SIGMA #DN25)이 보충된, 50 mM Tris-HCl(pH 7.5)(20℃), 150 mM NaCl, 15 mM 이미다졸(pH 8.0)(20℃) 25 ml에 재현탁되었다. 세포는 30,000 psi에서 2 라운드에 걸쳐 미세유동화기(Microfluidics #11OP)가 사용되어 용해되었으며, 이때 얼음에 의한 냉각이 이루어졌다. 세포 파편은 5,000 g에서 30분 동안 펠릿화되었고, 상청액은 중력류에 의해 1.5 ml들이 Ni-NTA 초유동 컬럼(QUIAGEN # 1018142)에 적용되었다. 이 컬럼은 20 mM Tris-HCl(pH 7.5)(20℃), 150 mM NaCl 및 30 mM 이미다졸(pH 8)(20℃)을 함유하는 세척 완충제 30 ml로 세척되었다. 20 mM Tris-HCl(pH 7.5)(20℃), 150 mM NaCl 및 300 mM 이미다졸(pH 8)(20℃) 6 ml에 의해 용리가 진행되었다. 용리액 5 ml가 HiLoad 16/600 Superdex 200 pg(GE Healthcare Life Sciences #28989335) 상에 주입되었고, 단량체 분획에 대응하는 영역은, 상기 실시예들에서 개략적으로 설명된 바와 같이, 추가 선택 실험을 위해 Nanodrop 2000c(Thermo Scientific) 내 완충제에 대한 흡광도(280 nm) 2.1에서 수집된 다음, 부피 1.2 ml가 되도록 농축되었다.

플라이코드의 단리

플라이코딩된 PLOI 함유 시료는 완충제 Ex(20 mM Tris-HCl pH 8.5, 150 mM NaCl, 0.5 % (v/v) Triton X-100, 0.125%(w/v) 데옥시콜산나트륨, 10 mM 이미다졸 pH 8.0, 4.5 M GdmCl)에 의해 10배 ~ 20배 희석되고 나서, 여과된 다음(시린지 필터; 0.2 μm 컷-오프), Ni-NTA 초유동 슬러리(QUIAGEN # 1018142) 100 ul와 함께 실온에서 2 시간 동안 항온처리되었다. 이후 수지는 500 g에서 10분 동안 펠릿화되었고, 미니 BioSpin 크로마토그래피 컬럼에 옮겨진 다음, 완충제 Ex 500 μl씩으로 3회 세척되었고, 30 mM 이미다졸(pH 8.0)을 함유하는 완충제 TH(20 mM TEAB pH 8.0, 150 mM NaCl, 2.5 mM CaCl2) 500 μl씩으로 3회 세척되고 나서, 다시 완충제 TH 500μl씩으로 3회 세척되었다. 컬럼 저부 끝이 폐쇄된 후, 수지는 트롬빈(MILLIPORE #69671-3) 2.4 U을 함유하는 완충제 TH 100 μl 중에 재현탁되었고, 이후 실온에서 밤새도록 항온처리가 진행되었다. 그 다음, 컬럼은 배수되었으며, 30 mM 이미다졸(pH 8.0)을 함유하는 완충제 TH 500 μl씩으로 3회 세척되고 나서, 완충제 TRY(20 mM TEAB pH 8.0, 50 mM NaCl, 2.5 mM CaCl2) 500 μl씩으로 3회 세척되었으며, 300 mM 이미다졸(pH 8.0) 함유 완충제 TRY에 의해 용리가 진행되었다. 용리액은 예비 평형화(H2O) Microcon 10 kDa 컷-오프 농축기(AMICON: YM-10)를 통해 회전되었고(15,000 g), 여과물에 트립신(PROMEGA #V5113) 1 μg이 첨가된 다음, 37℃에서 밤새도록 항온처리가 진행되었다.

이후, 용리된 플라이코드 시료는 ZipTip(MILLIPORE #ZTC18S960) 세정 절차에 돌입하였다. ZipTip은 메탄올 200 μl, 60 % (v/v) 아세토니트릴(ACN) 200 μl, 그리고 트리플루오로아세트산 0.1 % (v/v) 함유 3 % (v/v) 아세토니트릴 200 μl로 예비 세척되었다. 플라이코드 시료 100 μl가 로딩(loading)되고 나서, 0.1 % (v/v) 트리플루오로아세트산 함유 3 % (v/v) 아세토니트릴 200 μl에 의한 세척이 진행되었고, 0.1 % (v/v) 트리플루오로아세트산 함유 60 % (v/v) 아세토니트릴 40 μl에 의한 용리가 2회 진행되었다. 그 다음, 용매는 증발되었고(SpeedVac), 플라이코드는 0.1 % (v/v) 포름산 함유 3 % (v/v) 아세토니트릴 15 μl 중에 재현탁되었다.

LC-MS

재현탁된 플라이코드 용액 2 μl가, Easy-nLC 1000 HPLC 시스템을 사용하여 역상 재료로 팩킹된 회사 자체 제작 모세관 컬럼(ReproSil-Pur 120 C18-AQ, 1.9 μm; 컬럼 치수 150 mm × 0.075 mm)에 주입되었다. 컬럼은 용매 A(수중 0.1 % 포름산(FA))로 평형화되었다. 펩티드는 유속 0.3 μl/분으로 용리되었는데, 이때 하기와 같은 구배, 즉 0 ~ 60 분; 5 % ~ 20 % B(ACN 중 0.1 % FA) → 60 ~ 70 분; 20 % ~ 97 % B 가 적용되었다. 97 % B에 의한 10분 동안의 세척이 이루어진 후, 컬럼은 용매 A에 의해 다시 5분 동안 재평형화되었다. 하기와 같은 매개변수, 즉 스캔 범위 300-1500 m/z, AGC-표적 5e5, 해상도 120,000(m/z 190), 및 최장 주입 시간 100ms 이 적용되는 Orbitrap 융합 질량 분광분석계(Thermo Scientific)에 의해 정확도가 높은 질량 스펙트럼이 얻어졌다. 4중극자 고립(1.6 m/z 윈도우), AGC 표적 1e4, 35ms 주입 시간, HCD-단편화(30 % 충돌 에너지), 최장 주기 시간 3초를 적용하여 데이터 의존적 MS/MS 스펙트럼이 선형 이온 트랩 내에서 전속력 모드로 기록되었으며, 이때 모든 가용 병렬가능시간이 적용될 수 있었다. 단일 동위원소 전구체 신호는 충전상태 2와 6 사이일 때 MS/MS에 대해 선택되었고, 이때 최소 신호 세기는 5e4였다. 동적 배제(dynamic exclusion)는 25초로 설정되었고, 배제 윈도우(exclusion window)는 10 ppm이었다. 데이터 수집 후, Proteome Discoverer 1.4(Thermo Scientific)가 사용되어 피크 목록이 생성되었다.

데이터 분석 및 정량

LC-MS 운영(시료 하나에서 플라이코드 추출당 1회 운영)은 소프트웨어 Xcalibur에 의해 예비 점검되었고, Xcalibur 미가공 파일은 임포트되어 Progenesis에 의해 mznld 파일로 전환되었다. 이후, Progenesis는 관심 있는 LC-MS 운영들을 정렬하고(정렬 점수 80% 초과), 분석에서 전하량 +1 및 +5 내지 +20인 펩티드 이온을 제거하는데 사용되었다. 그 다음, 정렬된 LC-MS 운영 모두에 대해 합하여진 mgf 파일은 Progenesis로부터 엑스포트되었으며(순위 역치값 5 미만, 이온 단편 카운트 1,000 초과, 디이소토핑(deisotoping) 및 전하 디콘볼루션(deconvolution)), 이전에 확정된 플라이코드 대 PLOI 일원 할당(패스타 파일 형태의 딥 시퀀싱 데이터베이스, 상기 참조)과 함께 Mascot 서버에 업로드되었다. Mascot 동정은 소프트웨어 Scaffold에 직접 임포트된 다음, 데이터 전환이 이루어지고 나서, 스펙트럼 보고가 엑스포트되었는데, 이는 추후 Progenesis로 임포트되었고, 이때 "피처(feature)"들의, 이에 대응하는 플라이코드들로의 할당이 허용되었다. Progenesis가 사용되면, "피처"의 세기(intensity)는 통상 스파이킹된 표준에 대해 정규화되었고, 각 PLOI 일원의 고유한 플라이코드 모두가 정량에 사용되었다. 이후, 미가공 및 정규화된 세기는 (CSV 형식으로) 엑스포트되고, Excel에 의해 추가로 분석된다.