PATRONS DE DIFERENCIACIÓ GENÈTICA I PETJADES DE MIGRACIONS HISTÒRIQUES A LA PENÍNSULA IBÈRICA

 


ARTICLE

https://doi.org/10.1038/s41467-018-08272-w                  OPEN

PATRONS DE DIFERENCIACIÓ GENÈTICA I PETJADES DE MIGRACIONS HISTÒRIQUES A LA PENÍNSULA IBÈRICA

Clare Bycroft, Ceres Fernandez-Rozadilla2, Clara Ruiz-Ponte2, Inés Quintela3, Ángel Carracedo2,3,4Peter Donnelly ,5 & Simon Myers1,5


La península Ibèrica és lingüísticament diversa i té una història demogràfica complexa, que inclou un període de segles de domini musulmà. Aquí, estudiem l'estructura genètica a escala fina de la seva població i els impactes genètics dels esdeveniments històrics, aprofitant mètodes estadístics potents basats en haplotips per analitzar 1413 individus de tota Espanya. Detectem una àmplia estructura de població a escala fina a escales extremadament fines (per sota dels 10 km) en algunes regions, inclosa Galícia.

 Identifiquem un eix important est-oest de diferenciació genètica i evidència del moviment històric de població de nord a sud. Trobem fraccions que varien regionalment d'ascendència del nord-oest d'Àfrica (0-11%) en ibers actuals, relacionades amb un esdeveniment de barreja que implica poblacions d'origen semblants a Europa i al nord-oest d'Àfrica. Datam aquest esdeveniment entre l'any 860 i el 1120 dC, la qual cosa implica majors impactes genètics a la primera meitat del domini musulmà a Ibèria. En conjunt, els nostres resultats indiquen clars impactes genètics dels moviments de població associats tant a la conquesta musulmana com a la posterior Reconquesta.



La diferenciació genètica dins o entre les poblacions humanes (estructura de la població) s'ha estudiat mitjançant una varietat d'enfocaments durant molts anys1–5. Recentment, s'ha centrat cada vegada més en l'estudi de la diferenciació genètica a escales geogràfiques fines, com ara els països6–8. La identificació d'aquesta estructura permet l'estudi de la història recent de la població i identifica el potencial de confusió en estudis d'associació, especialment quan es proveen variants rares, sovint sorgides recentment9. La península Ibèrica és lingüísticament diversa, té una història demogràfica complexa i és inusual entre les regions europees en tenir un període de segles de domini musulmà10.

Estudis anteriors sobre l'estructura de la població a Espanya han examinat una petita fracció del genoma11–13 o només unes poques regions d'Espanya14,15, i normalment comparen grups d'individus definits a priori mitjançant etiquetes ètniques o geogràfiques àmplies, com ara comunitats autònomes. L'ús d'aquests enfocaments només s'ha identificat una estructura de població limitada a Iberia15–19. S'ha detectat alguna estructura al nord d'Espanya, incloses diferències estadísticament significatives en les freqüències dels haplotips del cromosoma Y i altres marcadors genètics entre les regions de parla basca i altres parts d'Iberia11,12, un resultat coherent amb una anàlisi a escala europea utilitzant ADN autosòmic20. Els estudis d'Espanya que van utilitzar dades de tot el genoma no van aprofitar la informació en les correlacions entre marcadors genètics14,15, excepte un estudi21, que va detectar un clin de variació que distingia àmpliament les mostres al País Basc d'altres parts del nord d'Espanya, especialment Galícia, però no hi ha proves. de subestructura al centre o sud d'Espanya. Així, el patró global de l'estructura de la població a Espanya, inclosa l'estructura subtil a fines escales geogràfiques, continua sense caracteritzar-se.

 

L'impacte cultural i lingüístic del domini musulmà a Ibèria està ben documentat, però el registre històric és limitat en la seva capacitat per informar sobre l'abast, el moment i la difusió geogràfica de la barreja genètica entre immigrants i indígenes ibers durant diversos segles després de la conquesta inicial22. Estudis genètics anteriors han informat de senyals de barreja de l'Àfrica subsahariana i/o del nord d'Àfrica a Ibèria en algun moment del passat23-27. Tanmateix, les estimacions del moment d'aquesta barreja varien molt, des de fa 74 generacions (~100 aC)23 fins fa 23 generacions (~1330 dC)25. Les estimacions de les proporcions mitjanes globals d'ADN semblant a l'africà a la península Ibèrica també varien, que oscil·len entre el 2,424 i el 10,6%11. També s'han informat diferències dins d'Ibèria11,26, basades en comparacions entre regions mostrejades, amb fraccions més elevades observades a les regions occidentals d'Ibèria (per exemple, 21,7% al nord-oest de Castella11) i fraccions més baixes al nord-est (per exemple, 2,3% a Catalunya11). Les estimacions del moment i l'abast de la barreja tendeixen a variar en funció de les poblacions de referència que se suposa que representen els grups de mescla ancestrals (per exemple, marroquins11 o saharauis26), així com l'heterogeneïtat en la composició ancestral de les mostres ibèriques actuals utilitzades a la anàlisi.

 

Aquí analitzem les dades de la matriu de genotipatge de tot el genoma per a 1413 individus espanyols mostrejats de tota Espanya. Mitjançant l'ús de mètodes estadístics potents basats en haplotips, identifiquem una àmplia estructura a escala fina fins a escales <10 km en alguns llocs. Identifiquem un eix important de diferenciació genètica que va d'est a oest per Ibèria. En canvi, observem una similitud genètica notable en la direcció nord-sud i evidència del moviment històric de la població nord-sud. Finalment, hem intentat aclarir el moment i la composició de les contribucions genètiques africanes i potencialment no africanes a la península Ibèrica, mitjançant l'anàlisi conjunta de dades de genotip procedents d'una àmplia gamma de regions africanes i europees. Mostrem que els espanyols moderns tenen fraccions d'ascendència que varien regionalment d'un grup més semblant als moderns del nord-oest d'Àfrica. Aquesta ascendència africana, identificada sense fer suposicions prèvies particulars sobre les poblacions d'origen, resulta d'un esdeveniment de barreja que daten entre el 860 i el 1120 dC, corresponent a la primera meitat del domini musulmà. Els nostres resultats indiquen que és possible discernir clars impactes genètics de la conquesta musulmana i els moviments de població associats a la Reconquesta posterior.

 

    Resultats

    Àmplia estructura de població a escala fina a Espanya. Es van analitzar les dades de matriu de genotipat per fases per a 1413 individus espanyols escrits en 693.092 polimorfismes autosòmics de nucleòtids únics (SNP) després del control de qualitat (Mètodes). Hem aplicat fineSTRUCTURE28 a aquestes dades per inferir grups d'individus amb patrons similars d'ascendència compartida (Mètodes). fineSTRUCTURE va inferir 145 clústers diferents, juntament amb un arbre jeràrquic que descriu les relacions entre els clústers (Fig. 1a; Mètodes). Vam utilitzar dades genètiques només en la inferència, però vam explorar la relació entre l'estructura genètica i la geografia utilitzant un subconjunt de 726 individus per als quals hi havia informació geogràfica disponible i els quatre avis van néixer a 80 km del centroide dels seus llocs de naixement. La figura 1b representa cadascun d'aquests individus com un punt d'un mapa d'Espanya, situat al centreide dels llocs de naixement dels seus avis i etiquetat segons l'assignació de clúster després de combinar petits grups a la part inferior de l'arbre (Mètodes). És probable que els seus avis hagin nascut durant les dècades a banda i banda del 1900 (l'any mitjà de naixement de la cohort és el 1941), de manera que la distribució espacial de l'estructura genètica descrita en aquest estudi reflectiria la d'Espanya en aquesta època.


Fig. 1 Individus espanyols agrupats en clústers utilitzant només dades genètiques. un arbre binari que mostra les relacions jeràrquiques inferides entre clústers inferides mitjançant dades del genotip de 1413 individus (anàlisi de fineSTRUCTURE A). Els colors i els punts corresponen als grups que es mostren al mapa, i la longitud dels rectangles de colors és proporcional al nombre d'individus assignats a aquest clúster. Hem combinat alguns petits grups (Mètodes) i les branques negres gruixudes indiquen els clades de l'arbre que visualitzem al mapa. Els clústers s'etiqueten segons la ubicació aproximada de la majoria dels seus membres, però no es van utilitzar dades geogràfiques en la inferència. b Cada individu (n= 726) està representat per un punt situat a (o prop de, <24 Km) el centroide dels llocs de naixement dels seus avis. Només representem els individus per als quals els quatre avis van néixer a 80 km del seu lloc de naixement mitjà, tot i que les dades de tots els individus es van utilitzar en la inferència de fineSTRUCTURE. El fons es pinta segons les densitats espacials de cada cúmul a nivell de l'arbre on hi ha 14 cúmuls (Mètodes). El color i el símbol de cada punt correspon al grup al qual se li va assignar l'individu en un nivell inferior de l'arbre, tal com es mostra a a. També es mostren les comunitats autònomes d'Espanya. c Una representació dels canvis en els límits lingüístics i polítics a Ibèria des del ~930 fins al 1300 dC, adaptada amb permís de mapes per Baldinger29. Es mostren diferents àrees lingüístiques amb els colors i l'ombrejat, i els límits polítics amb vores blanques (només al mapa de l'extrem dret). Només s'han afegit els colors i les etiquetes dels regnes cristians per facilitar la visualització.

    Aquests resultats revelen patrons d'estructura poblacional rica a escala fina a Espanya. Al nivell més grolleer de diferenciació genètica (és a dir, dos grups a la part superior de la jerarquia) els individus situats en una petita regió al sud-oest de Galícia estan separats dels de la resta d'Espanya. El següent nivell separa els individus situats principalment a les regions basques del nord (País Vasco i Navarra) de la resta d'Espanya. Més avall de l'arbre (colors de fons a la figura 1b) molts dels clústers segueixen de prop els límits est-oest de les comunitats autònomes d'Espanya, especialment al nord d'Espanya. Tanmateix, en direcció nord-sud, diversos clústers creuen els límits de múltiples comunitats autònomes. En general, l'eix principal de diferenciació genètica va d'est a oest, mentre que, per contra, hi ha una similitud genètica notable en la direcció nord-sud. En una anàlisi complementària que va incloure Portugal, encara que menys SNP (Mètodes), els individus portuguesos es van agrupar amb individus de Galícia (Fig. 2a), mostrant que aquest patró s'estén per tota la península Ibèrica. De fet, més que reflectir principalment els límits polítics actuals (comunitats autònomes), l'estructura genètica a gran escala de la regió és sorprenentment semblant a les fronteres lingüístiques 29 presents a la península Ibèrica cap al 1300 dC (Fig. 1c). Mitjançant proves més formals basades en simulacions, vam confirmar això: l'associació de l'estructura genètica amb el llenguatge és estadísticament significativa (p <0,008), fins i tot després de tenir en compte tant la distància física com la pertinença a la comunitat autònoma (Nota suplementària 9; Figura suplementària 8). Per contra, un cop es té en compte la distància física i la llengua, no es manté cap associació significativa amb la comunitat autònoma (p = 0,12).

    Tot i que alguns cúmuls dispersos geogràficament (per exemple, "central" i "oest") romanen en gran part intactes a la part inferior de l'arbre jeràrquic (Fig. 2b), molts dels grups que emergeixen més avall de l'arbre impliquen una major localització geogràfica. Amb diferència, la subestructura més forta es veu dins d'una sola província de Galícia, Pontevedra, que conté gairebé la meitat dels clústers inferits a tot Espanya (Fig. 1a). Aquesta estructura ultrafina es veu a escales de <10 km i els grups s'alineen amb regions definides per turons i/o valls fluvials (Fig. 3a). Aquesta estructura no és un artefacte del mostreig més dens d'aquesta regió, ja que encara era evident en una anàlisi després del submostreig (Nota suplementària 4). També s'observa una estructura molt localitzada en altres parts d'Espanya, incloent quatre cúmuls dins de les regions basques (Fig. 3b) i un cúmul exclusiu d'un segment d'uns 50 km del riu Ebre a La Rioja (Fig. 3c).


    Per entendre millor les relacions entre els cúmuls inferits per fineSTRUCTURE, vam examinar els patrons de la matriu de compartició d'ascendència (coancestria) entre cada parell de 1413 individus (Fig. 4a). En general, l'ascendència entre individus dins d'un clúster és més gran que entre individus de diferents clústers, cosa que reflecteix la deriva genètica única de cada clúster. Aquest efecte és més fort per als clústers molt localitzats, com els de Galícia i el País Basc i La Rioja (Fig. 4b). Aquests clústers també solen tenir més certesa en l'assignació de clústers (figura suplementària 1b). En canvi, el clúster etiquetat com a "central" (que es mostra amb triangles grocs a la figura 1b) no mostra cap senyal de deriva clara. De fet, els individus d'aquest clúster tenen, de mitjana, més filiació amb els membres dels clústers centrats en basc (quadrats blaus i triangles) que no pas amb altres individus del seu propi clúster (p < 0,02; figura 4c). Els arguments teòrics prediuen (Mètodes) que aquest efecte només es pot produir si es produeix la barreja d'un grup molt desplaçat a una altra població. És a dir, l'efecte no es podria explicar perquè els bascos hereten l'ADN dels avantpassats del grup central (tot i que això pot haver passat a més). Així, aquest senyal proporciona proves de la barreja al clúster "central" d'un grup relacionat amb les poblacions basques


    L'impacte genètic de les migracions històriques. A continuació, s'ha volgut caracteritzar la relació entre ibers (combinant individus espanyols i portuguesos) i grups no ibers, per entendre fins a quin punt les migracions recents de fora d'Ibèria han influït en l'ADN actual a Espanya. Hem construït un conjunt de dades combinat (300.895 SNP) de 2919 individus d'Espanya, Europa, el nord d'Àfrica30 i l'Àfrica subsahariana31 (Mètodes). Hem utilitzat fineSTRUCTURE per identificar 29 grups de donants no ibèrics (Mètodes). Hem ampliat el model fineSTRUCTURE per tornar a agrupar individus dins d'Iberia, basant-nos ara només en els seus nivells de compartició d'ascendència entre aquests 29 grups (Mètodes). Aquests clústers capturen l'impacte de la migració cap a Espanya i per tota Espanya, eliminant els efectes dels simples esdeveniments d'aïllament.


    Utilitzant aquest enfocament, vam inferir sis clústers diferents dins d'Iberia (Fig. 5a), molts menys que en l'anàlisi només per a Espanya (Fig. 1a), cosa que implica que gran part de l'estructura a escala fina que es veu a Espanya és el resultat de l'aïllament genètic regional. . Els sis grups encara s'associen amb regions geogràfiques, predominantment en direcció est-oest en lloc de nord-sud. En particular, l'extensa subestructura de Pontevedra desapareix i, de fet, aquests individus ara s'agrupen amb individus portuguesos. Per tant, l'extensa estructura a escala fina a Galícia s'explica molt probablement pels efectes de la deriva local. En canvi, encara hi ha un clúster diferent a la regió basca. Això indica que, juntament amb l'aïllament regional, els nivells distintius d'ascendència compartida amb grups no espanyols contribueixen a una estructura a gran escala en aquesta regió.


    Per caracteritzar la composició genètica d'aquests sis clústers ibèrics, vam estimar els seus perfils d'ascendència: vam ajustar cada clúster com una barreja de (potencialment) els 29 grups de donants per aproximar els grups ancestrals desconeguts que realment van contribuir als individus ibèrics actuals (Mètodes). ). Aquest enfocament explica l'estocasticitat de les relacions ancestrals al llarg del genoma i anteriorment es va demostrar que era informatiu en el context de les illes britàniques6. Només sis dels 29 grups de donants mostren una contribució >1% a Ibèria, i tots es troben a l'Europa occidental i meridional i al nord-oest d'Àfrica (fig. 6). Per als sis clústers ibèrics, la contribució més gran prové de França (63–91%), amb contribucions més petites que es relacionen amb els grups italians (5–17%) i irlandesos (2–5%) actuals. Amb l'excepció del clúster basc, aquests tres grups de donants aporten quantitats proporcionalment similars a tota la península ibèrica, de manera que probablement representen components antics d'ascendència més que no pas migracions recents. En canvi, l'ascendència del nord del Marroc mostra una forta variació regional (Fig. 5c, Mètodes). Vegeu la nota complementària 7 per a una discussió més completa dels perfils d'ascendència.


    Per distingir entre possibles escenaris que podrien produir aquests patrons, vam aplicar el mètode GLOBETROTTER25 a cadascun dels nostres sis clústers (Mètodes). GLOBETROTTER dedueix les dates de mescla i la composició de les poblacions d'origen, i prova si els patrons de barreja són coherents amb una simple barreja de dos grups alhora en el passat, en comparació amb models alternatius més complexos. GLOBETROTTER va trobar evidències sòlides (p <0, 01) de barreja per als sis grups (Mètodes; Taula suplementària 3a). Per als sis grups, es va inferir un esdeveniment extremadament similar (Fig. 5b), en un interval de temps ajustat de 860 a 1120 CE, i amb grups font similars, presents en proporcions variables (4-10% per al grup menor). Es va inferir que la font principal contenia gairebé exclusivament grups de donants europeus, i la font menor està formada principalment per grups de donants del nord-oest d'Àfrica, inclòs el Sàhara Occidental, i en menor mesura africans occidentals (YRI), d'acord amb els perfils generals d'ascendència. . El clúster "Portugal-Andalusia" mostra la contribució més gran de l'YRI i també mostra algunes evidències d'una segona data de barreja, amb un esdeveniment més recent que només implica grups d'origen subsaharianos i europeus (vegeu la figura suplementària 7 i la nota complementària). 8.2). Això indica un pols recent d'ADN de l'Àfrica subsahariana, independent del component nord-africà. Per als altres cinc clústers, les dates són més precises que qualsevol estimació anterior que utilitzés haplotips del nord d'Àfrica a l'anàlisi20,25,26. En els nostres resultats, qualsevol interval de confiança (IC) del 95% no abasta més d'11 generacions (~ 300 anys) i tots els intervals de confiança combinats abasten menys de 14 generacions (< 400 anys).





Fig. 2 Anàlisi de clúster incloent individus portuguesos; i grans grups a la part inferior de l'arbre. a Aquest mapa i arbre mostren grups inferits per fineSTRUCTURE (anàlisi B) que incloïen dades d'individus portuguesos però utilitzant un conjunt més petit de SNP (Mètodes). Com a la figura 1b, mostrem el nivell d'arbre de manera que tots els grups contenen almenys 15 individus (39 grups). En aquest mapa es mostren punts que representen 843 individus, però, com amb l'anàlisi A, es van utilitzar dades de tots els individus portuguesos i espanyols (1530) en la inferència. Les posicions dels punts i els colors de fons es determinen mitjançant el mateix procediment que a la figura 1b (Mètodes), amb l'excepció de Portugal. No hi havia informació geogràfica a escala fina disponible per a aquests individus, de manera que els vam col·locar aleatòriament dins dels límits de Portugal i vam mostrar un únic color de fons. b Aquest mapa mostra la distribució geogràfica dels tres grans cúmuls que queden a la part inferior de l'arbre inferits en l'anàlisi fineSTRUCTURE només per a Espanya (vegeu el text principal; Fig. 1a). Aquests grups contenen cadascun més de 100 individus del conjunt complet de 1413. L'arbre que l'acompanya destaca els tres grups dins de l'estructura completa de l'arbre. L'amplada dels rectangles de colors és proporcional al nombre d'individus que pertanyen a cada grup (groc = 222; taronja = 165; vermell = 123)



Fig. 3 Estructura genètica a escala ultrafina a Espanya. Els punts que representen els individus es col·loquen a cadascun dels mapes ampliats i es coloren tal com es descriu a la figura 1, amb línies fosques curtes que assenyalen la seva ubicació precisa (el lloc de naixement mitjà dels seus avis). Els tres mapes ampliats mostren l'elevació local, els rius i les masses d'aigua, així com les fronteres de les comunitats autònomes (línies negres continues) i les províncies (línies discontinues i text). a Ubicacions d'individus (44) dins dels clústers genètics centrats a Galícia. Tingueu en compte que mostrem aquesta regió a un nivell més alt de l'arbre (14), ja que el nivell inferior produeix grups amb menys de tres individus amb dades de localització geogràfica a escala fina. b Ubicació d'individus (60) dins dels clústers centrats a les regions bascoparlants del País Basc i Navarra. Per a una claredat visual només mostrem els individus que es troben dins del clade de color blau i verd a la figura 1. Aquest clade constitueix la majoria de tots els individus situats en aquesta regió, i la majoria d'aquest clade es troba en aquesta regió (60 de 64 amb dades geogràfiques). c Ubicacions d'individus (16) que gairebé tots formen un únic clúster exclusiu d'una regió d'uns 50 km d'amplada a la vora del riu Ebre a La Rioja, al sud del País Basc i Navarra




    GLOBETROTTER mostra una subtil preferència pel Sàhara Occidental com a font d'ADN del nord d'Àfrica, a diferència del nord del Marroc. Això es podria explicar si els haplotips moderns del nord del Marroc són més semblants als individus espanyols actuals que la població font històrica. De fet, una anàlisi de la barreja que vam fer del propi grup del nord del Marroc (figura suplementària 4; mètodes) mostra que aquest grup té una proporció no trivial d'ascendència semblant a l'europea, mentre que el grup de donants del Sàhara Occidental no en té cap. El treball anterior va mostrar resultats similars30. Si aquesta ascendència semblant a l'europea hagués arribat més recentment que l'esdeveniment de barreja detectat, el grup de donants del nord del Marroc seria un proxy pobre per a la població font històrica i GLOBETROTTER utilitzaria una alternativa millor. Atès que GLOBETROTTER detecta la barreja en funció de l'ADN rebut per la població objectiu (Iberia), això no afectaria les estimacions de data25.



Patterns of genetic differentiation and the footprints of historical migrations in the Iberian Peninsula

Clare Bycroft, Ceres Fernandez-Rozadilla, Clara Ruiz-Ponte, Inés Quintela, Ángel Carracedo, Peter Donnelly & Simon Myers 




X.M.C.  8/2023



Cap comentari:

Publica un comentari a l'entrada