东亚人的遗传系统初识

李輝. 國立國父紀念館館刊 (臺北) 2002.10

    在西方人眼里,远东永远是个神奇的地方,这裡不仅有多变的气候、复杂的地形,还有多姿多彩的民族风情。在我们这块东亚大地上,从青藏高原的万仞雪域,到琉毬列岛的千顷碧波,从塔克拉玛乾的漫漫黄沙,到婆罗洲的莽莽森林,生活著千百个形形色色的民族和部落。千万年的生息和繁衍,他们创造了一个个灿烂的文明,成为人类歷史上不可抹灭的炫色。惊嘆之餘,人们一直在追问,这些人群之间究竟有什么样的关係。迄今为止的任何理论都承认,人类都有一个共同的远祖,在漫长的歷史中渐渐分化成不同的族群。这种分化的起因,当然是人口增长之后的群体扩散造成的地理分离。而群体分化的内在表现為遗传差异,外在表现则為文化特化。自然,两种表现出除了决定於群体的系统发生关繫外,也都会受到群体閒交流的影响,使我们看到血统的混杂和文化的融合。科学调查已经证实,自然状态下遗传交流比文化交流要慢得多。所以长期以来,民族学和考古学要从文化特徵来研究人群的系统发生关繫,总会遇到不可逾越的障碍。更为致命的是,与遗传特徵不同,文化特徵还会受到地理环境等各种因素的影响,使得文化人类学家们的探索之路坎坷异常。所以要认识人群的系统发生关繫,直接研究其遗传特徵,不啻是条捷径。

一、遗传基因能区分民族系统吗?

    长期以来,人们一直不瞭解遗传现象的本质,更不知道遗传的物质基础DNA 分子。所以最早对人群遗传特徵的研究,都停留在外在形态的观察。体质人类学因此发展起来,科学家们测量了一个个人群的眼、耳、口、鼻、四肢和身躯,用大量的数据来比较人群閒的差异程度。然而,我们都知道,许多体态特徵会收营养状况的影响,譬如身高、体重等等。还有一些又会受制於特殊生活方式,或气候环境的影响,譬如肤色等。所以体制形态的分析结果,离人群真实的系统发生关繫还是很远,至今都没能解决各种指标的成分区分,虽然体质人类学傢还在努力著。

    自从十九世纪中期孟德尔(Mendel)发现了遗传法则,人体上的一些简单的遗传特徵相继被找到。比如血型、色盲、体味、舌运动、耵聹(耳垢)等。早期的人类遗传学家通过观察和化验,瞭解了大量真正不受外在影响的人类遗传特性,也的出了人类的此项研究,就发现了中国从东向西和从南向北的几种梯度遗传差异。但是,这些特徵专案的类型较為贫乏,不足以体现人群如此复杂的关係。

    分子生物学技术的发展,使对DNA 分子的直接研究成為可能。起先,一些有具体功能的基因的多态性(即人与人有差异)得到了关注。研究得最多的是人类特异性免疫蛋白基因(HLA)。他的确有相当多的类型,可以观察到大量群体间的差异。但由於与重要的人体功能有关,所以它的变异受到相当程度的限制,无法与人群的分化完全同步。其实,『人类基因组计画书』的完成使人们发现,在人类冗长的DNA 分子中,有具体表达功能的基因只有三万个左右,而大部分的区段都只是填充基因组或维持分子结构的无意序列。这些序列的变异往往不会影响正常的人体功能,所以可以自由的与人群分化同步。然而,不管有无功能,位於常染色体(Auomosome)上的序列都会碰到混血的难题。人类基因组主要分成二十三段,每一段构成一种染色体,其中二十二种是常染色体。每种常染色体在每个人体内都有一对,其一来自母亲,另一来自父亲,但在继续传给后代时,父母双方的染色体会打断而后重新拼接,即重组(recombination)。所以不同位置的突变之间毫无关係,其组合完全没有意义(参见图一)

    於是,人们自然开始关注没有重组现象的区段,其一是线粒体(mitochodria DNA),其二是Y 染色体非重组区(NRY),线粒体是男女都有的,但不管男女都来自其母亲,男性的线粒体一般无法传给后代,所以人们的线粒体都来自其女祖先,自然不存在重组。NRY 则只有男性体内存在,更无法重组。这种不重组的区段,最大的优点是其上的突变是紧密相关的,每一个突变都代表著整个区段的特性。先后发生的突变,也会有上下游关係。这样,不仅突变的谱系清晰,不同性质的突变,在研究时也可以相得益彰。相关联的突变构成的组合结构叫做单倍型(Haplotye)。就如图二中所示单倍型1 最古老,2 和3 產生於1 的后代中,4 產生与3 的后代中,5 產生於2 的后代中。而每种单倍型的发生年代可从其相关的(时鐘)标记计算得到。这样,只要民族群体有特徵单倍型,其发生渊源和年代就可推断。

    但是这种构成单倍型的突变,必须保证只出现一次而且不会变回去,不然各种单倍型就不能保证其发生的独特性(同一种单倍型如有不同的来源,便不能据以分析群体发生的关係),有一种突变『核苷酸多态』(SNP)就符合这种要求。各SNP 构成的某种单倍型都是单一来歷的,NRY 上的SNP 单倍型就是在世界各地各民族中体现出极丰富的特异性和多样性。

    另一种突变标记『短序列重复』(STR)与SNP 单倍型相粘连时,就成了天然的『时鐘』标记。在一个固定的基因位置上,有一种特定的短序列重复了几遍,有如火车车厢。每次突变都会增加或减少一节,而这种增加或减少是随机的。所以,同一个祖先的不同个体的同一STR 位置,可能有不同的重复数。因為突变的速度是可知的,所以我们只要寻找到最大的重复数差异,再加上其他一些参数,就可以推算出他们共同祖先的生活年代。

    不同位置上的STR,也可以构成单倍型。当几个STR 同时随机增减时,奇妙的效果產生了。从最古老的单倍型开始,向不同方向產生差异越来越大的单倍型。(就如图三所示,三个STR 的相连变化)。

图三 由STR 单倍型(6/7/5)经若干世代后形成的各种单倍型关係网

    在特定群体中观察到的中央单倍型总是最古老的,这就象一点墨水在清水中静静的扩散,色跡的中心必然是墨滴的最初位置。而根据扩散的半径,也可以计算扩散持续的时间。实际的群体中的单倍型关係网比圆三复杂得多,所以更象扩散现象,由於STR 的突变机率比SNP大得很多,所以在同一种SNP 单倍型的个体中分析STR 的网路关係,就可以计算SNP 的发生年代。这样,我们就掌握了民族遗传分析的两大利器。

二、夏娃和亚当,人类的非洲起源

    由於技术难度不同,最早研究的非重组区是线粒体。在分析了遍及全世界的几千个人的线粒体之后,一九八七年,卡恩(Rebecca Cann)发现线粒体的系统发源於非洲,由於线粒体是母系遗传的,所以这一学说被称為『非洲夏娃说』,这项研究揭开了遗传学方法探索人类史前歷史的序幕。从现代人的线粒体发现现代人类起源於十万年前的非洲,那麼其他大陆上更早时期的古人类句必然是已灭绝的旁支。这与古人类学界原有的普遍观点不合,因此引发了很多争论。但是,对欧洲尼安德特人(Homo Neanderthalensis)骨骸DNA 的分析,证实了他们的确与现代人没有传承关係,两个学界的认识也渐统一。

 

图四 各大洲人类的非重组区谱系示意图

    但是,由於线立体的特殊性质,它的突变过快而且长度太短。这使得它提供的信息量很有限,而且在群体间的分佈格局较乱,这一切则由NYR 来捕捉,NYR 上不断新的SNP,到二○○一年,斯坦福大学的昂德希尔(Peter A. Underhill)等在全世界人群中发现了二一八个SNP 位点,构成了一三一种单倍型。这些单倍型构成的谱系与线立体谱系的共同之处,也是现代人十万年前发源於非洲。图四是这种谱系结构的示意图。

    首先通过与黑猩猩等人类近亲的相关区段的比较,我们找到了人类谱系的『根』的方向,因為SNP 的特异性,人类的SNP 位点,在黑猩猩的对应位置上必然未突变。所以与黑猩猩单倍型最接近的人类SNP 单倍型,必然是人类最古老的形态。而后随著时间的推移,不断有新的人类的单倍型演化出来。结果发现所有最早演化出来的心态都保存在非洲,而非洲之外的人类的单倍型形态只是较晚(约十二万年前)发生的一小支。这说明现代人最早(约十五万年前)的演化过程发生在非洲,直到大约十二万年前,才有一小部分人走出非洲,向全世界扩散。而美洲和澳洲的土著,显然是更晚的时候从亚洲人群中分化形成的。

    这种结构在NRY 的谱系中表现得比线立体清晰和稳定得多。由於NRY 是纯粹父系遗传的,所以这种非洲起源假说被称為『非洲亚当说』。人们往往对非洲人的黝黑肤色难以认同,其实现代非洲人以不是世界上其他人种的直系亲属。只是在大约一千年前,西非洲的黑人掌握了农业技术,人口增长而后扩张,才把东非洲等地的浅色的我们的近亲取代了。而南非洲的这种取代,由於欧洲人开始殖民,就被打乱而至今未能完成,所以南非的土著肤色不太黑。

三、东亚,现代人的到来

    东亚的古人类学界至今还有人不相信。北京猿人竟然不是我们的祖先。但是在这里,的确没有找到十万年到四万年前的人类化石,看起来这里的古人种,在约十万年前就灭亡了。在之后的几万年冰河时期,东亚大地寒冷而寂寞,直到四万多年前,来自非洲的现代人重新发现了这块大地。从一九九九年宿兵等人研究了几千分亚太地区的样品的NRY,到二000 年柯越海等人研究近一万二千分中中国各族样品,涉及到的所有个体的NRY 单倍型都在非洲起源的谱系树上,没有一个人是可能来自北京猿人或其他东亚的古人种。

    既然东亚人群也是来自非洲,他们又是从哪个方向进入东亚大地的呢?有两个可能的地方,中亚和中国西北或中南半岛。由於前一地区考古研究的深入,大量现代人的早期遗址被发现,所以很多人开始相信东亚人是由西北方向进入,而后由北向南散佈开来的。但实际上东南亚发现的现代人遗址的年代也不晚。宿兵等对亚太人群的NRY 分析证实了后一种可能。他们的研究物件包括人群和西伯利亚人群,由於每个部分包含相当数量的群体,所以保证了大区域结构的可靠性。结果发现,这四个区域中的NRY 的SNP 单倍型种数由南向北梯度下降,而且南部区域包含了所有北部区域的种类。因為SNP 单倍型的主要种类早在人类在东亚分化前就形成了,所以随著长时间的扩散迁徙,人群的单倍型在途中可能丢失,造成单倍型种类沿迁徙方向从丰富变為单调.故而东亚人由东南亚进入东亚大陆。随者冰川渐渐消融,人群开始向北扩散,遍及各地。还有部分群体通过亚洲和北美之间的白令陆桥进入美洲。

    除此之外,在北方还发现了很少量的单倍型,在人群中占的比例很小,这个比例在新疆地区大概是17%,蒙古高音大概占6%-8%之间,东北维持於4%上下,而到日本就骤升為约30%,而这些类型显然与约十万年前由非洲迁移到中亚的群体有关。所以,迁移的主线虽是由南向北,但还有少量人口由西北进入。

    从亚洲到美洲的移民至少可分三批。第一批是约三万年前,由中亚来的那部分人先走过白令陆桥,到达美洲后迅速南下,成為南美和北美南部大部分的印第安人(AmericanIndian)。

    第二批在约一万年前,从南向北经中国东北到白令陆桥的人群佔据了北美的北部,成為现代纳丁语系(Na-Dene)的明珠,大约三千年前度过白令海峡的爱斯基摩人和阿留申人可以算是第三批美洲人。

    亚洲南端的安达曼――巴布亚语系(Anadaman-Papua)、泛新几内亚语系(Trans-New Guinea)和澳大利亚语系的棕色人种的迁徙路线还没有头绪、但他们与东亚的其他人群系统差距很遥远。

四、东亚族系时空演化的初拟

    除了古老的SNP 单倍型随著人群的分化而散佈和佚失,在分化过程中的不同时代不同分枝上也会產生新的SNP 单倍型。新的单倍型成為这些分枝的标誌性特徵。不同时期產生的单倍型在人群中的分佈提示了图五中的东亚人群系统发生的可能关係。

    对於这张图有几点要说明。首先,由於现代人群虽然调查分析得已相当大量,但是还是有限,所以各突变的年代估计只是个大概资料。其次,族群发生树状结构虽然比较可靠,但不能排除新的材料改变树的局部结构的可能。另外还有一点更重要的说明,是我们这里用到的族群年代都是借用於语言学,但是这课发生树却是遗传学的结果,与语言学的对应只是个梗概。族群的血统分化,完全可能不与语言分化同步,甚至相去甚远。再加上群体语言转用的影响,使遗传结构与语言结构差距更大。但是,另用一套新的遗传名词的话,对於人类学研究的各领域的交流和理解会造成障碍,更使普通读者一头雾水。所以只要明确这里讲的是(在一定时期)大致讲某类语言的人群的遗传分化过程,就不必强求名词的严格界定了。

    现代东亚的人群分别讲大致留个语系的语言,即:汉藏语系(Sino-Tibetan,包括汉、藏、羌、彝等族)、侗台语系(Daic,包括侗、壮、泰、黎、僚、仡佬等族,亦称百越)、苗瑶语系(Hmong-Mien,包括苗、瑶、畲等族,又称荆蛮)、南亚语系(Austro-asiatic,包括越南、高棉、芒、孟、门达等族,又称百濮)、南岛语系(Austronesian,包括马来、爪哇、占城、马拉加什等遍及太平洋和印度洋的大多数民族,主要是马来―― 波利尼西亚语族Malayo-Ploynesian),另外是北方草原的主体阿勒泰语系(Altaic,分為突厥、蒙古、通古斯三个语族和朝鲜、日本、虾夷三种独立语种,从土耳其分佈到日本),这六个语系的祖先从非洲来到中亚时,完全没有分化。大约在八万年前,一支人群开始向东南亚方向拓进,这一过程应该不是举族的长途迁徙,而更可能时随著人口的增长而渐渐向东南延伸,而最终由於东南亚宜人的气候使到达这里的人口大增,文化速度、遗传结构也由於特定的机制发生了漂变(Genetic Draft),形成了南方系民族(Austirc),这一征程持续了几万年,实际上也可能不是单一方向一次完成的,而可能使回回復复地随机移动著地族群地一个长期移进地方向而已。

图六 东亚人系统的地理分化

    进入东南亚发现新天地的先祖们,由於这里复杂的地形被渐渐隔离,经过很长时间后,忘却了大山那边的亲戚们。他们随著地理的分离而分化的过程展示於图六中。

    首先,东南亚中南半岛的西北部和东南亚的人群產生了差异,西北部以缅甸為中心开始形成后来的百濮等族系,东南部以柬埔寨為中心开始形成后来的百越等族系。东南群不久分出了一支人群,不知通过何种途径到达中国东北(可能是冰期露出的大陆架),与中国西北进来的另一支人群融合,形成了阿勒泰语系的各民族。其他留下的部分,也开始分别向南向北分化。向北到广东广西间的人群形成后来的百越族群,向南到马来亚、苏门答腊和婆罗洲之间大陆架的人群形成后来的南岛马来族群、西北部的人群也开始向云贵高原的各个河谷扩张。东南亚各条南北向的大河河谷成了他们的走廊。有一批人走的最快,迅速到达了川西北和黄河河套地区,形成了后来讲汉藏语系语言的氐羌民族和汉族。之后又有一支人沿长江进入川东、湖北和湘北,形成后来的苗瑶民族。这就是东亚几个族系的大致分化过程,在考古发现上也在相应的年代和地点,找到了开拓者的足跡。

图七 东亚人系统的早期区系

    这种早期分化后基本形成了图七中的地理区系。图中的东夷只见过歷史记载,考古文化上也独特,但由於已很难寻找后代,所以遗传上还不清楚。而中国西北的吐火罗(Tocharian)则属於西来的印欧语系,现已不存。

五、澳台民族源流的推测

    语言学家白保罗(Paul Benedict)认為侗台语系和南岛语系的语言有很大程度的共性,所以可以合為一个语系,即澳台语系(Austro-Tai)。事实上,这两个语系的NRY 主要SNP单倍型基本一致。他们的共同祖先是拓进东南亚的先头部队。在印度支那共同生活了很长一段时间以后,他们向南向北两个方向扩张,并在两广和马来亚形成了两个中心。不知何时,缅甸的南亚语先民也开始了向东南方向扩张,并从澳台语先民手中接管了印度支那,使得南向和北向的澳台语先民基本失去联繫,於是分别形成南岛语系马来语族和侗台语系先民,即后来的马来族群和百越族群。

    百越族群先民是最早进入两广的现代人类,当地的『柳江人』可能就是属於这个族群。这支人群在当地又居住了几万年,人口缓慢地增长起来。大约在一万多年前,末期冰川消融,於是其中一部分人穿越南岭进入江西,百越族群开始分成南北两群。大约同时,另一群完全不同的人也从怒江、澜沧江流域进入长江流域,向同一方向拓进。后来两支人群相遇会產生衝突。

    南越和北越分化后,各自產生了新的SNP 单倍型,使我们今天能看到这约一万年前发生的事件。北越在江西长期留居的人群在后来的记载中被称為『干越』。今天江西一带和相邻的皖南和闽西的汉族中保留的一定比例的百越结构与侗族几乎完全一致。太湖流域七千多年就开始出现的现代人可能来自江西的越人先民。后来的良渚文化、马桥文化和於越、扬越的遗传结构也与江西越人相连。除了沿江而下的移民,可能还有一部分人是从江西溯江而上,一直到达贵州。这一支人可能就是仡央语族(Kadai)的先民。在东下的越人建立春秋时期越国之前,西上的越人建立了强大的夜郎国,并在商王朝的歷史舞臺上频频出场。在夜郎国治下的许多其他族群也改变了仡央语。我们今天看到的仡央语族中的许多小部族的遗传结构完全不属於百越类型。

    楚国的强大影响到南方许多部族,大约在商末,楚国发动了对江西干越的征伐。在顽强抵抗之后,终因技术落后,干越战败退逃。大部分的人可能退到两广之间的梧州一带,在歷史记载中称為『骆越』。可能这些名称当时的发音都相同,可能為Klam-Daic。属於北系的『骆越』与南系当地的『西甌』比邻而居。但却已不一样,骆越在梧州一带大概一直居住到宋代。在大约秦汉时候,部分人迁到了广西北部的融水一带,又渐向贵州移动成為今天的水语支各部族(Sui)。宋代受越南侵略军的侵扰,骆越从梧州北上广西、湖南、贵州三省交界地带,成為今天侗语各部族(Kam)。

    南越部分也在北越离开后一段时间开始内开始东进,到达福建和浙南,形成后来的闽越和东甌。而南寧一带的南越人被称為西甌。所以与『骆』為北越代称相对应,南越的代称可能是『甌』。秦末南越国的主体民族可能就是南越。汉代南越灭国后,一大部分人由广东退向僚国、泰国方向,形成今天的僚族、泰族等民族。云南的傣族又是由泰国迁来。泰系民族在东南亚陆续建立了好几个政权。十三世纪,猛昂国(现云南德宏)向印度阿萨姆省(Assam)地带远征,建立了阿含王国(Ahom)。海南的黎族很晚还在广西广东之间,什麼时候分化形成还未知。

    臺湾原住民被分在南岛语系,但却分成与马来语族完全不同的三个语族。语言学家认為一类语言中最复杂的地区是分化时间最长的发源地。如果臺湾原住民语言是属於南岛语系,则臺湾就是语言最复杂的南岛语发源地。在臺湾之外的南岛语系近两千种语种都属於马来-玻利尼西亚语族(Malayo-Polynesian)。所以语言学家提出一种『南岛快车假说』,认為南岛语各族起源於臺湾,迅速散佈到几乎整个太平洋和印度洋。

    但是,从NRY 结构看来,臺湾与玻利尼西亚完全不相关,『南岛快车假说』完全不成立。其实,如果不看臺湾,其他南岛语言中最复杂的在苏门答腊(Sumandra)一带,与遗传学家推测的南岛发源地一致。或许南岛语系马来族群的先民於百越先民分离后,在马来亚和苏门答腊一带一直住下来,直到千多年前,航海技术的发展,使他们得以在广渺的大洋上驾著『拉比塔』(Lapita)小舟自由航行。

图八 百越的迁徙

    而台湾原住民的遗传结构看来与百越族群很相似,可能是不同时期不同路线从大陆来到臺湾的,有的属於南越,更多可能属於北越。虽然侗台语的结构与臺湾语言看来很不一样,但是侗台语是在秦汉以后受汉语影响而发生过了类型转变,也很难否认转型前侗台语与臺湾语言相似,而符合遗传学的不可转变的结构。

六,汉族和氐羌民族

    在多数汉族人的眼中,异己文化的少数民族都是相同的『蛮夷』。其实,相对其他系统的民族,汉族与氐羌系统的少数民族更近,甚至可以说汉族就属於氐羌民族。语言学研究估计其间有六千年左右的分离,而遗传学分析他们的分化发生在约五千年前,相差无几。

    如前所述,氐羌的先民可能来源於云贵的百濮先民,在一,二万年前末期冰川消退时,他们可能趁著夏季冰雪消融,从澜沧江流域越过雪山进入金沙江流域,然后又沿著雅砻江,嘉陵江等河谷走廊北上,一直到达黄河上游河套地区。今天在长江支流的几个河谷中分布的羌语支的许多部落不知是当时留下的还是后来再重新回来的。在很长一段时间内,这群人都过著游牧的生活,而且许多民族保存这种生活方式至今。也就是在五,六千年前,汉族的前身华族学会了种植小米的农业技术。粮食渐渐充足,不再向游牧民族那样缺乏食物,使得华族的人口很快的增长,超过了其他羌人。於是华族开始为生存空间而扩张,向四方的其他民族掠夺土地。在他们眼裏,羌族已不在是同类,所以专称其为『西戎』,土地的争夺也发生在华戎之间。但是对华族更有吸引力的是东方适於农作的肥沃土地。然而不巧的是三苗已经先他们一步到达中原沃土。在那种文明起源的『部落英雄时代』,部族战争是人群间竞争的唯一办法。掠夺,驱逐,消灭外族的人会被本族人奉为英雄,这是那个阶段所有部落的『道德标准』。所以打败蚩尤驱逐三苗的英雄——黄帝诞生了。华族占据了中原,开始创造华夏文明。在中原更东的山东一带,还有许多小部族,被称为夷族。华人称夷族为『东夷』,而被赶到南方的三苗为『南蛮』。华夷之间的争斗贯穿了整个夏商时代,这种争斗的胶著使两族之间产生了大量的交流,到周代以后,东夷族被彻底同化,退出历史舞台,华人又取得了胜利。

图九 羌,华族系的分化和迁徙

    到了秦始皇统一六国,华族的扩张目标又指向了长江以南更广阔的百越之地。虽然秦军坚甲锐兵,但在越族顽强的抵抗下伤亡极重, 所设的桂林等三郡也是空有其名。於是秦朝只好对百越采用『怀柔政策』,直到汉朝前期还是『北拒胡而南怀越』。最终,汉人的足迹终於到了南海之滨。

    华族也没有忘记西边的羌人之地,秦穆公时发生秦羌之战,使秦国的疆域大为西拓,后来蜀,巴也相继落入秦人之手。多次战败使羌人失去了原有土地,开始散向西南。正如图九所示,许多人群一路走到云南,缅甸和泰国等地,形成了一个氐羌文化和当地环境相结合的新的民族,藏族也是当时羌人流散而来,但是在其发展过程中又吸收了很大部分中亚的成分。从遗传结构上很清晰地看到这些迁徙路线上一个个民族之间的渊源关系,正如他们把逝者的灵魂送回北方老家的送魂歌所唱的那样。

    各地的汉族至今保持著相当一致的NRY结构。有人认为汉族人口庞大是由於像滚雪球一样加上了大量外族成分,但是看来外族成分是很少量的。

七,荆蛮的源流

    荆蛮是苗瑶语的先民。他们与百濮的血缘关系比其他任何一个族系更近。根据其特性突变M7的年代估算,他们也是在大约一万二千年前,从贵州的百濮中分化出来,来到三峡地区。经过一段的发展,渐渐向洞庭湖移动。他们同百越一样,也在很早的时候开始稻作。其中一支人很快发现了北面不远的中原空地,於是抢先占据了这块地盘。然而不久之后,就发生了前文所述的与华族的冲突。三苗战败后退回南部。如果苗族真是三苗后裔的话,三苗应该是退到了黔东。现代苗语的湘西,黔东和川滇黔三个方言区中,唯有黔东最为复杂,其他两种可能是黔东苗人向东西两侧分化出的。川滇黔的苗族还是经云南一路南下游耕到了中南半岛各国。布努语的部族可能是未随三苗北上中原的苗人部分。

    瑶族长期在洞庭湖周遍耕作,被称为长沙蛮,武陵蛮。从遗传结构看,瑶族在苗瑶族群中最为古老。他们曾经是楚国的一部分。现在大部分的瑶族已从湖南迁到了广西。还有一些从广西南部直接进入了越南。另一支人从广西进入云南文山,又从西双版纳到老挝和泰国,还有部分人到了广东西北部,就是今天广东连南的八排瑶。由此又迁凤凰山到广东东南部,形成了畲族,在唐宋时期畲族经过几次北迁,沿武夷山等路线散布到了福建和浙江等地。

    春秋战国时期的楚国也称为荆楚,连楚王也承认自己是荆蛮。现在的湖北人中,有很大一部分人的遗传结构与苗瑶一致,可见史书所言不虚。另外,江苏的吴人也保留有苗瑶的遗传结构。史书称『句吴』时,最早也说她是荆蛮。周初『太伯奔吴』,使这个荆蛮部族融入了华人成分和华夏文化,并向长江下游移动,到达南京一带。到春秋时代,吴人已从越人手中夺得了苏州地区。从考古上看,应当对应于湖熟文化向马桥文化地区的推进。所以可见吴越两国的人民是传上无关的不同民族,只是后来用同一种汉语方言交流,地域文化有趋同,才被并称为『吴越』而误认为『一族两国』。其实,至今吴越之间遗传上的异源性还是很明显。图十画出了荆蛮的大致源流。

图十 三苗的分化和迁徙

    除此之外,现在汉族中的客家人和赣语人群也保存了七分之一左右的荆蛮血统,可能他们最早的来源也是荆蛮,陆续加入汉族移民而成了现在的结构。

八,展望

    虽然只有短短几年的历史,但是遗传学对人群演化的阐述已让人兴奋不已。东亚人群的许多不为人知的历史脉络也渐渐清晰。随著对大量民族群体的遗传分析的深入,更精细更明确的演化历史将勾勒出来,为人类学,民族学,考古学和历史学等提供自然科学的依据。对考古遗址中发现的各个时期的遗骇的遗传分析,更能构建出人类发展的时空网路,让我们共同期待这一激动人心的时刻的到来。

    (作者任职于复旦大学生命科学学院现代人类学研究中心)

复旦大学生命科学学院遗传工程国家重点实验室各课题组介绍:金力教授课题组

究 项 目

    我实验室几年来对东亚人群的起源、进化和迁徙开展了较为深入的研究,在这一领域奠定了重要的国际地位,从1998年至今,每年都在国际权威刊物当发表论文。现将这些研究的主要成果按年份概述如下。

    @中国人非洲起源的发现

    1998年,第一篇系统的采用现代遗传标记研究中国人群的遗传关系的文章发表在《PNAS》上。这篇文章利用30个微卫星标记分析了28个中国人群的遗传结构,观察到南北中国人群之间的遗传差异,认为中国北方人群可能具有双重起源。多态性分析和系统聚类分析支持现代中国人群来源与非洲,并经过东南亚进入中国大陆。

    @计算中国的人类定居年代

    1999年,我们利用Y染色体对东亚人群的史前迁徙进行了更为精细的描述。我们采用了Y染色体上19个单核苷酸多态标记对30个东亚人群925个男性个体进行了单倍型分析。结果表明,南方人群的单倍型多样性高于北方人群,北方人群拥有的单倍型在南方人群中均有发现,而一些单倍型只在南方出现;东亚特异的单倍型H6、H7、H8共享一个突变M122-C,用Y染色体上的微卫星标记估计该突变大约发生在6万年前。结合中国缺乏5-10万年前古人类化石的考古学证据,我们认为现代人从东南亚进入东亚大陆南方的时间大约在6万年前的末世纪冰川期间,随着向北的大迁徙,逐渐在北方和西伯利亚定居。

    @台湾与波利尼西亚的关系

    2000年我们发表了3篇关于东亚及太平洋地区人群迁徙和遗传关系的文章。其中一篇文章从父系遗传的角度探讨了玻利尼西亚人群的起源。玻利尼西亚人群起源最流行的观点是“快车模型”,认为台湾土著是现代玻利尼西亚人群的祖先;而我们对Y染色体的研究却得到了不同的结论:台湾人群和玻利尼西亚人群是分别从东南亚独立迁徙过去的。

    @汉族和藏缅语族的近缘关系

    第二篇文章关于藏族的起源,东亚起源的M122-C和可能是中亚起源的YAP+在藏族人群中都具有比较高的频率,我们据次认为藏族具有双重起源,一支来自中亚,另一支来自东亚。第三篇文章探讨了汉藏语系群体之间的遗传关系,几乎所有的汉藏语系群体都具有较高频率的M122-C,提示他们有较近的共同祖先,喜马拉雅地区包括藏族在内的藏缅语族民族都具有高频率的M122下的突变M134(单倍型为H8),表明他们曾经经历了很强的瓶颈效应,通过与考古学证据相互对照,我们猜想现在汉语语族和藏缅语族的共同祖先约2-3万年前携带M122-C到达黄河中上游地区,并于大约1万年前创造了以种植粟为特征的新石器文化,汉藏语系的2个语族大约5000-6000年前分开,其中一支东迁成为现代汉族的祖先,另一支向西南迁徙,逐渐演化成藏缅语族的各个群体。

    @大规模搜索非非洲起源东亚人群

    Underhill等人的研究表明,在他们观察的1000多个非洲以外的个体中均带有一个共同的突变M168,而非洲人的这个位点是多态的。M168下分为3个支系M1、M130和M89,如果所有东亚人群都来自非洲,那么所有的个体均带有以上3个突变的其中之一;如果当地智人对现存人群的基因库作出贡献,则预期有一些个体不能观察到以上的3个突变。为了进一步证实东亚人群非洲起源的真实性以及检测当地智人对现存东亚人群的可能贡献,我们对分布于亚太地区的163个群体12127个个体进行了Y染色体上3个位点的单倍型分析。结果显示所有的个体均带有以上3个突变之一,这个结果表明,从父系遗传的角度看,当地智人并没有对现存的东亚人群做出贡献,这是支持东亚人群非洲单一起源的强有力遗传学证据。这一工作的研究报告发表到2001年5月的《Science》周刊上。

    @北方新疆等地的人群的来源

    对中国北方汉族、蒙古族、维吾尔族、哈萨克族、保安族等作大规模遗传调查,发现这些族群中东亚血统都占绝对多数。都属于蒙古人种,且遗传结构向贵重呀人群有更大内部共性。

    @苗瑶族群的遗传结构和《瑶族通史》的协助编辑

    我们协助广西瑶学会,参与国家民委重大计划《瑶族通史》的编辑,多全国瑶族进行大规模采样和分析。虽然一些文献比较系统的讨论了东亚人群的遗传关系及群体结构, 但对苗瑶系统人群的研究还远不够深入。本研究利用PCR-RFLP技术,对来自于23个苗瑶系人群的684个样品进行了13个Y-SNP的基因分型。在东亚及亚太地区存在17种Y染色体单倍型,我们在苗瑶人群中观察到9种。其中带有M122突变的三种单倍型(H6-H8)的频率为45%, 带有M95突变的2种单倍型(H11-12)的频率为21.5%。前者在汉藏系统人群中的频率最高(47.1%), 而后者则广泛分布于侗台系统民族(平均频率35.7%)。这一频率分布格局显示苗瑶系统人群的父系遗传结构具有双重特质。单倍型频率的主成分分析支持以上的观察:苗瑶系统人群在主成分分布图上连接了汉藏和侗台人群,并有部分群体与其交错分布。该结果提示苗瑶系统人群在父系遗传结构上与汉藏和侗台两个系统均有比较密切的联系,这和历史记载相一致。

    分子数据的方差分析(AMOVA)表明,苗瑶与藏缅系统人群之间的差异最小(1.2%),汉族次之(2.3%),而与侗台(4.5%)和阿尔泰(5.3%)则差异较大(p值均小于0.01)。当单独考察苗族和瑶族,苗族与藏缅的差异不显著(1023次非参数列阵检验,p=0.13),可能与三苗集团与炎黄集团的接触有关。在苗瑶族群内部,布努与苗族群体的差异相当小(-0.9%,p=0.58),而与瑶族群体的差异则相对较大(2.7%,p=0.07),我们的遗传学观察与语言学的分类是一致的。

    带有M7突变的H7单倍型在大部分苗瑶人群中均有分布(平均频率6%),而在其它人群中则极其罕见,显示出强烈的群体特异性。我们进一步对H7的个体进行了5个Y染色体上短重复序列(Y-STR)的分型。利用Y-STR单倍型构建的网络表明苗瑶系统的H7位于中心,而客家人和土家族等人群的H7则位于旁支。提示苗瑶人群的H7更为古老,是发散中心。用5个Y-STR重复数的方差估计M7发生的年代至少在10300-11800年之前,这一估计可为苗瑶系统祖先群体的分化时间提供参照。

    @百越族群的遗传结构研究

    对国内60多个百越族群收集了样本,分析遗传结构,发现H9,H10,H11,H12都是百越族群的特征型。在我们研究过的百越族群中根据特征单倍型对比,发现基本可以分为5组。第1组,黎族、壮族、布依族,有较稳定的H11、H12,H9频率则依次降低,代表从广东到贵州的迁徙。第2组,东北泰(老族)-傣组,有稳定的H12,其他种类依次减少,代表向西南部的迁徙。第3组,印度阿霍姆,仅有H10,可能坎梯等族也在此组。第4组,侗-仫组,有稳定的H10,H9逐次加强,H11渐少,代表从广东到江西和浙江的迁徙。第5组,水-毛组,有稳定的H11,水族的H9在毛南族丢失了。这些信息在民族学、语言学等领域肯定会有深刻的意义。

遗传学证实汉文化的扩散源于人口扩张

    作者:宋文波1,2,李辉1,卢大儒1,宋秀峰1,张锋1,何云刚1,李峰1,高扬1,毛显赟1,张良1,钱吉1,谭婧泽1,金建中1,黄薇2,Ranjan Deka3, 宿兵1,3,4,Ranajit Chakraborty3, 金力1,3

    1. 复旦大学现代人类学研究中心遗传工程国家重点实验室生命科学学院摩尔根—谈国际生命科学中心,上海200433,中国
    2. 国家人类基因组南方研究中心,上海201203,中国
    3. 辛辛纳提大学环境健康系基因组信息中心,辛辛纳提,俄亥俄州45267,美国
    4. 中国科学院昆明动物研究所细胞与分子进化重点实验室,昆明650223,中国

  语言和文化在人群间的扩散有两种不同的模式:一种是人口扩张、人群迁徙模式;另一种是文化传播模式,人群之间有文化传播,而基因交流却很有限。同一语系的欧洲人群的形成机制争议颇多,争论的焦点在于来自近东的农业文明和语言的扩散是否伴随着大量的农业人口的迁移[1-3]。有着共同的文化和语言的汉族,人口超过了十一亿六千万(2000 年人口统计),无疑是全世界最大的民族。因此汉文化的扩散过程广受各领域研究者的关注。通过系统地对汉族群体的Y 染色体和线粒体DNA 多态性进行分析,我们发现汉文化向南扩散的格局符合人口扩张模式,而且在扩张过程中男性占主导地位。

  史载汉族源于古代中国北方的华夏部落,在过去的两千多年间,汉文化(汉语和相关的文化传统)扩散到了中国南方,而中国南方原住民族则是说侗台、南亚和苗瑶语的人群(百越、百濮和荆蛮)[4-5]。经典遗传标记和微卫星位点研究显示,汉族和其他东亚人群一样都可以以长江为界分为两个遗传亚群,南方汉族和北方汉族[6-9]。两个亚群之间的方言和习俗差异也很显著[10]。这些现象看似支持文化传播模式,即汉族向南扩张主要是文化传播和同化的结果。然而,两个亚群之间有着许多共同的Y 染色体和线粒体类型[11-12],历史记载的汉族移民史[5]也与汉族的文化传播模式假说相矛盾。本研究对这两种假说进行了检验,证实汉文化的扩散中的确发生了大规模的人群迁徙(人口扩张模式)。

    图1 调查群体的地理分布。图中标出了历史记载中自北而南的三次迁徙浪潮。各群体的详细信息见补充材料1。群体1-14 是北方汉族,15-28 是南方汉族。实线、段线和虚线依次表示三次迁徙浪潮。第一次发生于西晋时期(公元265-316 年),迁徙人口约90 万(大约当时南方人口的六分之一);第二次发生于唐代(公元618-907年)规模比第一次大得多;第三次发生于南宋(公元1127-1279 年),迁徙人口近500 万。

  为了验证这些假说,我们把南方汉族的遗传结构与两个亲本群体作比较,其一是北方汉族,其二是南方原住民族,即现居于中国境内和若干邻国的侗台、苗瑶和南亚语群体。我们分析了来自中国28 个地区汉族群体的Y 染色体非重组区 (NRY) 和线粒体DNA (mtDNA) 遗传多态[13-16],这些样本覆盖了中国绝大部分的省份(详见图1 和补充信息表1)。

  父系方面,南方汉族与北方汉族的Y 染色体单倍群频率分布非常相近(见补充信息表2),尤其是具有M122-C 突变的单倍群 (O3-M122 和O3e-M134) 普遍存在于我们研究的汉族群体中(北方汉族在37-71%之间,平均53.8%;南方汉族在35-74%之间,平均54.2%)。南方原住民族中普遍出现的单倍群 M119-C(O1) 和 M95-T(O2a) 在南方汉族中的频率(3-42%,平均19%)高于北方汉族(1-10%,平均5%)。而且,南方原住民族中普遍存在的单倍群O1b-M110, O2a1-M88 和 O3d-M7[17], 在南方汉族中低频存在(平均4%),而北方汉族中却没观察到。如果我们假定起始于两千多年前的汉文化扩散[5]之前南方原住民族的Y 类型频率与现在基本一致的话,南方汉族中南方原住民族的成分应该是不多的。分子方差分析(AMOVA)进一步显示北方汉族和南方汉族的Y 染色体单倍群频率分布没有显著差异(Fst=0.006,P>0.05), 说明南方汉族在父系上与北方汉族非常相似。

  母系方面,北方汉族与南方汉族的线粒体单倍群分布非常不同(补充信息表3)。东亚北部的主要单倍群 (A, C, D, G, M8a, Y, Z)在北方汉族中的频率(49-64%,平均55%)比在南方汉族中(19-52%,平均36%)高得多。另一方面,南方原住民族的主要单倍群(B, F, R9a, R9b, N9a)[12,14,18]在南方汉族中的频率(36-72%,平均55%)要比在北方汉族(18-42%,平均33%)高得多。线粒体类型的分布在南北汉族之间有极显著差异(Fst=0.006,P<10-5)。虽然南北汉族之间线粒体和Y 染色体的Fst 值相近,但线粒体的南北差异Fst 值占群体间总方差的56%,而Y 染色体仅仅占18%。

  用汉族群体的单倍群频率数据所做的主成分(PC)分析与以上结果相一致。对NRY 分析发现,几乎所有的汉族群体都聚在图2a 的右上方。北方汉族和南方原住民族在第2 主成分上分离,南方汉族的第2 主成分值处于北方汉族和南方原住民族之间,但是更接近于北方汉族(北方汉族0.58±0.01;南方汉族0.46±0.03;南方原住民族-0.32±0.05),这表明南方汉族在父系上与北方汉族相近,受到南方原住民族的影响很小。就mtDNA 而言,北方汉族和南方原住民族仍然被第2 主成分分开(图2b),南方汉族也在两者之间但稍微接近南方原住民族(北方汉族0.56±0.02;南方汉族0.09±0.06;南方原住民族-0.23±0.04),表明南方汉族的女性基因库比男性基因库有更多的混合成分。

    图2 主成分散点图。a 为Y 染色体单倍群散点图,b 为线粒体单倍群散点图。群体标记:▲北方汉族,△南方汉族,+侗台语民族,×南亚语民族,*苗瑶语民族。

  我们进一步用两种不同的统计方法[19-20]来估计两个亲本(北方汉族和南方原住民)对南方汉族基因库的相对贡献(表1),这两个统计量用于单位点(single-locus)分析时比其它的方法更为准确[21]。两种方法得到的混合系数估计值(M,北方汉族的贡献比例)高度一致(Y染色体,r=0.922,P<0.01;线粒体,r=0.970,P<0.01)。就Y 染色体而言,所有的南方汉族都包含很高比例的北方汉族混合比率(MBE:0.82 ± 0.14, 范围0.54-1 ;MRH:0.82 ± 0.12,范围0.61-0.97)(MBE 和MRH 的定义分别见参考文献20 和19),这表明南方汉族男性基因库的主要贡献成分来自北方汉族。相反,南方汉族的线粒体基因库中北方汉族和南方原住民族的贡献比例几乎相等(MBE:0.56±0.24[0.15,0.95]; MRH:0.50±0.26[0.07,0.91])。总体上北方汉族对南方汉族的遗传贡献父系比母系高得多( t-test,P<0.01);各群体分别看也是这样:绝大部分南方汉族群体中北方汉族的贡献在父系上大于母系(MBE ,11/13, MRH,13/13,P<0.01,零假设为男女的贡献相等为二项式分布),这表明南方汉族的群体混合过程有很强的性别偏向。南方汉族中北方汉族贡献的比例(M)呈现出由北向南递减的梯度地理格局。南方汉族线粒体的M 值与纬度正相关(r2=0.569,P<0.01),但Y 染色体的相关性不显著(r2=0.072,P>0.05),因为南方汉族父系的M 值差异太小,不足以导致统计上的显著性。

    表1 南方汉族中的北方汉族混合比例

群体   Y 染色体          线粒体DNA
     MBE(±s.e.m)  MRH    MBE(±s.e.m)  MRH
安徽   .868±.119    .929   .816 ±.214   .755
福建   1         .966   .341 ±.206   .248
广东1  .677 ±.121   .669    .149 ±.181   .068
广东2  ND           ND    .298 ±.247   .312
广西   .543 ±.174   .608   .451 ±.263   .249
湖北   .981 ±.122   .949   .946 ±.261   .907
湖南   .732 ±.219   .657   .565 ±.297   .490
江苏   .789 ±.078   .821   .811 ±.177   .786
江西   .804 ±.113   .829   .374 ±.343   .424
上海   .819 ±.087   .902   .845 ±.179   .833
四川   .750 ±.118   .713   .509 ±.166   .498
云南1  1          .915   .376 ±.221   .245
云南2  .935 ±.088   .924   .733 ±.192   .645
浙江   .751 ±.084   .763   .631 ±.180   .540
平均   .819         .819   .560        .500

    注:MBE 和MRH 分别为参考文献20 和19 所描述的统计量。MBE 的标准误通过1000 次自展(Bootstrap)获得。把南方原住民族和北方汉族作为南方汉族的亲本群体估计北方汉族的遗传贡献比例,假定2000 多年前开始的混合过程前后南方原住民族的等位基因频率基本不变,并且南北汉族之间的遗传交流不多。实际上,从北方汉族到南方原住民族的基因流动比反向的流动大得多,所以表中的估计值在没有适当调整前是低估的。因而汉族实际的人口扩张程度应该大于本项研究得出的数值。

  综上所述,我们提出了两项证据支持汉文化扩散的人口扩张假说。首先,几乎所有的汉族群体的Y 染色体单倍群分布都极为相似,Y 染色体主成分分析也把几乎所有的汉族群体都集合成一个紧密的聚类。再有,北方汉族对南方汉族的遗传贡献无论父系方面还是母系方面都是可观的,在线粒体DNA 分布上也存在地理梯度。北方汉族对南方汉族的遗传贡献在父系(Y 染色体)上远大于母系(线粒体),表明这一扩张过程中汉族男性处于主导地位;换个角度看,在汉族和南方原住民的融合过程中有相对较多的当地女性融入南方汉族中。性别偏向的混合格局也同样存在于藏缅语人群中[22]。

  据历史记载,受北方战乱和饥荒的影响,汉人不断的南迁,图1 中画出了三次大规模移民的浪潮。在两千多年间,除了这三次大潮,各个时期几乎都有小规模的南迁。所以,我们的遗传研究也与历史记载相吻合。大量的北方移民改变了中国南方的遗传构成,而汉族人口扩张的同时也带动了汉文化的扩散。除了大规模的人群迁徙,北方汉族、南方汉族和南方原住民族之间的基因交流造成的族群混合也在很大程度上改变了中国人群的遗传结构。

    样本

  采集中国各地的17 个汉族群体871 个随机不相关个体的血样。用酚-氯仿法抽提基因组DNA。结合文献报道的Y 染色体和线粒体多态性数据,总共分析的样本量是:Y 染色体23 个群体1289 人,线粒体23 个群体1119 人。这些样本涉及了中国的大部分省份(图1 和补充材料表1)。

    遗传标记

  通过聚合酶链式反应—限制性片断长度多态性(PCR-RFLP)的方法[11]分型Y 染色体上的13 个双等位标记:YAP, M15, M130, M89, M9, M122, M134, M119, M110,M95, M88, M45, M120。根据Y 染色体委员会的命名系统(YCC)[24],这些标记构成13 个单倍群,在东亚人群中具有较高的信息量[23]。

  线粒体上,对高变1 区(HVS-1)进行测序,对编码区8 个多态位点作了分型(9-bp 缺失, 10397 AluI, 5176 AluI, 4831 HhaI, 13259 HincII, 663 HaeIII, 12406 HpaI , 9820 HinfI),有关方法已有报道[22]。根据东亚线粒体系统树[18],用高变1 区突变结构和编码区多态性构建单倍群。

    数据分析

  根据线粒体和Y 染色体单倍群频率,用SPSS10.0 软件(SPSS 公司)作主成分分析,研究群体间关系。南北汉族的遗传差异用ARLEQUIN 软件[26]做AMOVA 检验[25]。南方汉族中北方汉族和南方原住民族的混合比例估计用两种不同的统计方法[19-20]:ADMIX 2.0[27]和LEADMIX[21]软件。亲本群体的选择对混合比例的适当估计很重要[28-29],我们通过扩大东亚的参考数据来减小偏差。分析中,10 个北方汉族群体的各单倍群频率(Y染色体和线粒体标记分别分析)的算术平均作为北方亲本群体。南方原住民族的频率平均了三个族群:侗台语群(NRY,22 群体;线粒体,11 群体),南亚语群(NRY,6 群体;线粒体,5 群体),苗瑶语群(NRY,18 群体;线粒体,14 群体)。通过样本的混合比例与纬度[1,3]的线性回归分析揭示汉族群体的地理格局。

    2004 年4 月28 日收稿;7 月20 日定稿;doi:10.1038/nature02878.

参考文献
1. Cavalli-Sforza, L. L.,Menozzi, P. & Piazza, A. The History and Geography of Human Genes (Princeton Univ. Press, Princeton, 1994).
2. Sokal, R., Oden, N. L. &Wilson, C. Genetic evidence for the spread of agriculture in Europe by demic diffusion. Nature 351, 143–145 (1991).
3. Chikhi, L. et al. Y genetic data support the Neolithic demic diffusion model. Proc. Natl Acad. Sci. USA 99, 11008–11013 (2002).
4. 费孝通. 中华民族多元一体格局. (中央民族大学出版社, 北京, 1999).
5. 葛剑雄, 吴松弟, 曹树基. 中国移民史(福建人民出版社,福州, 1997).
6. Zhao, T. M. & Lee, T. D.Gmand Kmallotypes in 74 Chinese populations: a hypothesis of the origin of the Chinese nation. Hum. Genet. 83, 101–110 (1989).
7. Du, R. F., Xiao, C. J. & Cavalli-Sforza, L. L. Genetic distances calculated on gene frequencies of 38 loci. Science in China Ser. C 40, 613 (1997).
8. Chu, J. Y. et al. Genetic relationship of populations in China. Proc. Natl Acad. Sci. USA 95,11763–11768 (1998).
9. Xiao, C. J. et al. Principal component analysis of gene frequencies of Chinese populations. Sci.China C,43, 472–481 (2000).
10. Xu, Y. T. A brief study on the origin of Han nationality. J. Centr. Univ. Natl 30, 59–64 (2003).
11. Su, B. et al. Y chromosome haplotypes reveal prehistorical migrations to the Himalayas. Hum. Genet.107, 582–590 (2000).
12. Yao, Y. G. et al. Phylogeographic differentiation of mitochondrial DNA in Han Chinese. Am. J. Hum.Genet. 70, 635–651 (2002).
13. Cavalli-Sforza, L. L. & Feldman, M.W. The application of molecular genetic approaches to the study of human evolution. Nature Genet. 33, 266–275 (2003).
14. Wallace, D. C., Brown, M. D. & Lott, M. T. Nucleotide mitochondrial DNA variation in human evolution and disease. Gene 238, 211–230 (1999).
15. Underhill, P. A. et al. Y chromosome sequence variation and the history of human populations. Nature Genet. 26, 358–361 (2000).
16. Jobling, M. A. & Tyler-Smith, C. The human Y chromosome: an evolutionary marker comes of age. Nature Rev. Genet. 4, 598–612 (2003).
17. Su, B. et al. Y-chromosome evidence for a northward migration of modern humans into eastern Asia during the last ice age. Am. J. Hum. Genet. 65, 1718–1724 (1999).
18. Kivisild, T. et al. The emerging limbs and twigs of the East Asian mtDNA tree. Mol. Biol. Evol. 19, 1737–1751 (2002).
19. Roberts, D. F. & Hiorns, R.W.Methods of analysis of the genetic composition of a hybrid population. Hum. Biol. 37, 38–43 (1965).
20. Bertorelle, G.& Excoffier, L. Inferring admixture proportions from molecular data. Mol. Biol. Evol. 15, 1298–1311 (1998).
21. Wang, J. Maximum-likelihood estimation of admixture proportions from genetic data. Genetics 164, 747–765 (2003).
22. Wen, B. et al. Analyses of genetic structure of Tibeto-Burman populations revealed a gender-biased admixture in southern Tibeto-Burmans. Am. J. Hum. Genet. 74, 856–865 (2004).
23. Jin, L. & Su, B. Natives or immigrants: modern human origin in East Asia. Nature Rev. Genet. 1, 126–133 (2000).
24. The Y Chromosome Consortium, A nomenclature system for the tree of human Y-chromosomal binary haplogroups. Genome Res. 12, 339–348 (2002).
25. Excoffier, L., Smouse, P. E. & Quattro, J. M. Analysis of molecular variance inferred from metric distances among DNA haplotypes: application to human mitochondrial DNA restriction data. Genetics 131, 479–491 (1992).
26. Schneider, S., et al. Arlequin: Ver. 2.000. A software for population genetic analysis. (Genetics and Biometry Laboratory, Univ. of Geneva, Geneva, 2000).
27. Dupanloup, I. & Bertorelle, G. Inferring admixture proportions from molecular data: extension to any number of parental populations. Mol. Biol. Evol. 18, 672–675 (2001).
28. Chakraborty, R. Gene admixture in human populations:Models and predictions. Yb. Phys. Anthropol.29, 1–43 (1986).
29. Sans,M. et al. Unequal contributions of male and female gene pools from parental populations in the African descendants of the city of Melo, Uruguay. Am. J. Phys. Anthropol. 118, 33–44 (2002).