انواع درختان و شبکه های فیلوژنتیک [ ویرایش ]
درختان فیلوژنتیک تولید شده توسط فیلوژنتیک محاسباتی بسته به داده های ورودی و الگوریتم مورد استفاده ، می توانند ریشه یا بدون ریشه باشند . یک درخت ریشه دار یک نمودار کارگردانی است که صریحاً یک جد مشترک اخیر (MRCA) را مشخص می کند ، معمولاً یک توالی منسوخ شده که در ورودی نمایش داده نمی شود. از اقدامات ژنتیکی فاصله می توان برای ترسیم درخت با توالی های ورودی به عنوان گره های برگ و فاصله آنها از ریشه متناسب با فاصله ژنتیکی آنها از MRCA فرضی استفاده کرد. شناسایی یک ریشه معمولاً نیاز به درج در داده های ورودی حداقل یک "گروه خروجی" دارد که فقط از راه دور به دنباله های مورد علاقه مربوط می شود.
در مقابل ، درختان بدون رده فاصله ها و روابط بین توالی ورودی را ترسیم می کنند بدون اینکه فرضیاتی در مورد نزول آنها انجام دهند. یک درخت بدون ریشه همیشه می تواند از یک درخت ریشه تولید شود ، اما یک ریشه معمولاً نمی تواند بر روی یک درخت غیرمستقیم بدون داده های اضافی درباره میزان واگرایی مانند فرضیه فرضیه ساعت مولکولی قرار گیرد . [3]
مجموعه کلیه درختان فیلوژنتیک ممکن برای گروه مشخصی از توالی های ورودی می تواند به عنوان "فضای درختی" چند بعدی تعریف شده تعریف شود که از طریق آن می توان مسیرهای جستجو را با الگوریتم های بهینه سازی دنبال کرد . اگرچه شمارش تعداد کل درختان برای تعداد غیرقابل توالی ورودی می تواند با تغییراتی در تعریف توپولوژی درخت پیچیده باشد ، اما همیشه درست است که برای تعداد معینی از ورودی ها و انتخاب پارامترها ، تعداد بیشتری از درختان ریشه دار وجود ندارد. [4]
هر دو درخت فیلوژنتیک ریشه دار و بدون ریشه را می توان بیشتر به شبکه های فیلوژنتیک ریشه دار و بدون نفوذ تعمیم داد که امکان مدل سازی پدیده های تکاملی مانند هیبریداسیون یا انتقال ژن افقی را فراهم می آورد.
کدگذاری کاراکترها و تعریف همسانی [ ویرایش ]
تجزیه و تحلیل مورفولوژیکی [ ویرایش ]
مشکل اساسی در فیلوژنتیک مورفولوژیکی مونتاژ یک ماتریس استبه نمایندگی نقشه برداری از هر یک از گونه ها با اندازه گیری های نماینده برای هر یک از خصوصیات فنوتیپی که به عنوان طبقه بندیگر استفاده می شود ، مقایسه می شود. انواع داده فنوتیپی مورد استفاده برای ساخت این ماتریس بستگی به گونه هایی دارد که با هم مقایسه می شوند. برای گونه های فردی ، ممکن است اندازه گیری هایی از اندازه بدن ، طول یا اندازه استخوان های خاص یا سایر خصوصیات جسمی یا حتی تظاهرات رفتاری انجام شود. البته ، از آنجا که همه ویژگی های فنوتیپی ممکن نیست برای تجزیه و تحلیل اندازه گیری و رمزگذاری شوند ، انتخاب ویژگی های اندازه گیری ، مانع اصلی ذاتی روش است. تصمیمی که صفات استفاده از آن به عنوان مبنایی برای ماتریس ضرورتاً بیانگر فرضیه ای است که در مورد کدام صفات یک گونه یا تاکسون بالاتر از نظر تکاملی مهم است. [5]مطالعات مورفولوژیکی را می توان با نمونه هایی از تکامل همگرا فنوتیپ ها اشتباه گرفت. [6] یک چالش بزرگ در ساخت کلاسهای مفید ، احتمال زیاد همپوشانی بین تاکسون در توزیع تغییرات فنوتیپ است. گنجاندن گونه های منقرض شده در تجزیه و تحلیل مورفولوژیکی اغلب به دلیل عدم وجود سوابق فسیلی یا ناقص ،دشوار است ، اما نشان داده شده است که تأثیر قابل توجهی در درختان تولید شده دارد. در یک مطالعه فقط گنجاندن گونه های منقرض شده میمون ها یک درخت مشتق از لحاظ مورفولوژیکی تولید کرد که مطابق با داده های مولکولی است. [1]
برخی از طبقه بندی های فنوتیپی ، به ویژه مواردی که هنگام تجزیه و تحلیل گروه های بسیار متنوع از گونه مورد استفاده قرار می گیرند ، گسسته و ابهام هستند. برای مثال ، طبقه بندی ارگانیسم ها به عنوان داشتن یا نداشتن دم ، در اکثر موارد ساده است ، مانند شمارش ویژگی هایی مانند چشم یا مهره ها. با این حال ، مناسب ترین نمایندگی از اندازه گیری های فنوتیپی به طور مداوم متغیر ، یک مشکل بحث برانگیز است بدون یک راه حل کلی. یک روش معمول این است که اندازه گیری علاقه را به دو یا چند طبقه مرتب کنید ، و تغییرات مداوم را به صورت طبقه بندی شده ای متناوب بدست آورید (به عنوان مثال ، همه نمونه هایی که دارای استخوان های هومروس طولانی تر از یک برش معین هستند) به عنوان اعضای یک ایالت نمره می گیرند ، و تمام اعضایی که humerus استخوانها کوتاهتر از برش به عنوان اعضای یک کشور دوم هستند). این نتیجه به راحتی دستکاری می شودمجموعه داده ها اما به دلیل گزارش ضعیف مبانی تعاریف کلاس و قربانی کردن اطلاعات در مقایسه با روش هایی که از توزیع مداوم وزنی اندازه گیری استفاده می شود ، مورد انتقاد قرار گرفته است. [7]
از آنجا که داده های مورفولوژیکی برای جمع آوری ، چه از منابع منابع ادبیات و چه از مشاهدات میدانی ، بسیار کارآمد هستند ، استفاده مجدد از ماتریس داده های قبلاً گردآوری شده معمول نیست ، اگرچه این ممکن است نقص های موجود در ماتریس اصلی را به تجزیه و تحلیل های مشتق چندگانه منتقل کند. [8]
تجزیه و تحلیل مولکولی [ ویرایش ]
مشکل رمزگذاری کاراکتر در آنالیزهای مولکولی بسیار متفاوت است ، زیرا کاراکترهای موجود در داده های توالی بیولوژیکی بصورت فوری و گسسته تعریف می شوند - نوکلئوتیدهای مجزا درتوالیهای DNA یا RNA و اسیدهای آمینه مجزا در توالیهای پروتئینی . با این حال ، تعریف هومولوژی به دلیل مشکلات ذاتی تراز توالی چندگانه می تواند چالش برانگیز باشد . برای MSA شکسته داده شده ، می توان چندین درخت ریشه ریشه ای ساخت که در تفسیر آنها متفاوت است که تغییرات " جهش " در مقابل شخصیتهای اجدادی است ، و کدام وقایع جهش درج یا جهش حذف هستند.. به عنوان مثال ، با توجه به هم ترازی دو طرفه با ناحیه شکاف ، مشخص نیست که آیا یک دنباله دارای جهش درج است یا دیگری دارای حذف است. این مشکل در MSA ها با شکاف های غیرمستقیم و غیرمستقیم افزایش یافته است. در عمل ، مناطق قابل توجهی از یک تراز محاسبه شده ممکن است در ساخت و ساز درخت فیلوژنتیکی تخفیف داده شود تا از ادغام داده های پر سر و صدا در محاسبه درخت جلوگیری شود.
روش های ماتریس از راه دور [ ویرایش ]
مقاله اصلی: ماتریس از راه دور در فیلوژنی
روش های ماتریس از راه دور تجزیه و تحلیل فیلوژنتیک صریحا به اندازه گیری "فاصله ژنتیکی" بین توالی طبقه بندی شده متکی هستند ، و بنابراین آنها به MSA به عنوان ورودی نیاز دارند. مسافت اغلب به عنوان کسری از عدم تطابق در موقعیت های هم تراز تعریف می شود که شکاف ها یا نادیده گرفته می شوند یا به عنوان عدم تطابق در نظر گرفته می شوند. [3] روش های فاصله سعی در ساخت یک ماتریس همه به همه از مجموعه پرس و جو دنباله دارند که فاصله بین هر جفت دنباله را توصیف می کند. از این طریق یک درخت فیلوژنتیک ساخته شده است که توالی های نزدیک به هم را در زیر یک گره داخلی قرار می دهدو طول شاخه آنها از نزدیک بازتولید فاصله های مشاهده شده بین توالی ها را نشان می دهد. بسته به الگوریتمی که برای محاسبه آنها استفاده می شود ، روش های ماتریس از راه دور ممکن است درختان ریشه دار یا بدون پراکنده تولید کنند. آنها غالباً به عنوان پایه ای برای انواع مترقی و تکراری ترازهای توالی چندگانه مورد استفاده قرار می گیرند . نقطه ضعف اصلی روش های ماتریس فاصله ، عدم توانایی آنها در استفاده کارآمد از اطلاعات در مورد مناطق دارای تنوع زیاد محلی است که در زیر چندین درخت مشاهده می شود. [4]
UPGMA و WPGMA [ ویرایش ]
مقاله اصلی: UPGMA
مقاله اصلی: WPGMA
UPGMA ( بدون وزن روش جفت گروه با میانگین حسابی ) و WPGMA ( وزن جفت روش گروه با میانگین حسابی ) روش های تولید درختان ریشه دار و نیاز به یک فرض نرخ ثابت - است که، آن نظر میرسد که یک ultrametric درخت که در آن فاصله از ریشه به هر نوک شاخه برابر است. [9]
مقاله اصلی: پیوستن به همسایگان
روشهای همسایگی همسایگان از تکنیک های تحلیل خوشه ای کلی برای تجزیه و تحلیل توالی با استفاده از فاصله ژنتیکی به عنوان یک معیار خوشه استفاده می کنند. ساده همسایه پیوستن به روش تولید درختان بدون ریشه، اما آن را با سرعت ثابت تکامل (به عنوان مثال، یک فرض نیست ساعت مولکولی ) در سراسر دودمان. [10]
روش Fitch – Margoliash [ ویرایش ]
روش Fitch-Margoliash از روش وزنی حداقل مربعات برای خوشه بندی بر اساس فاصله ژنتیکی استفاده می کند. [11] توالی های مربوط به نزدیك وزن بیشتری در فرآیند ساخت درخت داده می شود تا از عدم دقت در اندازه گیری فاصله بین توالی های دور تا دور اصلاح شود. مسافتهایی که به عنوان ورودی به الگوریتم استفاده می شوند باید عادی شوند تا از مصنوعات بزرگ در محاسبه روابط بین گروههای نزدیک و مرتبط با آن جلوگیری شود. مسافت محاسبه شده توسط این روش باید خطی باشد . معیار خطی برای مسافت ، مقادیر مورد انتظار را می طلبدطول شعبه برای دو شاخه جداگانه باید با مقدار مورد انتظار از مجموع دو فاصله شاخه برابر باشد - خاصیتی که فقط در موارد توالی بیولوژیکی اعمال می شود فقط در صورت اصلاح آنها برای امکان جهش پشت در سایت های جداگانه.این اصلاح با استفاده از ماتریس جانشینی مانند آنچه که از مدل تکامل DNA Jukes-Cantor حاصل می شود انجام می شود. اصلاح فاصله فقط در عمل ضروری است وقتی نرخ تکامل بین شاخه ها متفاوت است. [4] اصلاح دیگر الگوریتم می تواند مفید باشد ، به خصوص در مورد مسافت متمرکز (لطفاً به غلظت پدیده اندازه گیری و نفرین ابعاد گزارش دهید.): این اصلاح ، توصیف شده در ، [12]برای بهبود کارآیی الگوریتم و استحکام آن نشان داده شده است.
معیار حداقل مربعات اعمال شده برای این مسافت ها دقیق تر اما کارآمدتر از روش های اتصال همسایه است. یک پیشرفت اضافی که برای ارتباط بین فواصل ناشی از بسیاری از توالی های نزدیک به مجموعه در داده ها ایجاد می شود ، می تواند با افزایش هزینه محاسباتی نیز به کار رود. یافتن درخت مطلوب حداقل مربعات با هر فاکتور تصحیح NP کامل است ، [13] بنابراین روش های جستجواکتشافی مانند روش های مورد استفاده در آنالیز حداکثر پارسیمونی برای جستجوی از طریق فضای درخت استفاده می شوند.
استفاده از گروههای [ ویرایش ]
از اطلاعات مستقل در مورد رابطه سکانسها یا گروهها می توان برای کاهش فضای جستجوی درخت و ریشه درختان بی استفاده استفاده کرد. استفاده استاندارد از روش های ماتریس از راه دور شامل حداقل یک دنباله برون مرزی است که فقط از راه دور به دنباله های مورد علاقه در مجموعه پرس و جو مربوط می شود. [3] این استفاده را می توان نوعی کنترل آزمایشی دانست . اگر نتیجه مناسب انتخاب شده باشد ، فاصله ژنتیکی بسیار بیشتری خواهد داشتو به این ترتیب طول شاخه طولانی تر از هر توالی دیگر است ، و در نزدیکی ریشه یک درخت ریشه ظاهر می شود. انتخاب یک نتیجه مناسب ، مستلزم انتخاب دنباله ای است که به طور متوسط با سکانس های مورد علاقه مرتبط باشد. خیلی نزدیک یک رابطه هدف گروه را خراب می کند و خیلی دور هم صدایی را به تجزیه و تحلیل می افزاید . [3] همچنین باید مراقب باشید تا از موقعیت هایی که گونه هایی که از آن دنباله ها گرفته شده است با یکدیگر فاصله داشته باشند ، جلوگیری شود ، اما ژن رمزگذاری شده توسط توالی ها در بین سلسله بسیار محافظت می شود . انتقال ژن های افقی ، به ویژه بین باکتری های واگرای متفاوت ، همچنین می تواند میزان استفاده از گروه را مختل کند.
حداکثر تقسیم [ ویرایش ]
حداکثر پارسیمونی (MP) روشی برای شناسایی درخت احتمالی فیلوژنتیک است که برای توضیح داده های توالی مشاهده شده به کمترین تعداد رویدادهای تکاملی نیاز دارد . برخی از راه های به ثمر رساندن درختان همچنین شامل "هزینه" مربوط به انواع خاص از وقایع تکاملی و تلاش برای یافتن درخت با کمترین هزینه در کل است. این یک روش مفید در مواردی است که هر نوع رویداد ممکن به همان اندازه محتمل است - به عنوان مثال ، هنگامی که نوکلئوتیدها یا اسیدهای آمینه خاص شناخته می شوند قابل جهش از سایرین هستند.
ساده ترین روش برای شناسایی پارساترین درخت شمارش ساده است - در نظر گرفتن هر درخت احتمالی پشت سر هم و جستجوی درخت با کمترین امتیاز. با این حال ، این تنها برای تعداد نسبتاً کمی از توالی یا گونه ها امکان پذیر است زیرا مشکل شناسایی درخت پارسا ترین NP-hard شناخته شده است . در نتیجه ، تعدادی از روشهای جستجوی اکتشافی برای بهینهسازی برای یافتن یک درخت بسیار پارسا ، اگر بهترین آن در مجموعه نباشد ، ایجاد شده است. بیشتر این روشها شامل یک مکانیسم به حداقل رساندن سبک نزولی است که بر اساس معیار تنظیم مجدد درخت کار می کند.
شعبه و محدود [ ویرایش ]
شاخه و حد الگوریتم یک روش کلی برای افزایش بهره وری از جستجو برای راه حل های نزدیک به بهینه است NP-hard است مشکلات برای اولین بار به فیلوژنتیک در اوایل 1980s استفاده شده است. [14] شاخه و محدود به خصوص در ساخت درخت فیلوژنتیک مناسب است زیرا ذاتاً نیاز به تقسیم یک مشکل در یک ساختار درخت دارد.زیرا فضای مسئله را به مناطق کوچکتر تقسیم می کند.همانطور که از نام آن پیداست ، به عنوان ورودی نیاز به یک قانون انشعاب دارد (در مورد فیلوژنتیک ، افزودن گونه بعدی یا دنباله به درخت) و یک بند (قاعده ای که مناطق خاصی از فضای جستجو را از نظر دور می کند) ، از این رو با فرض اینکه راه حل بهینه نمی تواند آن منطقه را اشغال کند). شناسایی یک محدود خوب ، چالش برانگیزترین جنبه کاربرد الگوریتم برای فیلوژنتیک است. یک روش ساده برای تعیین حد مجاز تعداد حداکثر تغییرات فرضی تکاملی مجاز در هر درخت است. مجموعه ای از معیارهای معروف به قوانین ژارکیک [15]با تعریف ویژگی هایی که همه درختان "پارساتر" نامزد دارند ، فضای جستجو را به شدت محدود کنید. دو قانون اساسی نیاز به حذف همه جز یک دنباله زائد دارد (برای مواردی که مشاهدات متعدد داده های یکسان را تولید کرده اند) و حذف سایت های شخصیتی که در آنها دو یا چند حالت حداقل در دو گونه رخ نمی دهد. در شرایط ایده آل این قوانین و الگوریتم مرتبط با آنها یک درخت را به طور کامل تعریف می کنند.
الگوریتم Sankoff-Morel-Cedergren [ ویرایش ]
الگوریتم Sankoff-Morel-Cedergren از اولین روشهای منتشر شده برای تولید همزمان MSA و یک درخت فیلوژنتیک برای توالی نوکلئوتید بود. [16] در این روش از یک محاسبه حداکثر پارسیمونی در رابطه با یک تابع امتیاز دهی استفاده می شود که جریمه ها و عدم تطابق ها را جریمه می کند ، بدین ترتیب از درختی که حداقل تعداد چنین وقایعی را معرفی می کند ، مطلوب می شود (یک دیدگاه جایگزین معتقد است که درختان مورد علاقه باید مواردی باشند که حداکثر مقدار شباهت توالی که می تواند به عنوان همسانی تعبیر شود ، نقطه ای که ممکن است منجر به درختان بهینه مختلف شود [17] ). توالی های منتسب به گره های داخلیدرخت در هر درخت ممکن بیش از همه گره ها به ثمر رسیده و خلاصه می شود. با توجه به عملکرد گلزنی ، کمترین نمره درخت هم درخت بهینه و هم MSA بهینه را فراهم می کند. از آنجا که این روش از نظر محاسباتی بسیار فشرده است ، روشی تقریبی که در آن حدسهای اولیه برای ترازهای داخلی یک گره در یک زمان تصفیه می شود.نسخه کامل و تقریبی هر دو در عمل توسط برنامه نویسی پویا محاسبه می شود. [4]
MALIGN و POY [ ویرایش ]
روشهای اخیر درخت فیلوژنتیک / MSA از اکتشافی استفاده می کند تا درختان با امتیاز بالا ، اما لزوماً بهینه نباشد. روش MALIGN از یک تکنیک حداکثر پارسیمونی برای محاسبه یک تراز چندگانه با استفاده از حداکثر نمره کلادوگرام استفاده می کند ، و همراه آن POY از یک روش تکراری استفاده می کند که بهینه سازی درخت فیلوژنتیک را با پیشرفت های MSA مربوطه انجام می دهد. [18]اما ، استفاده از این روشها در ساخت فرضیه های تکاملی به دلیل ساخت و ساز عمدی درختان که منعکس کننده حداقل وقایع تکاملی هستند ، مغرضانه مورد انتقاد قرار گرفته است. [19]این به نوبه خود با این دیدگاه مخالفت کرده است که باید از این روشها به عنوان رویکردهای اکتشافی برای یافتن درختانی استفاده کرد که حداکثر میزان تشابه دنباله ای را که می توان به عنوان همسانی تعبیر کرد ، به حداکثر رساند. [17] [20]
حداکثر احتمال [ ویرایش ]
روش حداکثر احتمال استفاده از تکنیک های آماری استاندارد برای استنباط توزیع احتمال برای اختصاص احتمال به درختان فیلوژنتیک خاص ممکن است. این روش برای ارزیابی احتمال جهشهای خاصنیاز به یک مدل جایگزینی دارد . تقریباً ، درختی که برای گره های داخلی نیاز به جهش بیشتری دارد برای توضیح فیلوژنی مشاهده شده ، احتمال کمتری را ارزیابی می کند. این کاملاً شبیه به روش حداکثر پارسیمونی است ، اما حداکثر احتمال اجازه می دهد با اجازه دادن به نرخهای مختلف تکامل در هر دو زمینه و سایت ، انعطاف پذیری آماری اضافی ایجاد کند. در حقیقت ، این روش مستلزم تحول در مکانهای مختلف و در امتداد خطوط مختلف استآماری مستقل . حداکثر احتمال بنابراین به خوبی در تجزیه و تحلیل توالی های از راه دور مناسب است ، اما اعتقاد بر این است که محاسبه شده به دلیل سختی NP آن ، از نظر محاسباتی غیرقابل نفوذ است. [21]
الگوریتم "هرس" ، نوعی برنامه نویسی پویا است که اغلب برای محاسبه فضای جستجو با محاسبه کارآمد احتمال زیر شاخه ها استفاده می شود. [4] این روش احتمال برای هر سایت را به صورت "خطی" محاسبه می کند ، با شروع از گره ای که تنها فرزندان آنها برگها (یعنی نکات درخت) است و کار به سمت عقب به سمت گره "پایین" در مجموعه های توخالی. با این حال ، درختان تولید شده با روش فقط در صورتی ریشه می گیرند که مدل جایگزینی غیرقابل برگشت باشد ، که به طور کلی در مورد سیستم های بیولوژیکی صادق نیست. جستجوی درخت حداکثر احتمال نیز شامل یک مؤلفه بهینه سازی طول شاخه است که بهبود آن بر اساس الگوریتمی دشوار است. ابزارهای بهینه سازی کلی جهانی مانند نیوتن-رافسون روش اغلب استفاده می شود.
استنتاج بیزی [ ویرایش ]
مقاله اصلی: استنباط بیزی در فیلوژنی
استنباط بیزی را می توان برای تولید درختان فیلوژنتیک به روشی که با روشهای حداکثر احتمال نزدیک مرتبط باشد ، مورد استفاده قرار گرفت. روش های بیزی یک توزیع احتمال قبلی از درختان ممکن را فرض می کنند ، که احتمالاً احتمال وجود یک درخت در بین تمام درختان ممکن است که از داده ها ایجاد می شود ، یا ممکن است یک تخمین پیچیده تر حاصل از این فرض باشد که حوادث واگرایی از این قبیل به عنوان زایمان به عنوان فرآیندهای تصادفی اتفاق می افتد . انتخاب توزیع قبلی نقطه ای از اختلاف نظر در بین کاربران روشهای فیلوژنتیک استنتاج بیزی است. [4]
پیاده سازی روش های بیزی به طور کلی از الگوریتم های نمونه گیری از نمونه های زنجیره مارکوف استفاده می کند ، اگرچه انتخاب مجموعه حرکت متفاوت است. گزیده های مورد استفاده در فیلوژنتیک بیزی شامل گره های برگ بصورت دایره ای مسدود شده در هر مرحله [22] و تعویض زیر شاخه های فرودست یک گره داخلی تصادفی بین دو درخت مرتبط است. [23] استفاده از روشهای بیزی در فیلوژنتیک بحث برانگیز بوده است ، عمدتا به دلیل مشخصات ناقص در انتخاب مجموعه حرکت ، معیار پذیرش و توزیع قبلی در کارهای منتشر شده. [4] روشهای بیزی معمولاً برتر از روشهای مبتنی بر پارسیمونی هستند. آنها می توانند بیشتر از روشهای حداکثر احتمال در معرض جذب شاخه های بلند قرار گیرند ،[24] اگرچه آنها قادر به جمع آوری داده های گمشده هستند. [25]
در حالی که روشهای احتمال درختی را پیدا می کند که احتمال داده را به حداکثر می رساند ، یک رویکرد بیزی با ترسیم بر روی توزیع خلفی ، درختی را به نمایش می گذارد که به احتمال زیاد کلادها را نشان می دهد. با این حال ، برآوردهای احتمال خلفی چادها (اندازه گیری "پشتیبانی" آنها) می تواند کاملاً گسترده از علامت باشد ، به خصوص در دسته هایی که احتمالاً زیاد نیستند. به این ترتیب ، روشهای دیگری برای تخمین احتمال خلفی به جلو ارائه شده است. [26]
انتخاب مدل [ ویرایش ]
روشهای فیلوژنتیک مولکولی به یک مدل جایگزینی تعریف شده تکیه می کنند که یک فرضیه را در مورد نرخ های نسبی جهش در سایت های مختلف در امتداد ژن یا توالی اسیدهای آمینه مورد مطالعه قرار می دهد. در ساده ترین آنها، هدف مدل جایگزینی برای اصلاح تفاوت در نرخ انتقال و transversions در توالی نوکلئوتید است. استفاده از مدل های جایگزینی با این واقعیت ضروری است کهفاصله ژنتیکی بین دو سکانس بطور خطی فقط برای مدت کوتاهی افزایش می یابد پس از اینکه دو دنباله از یکدیگر فاصله گرفتند (در عوض ، فاصله فقط کمی قبل از انعقاد خطی است.) هرچه مدت زمان بعد از واگرایی طولانی تر باشد ، احتمال می رود که دو جهش در همان محل نوکلئوتید اتفاق بیفتد. در نتیجه محاسبات ساده ژنتیکی از تعداد حوادث جهش یافته در تاریخ تکاملی کم خواهد شد.وسعت این کمیت با افزایش زمان از زمان واگرایی افزایش می یابد ، که می تواند به پدیده جذب شاخه های طولانی منجر شود یا سوء استفاده از دو سکانس که به دور از هم مرتبط هستند اما به هم پیوسته در حال تکامل هستند و از نزدیک نزدیک هستند. [27] حداکثر روش پارسیمونی به دلیل جستجوی صریح آن برای یک درخت که نمایانگر حداقل تعداد رویدادهای تکاملی متمایز است ، به ویژه در معرض این مشکل است. [4]
انواع مدل ها [ ویرایش ]
مقاله اصلی: مدل جایگزینی
همه مدل های تعویض مجموعه ای از وزنها را به هر تغییر احتمالی حالت نمایش داده شده در توالی اختصاص می دهند. متداول ترین انواع مدل به طور ضمنی قابل برگشت هستند زیرا آنها همان وزن را به مثلاً جهش نوکلئوتیدی G> C به یک جهش C> G اختصاص می دهند. ساده ترین مدل ممکن ، مدل Jukes-Cantor ، احتمال برابر را به هر تغییر حالت ممکن برای یک پایه نوکلئوتیدی اختصاص می دهد. میزان تغییر بین هر دو نوکلئوتید مجزا یک سوم میزان تعویض کلی خواهد بود. [4] مدل های پیشرفته تر تمایز بین انتقال و transversions. عمومی ترین مدل برگشت پذیر زمان ممکن ، به نام مدل GTR ، دارای شش پارامتر سرعت جهش است. یک مدل حتی عمومی تر که به عنوان مدل 12 پارامتر عمومی شناخته می شود ، بازگرداندن زمان را با هزینه پیچیدگی اضافی بیشتری در محاسبه مسافت ژنتیکی که بین خطوط متعدد سازگار است ، می شکند. [4] یک تنوع احتمالی در این موضوع نرخ ها را طوری تنظیم می کند که محتوای کلی GC - یک اندازه گیری مهم از ثبات مارپیچ DNA - با گذشت زمان تغییر کند. [28]
مدلها همچنین ممکن است تغییر نرخ با موقعیت در توالی ورودی را امکان پذیر سازند. بارزترین نمونه چنین تغییراتی از ترتیب نوکلئوتیدها در ژنهای کد کننده پروتئین به کدون های سه پایه ای ناشی می شود . اگر محل قاب خواندن باز (ORF) مشخص باشد ، می توان میزان جهش را برای موقعیت یک سایت معین در یک کدون تنظیم کرد ، زیرا شناخته شده است که جفت شدن پایه پایه می تواند باعث افزایش بیشتر جهش در نوکلئوتید سوم a شود. کدون بدون تأثیر معنی کدون در کد ژنتیکی . [27] یک مثال کمتر فرضیه محور که به شناسایی ORF متکی نباشد ، صرفاً نرخی را به طور تصادفی از توزیع از پیش تعیین شده به هر سایت اختصاص می دهد ، اغلبتوزیع گاما یا توزیع log-normal . [4] سرانجام ، یک برآورد محافظه کارانه تر از تغییرات نرخ که به عنوان روش کواریونیون شناخته می شوند ، اجازه می دهد تا تغییرات همبستگی در نرخ ها ایجاد شود ، به طوری که سرعت جهش یک سایت خاص در بین سایت ها و دودمان ها در ارتباط باشد. [29]
انتخاب بهترین مدل [ ویرایش ]
انتخاب مدل مناسب برای تولید آنالیزهای خوب فیلوژنتیک بسیار مهم است ، هم به دلیل اینکه مدلهای کم فشار یا بیش از حد محدودکننده ممکن است در صورت نقض فرضیات زیربنایی خود رفتار ناهنجاری ایجاد کنند ، و به دلیل اینکه مدلهای بسیار پیچیده یا بیش از حد اندازه محاسباتی گران هستند و پارامترها ممکن است بیش از حد باشند. . [27] متداول ترین روش انتخاب مدل آزمون نسبت احتمال (LRT) است ، که تخمین ای از احتمال ایجاد می کند که می تواند به عنوان معیار " خوبی بودن تناسب " بین مدل و داده های ورودی تعبیر شود . [27]با این وجود ، باید در استفاده از این نتایج دقت کرد ، زیرا یک مدل پیچیده تر با پارامترهای بیشتر ، همیشه احتمال بیشتری نسبت به نسخه ساده مدل مشابه خواهد داشت ، که می تواند منجر به انتخاب ساده و بی تکلف مدلهای بسیار پیچیده شود. [4] به همین دلیل برنامه های انتخاب کامپیوتر مدل ساده ترین مدل را انتخاب می کنند که به مراتب بدتر از مدل های جایگزینی پیچیده نیست. یک ضرر مهم LRT ضرورت ساختن یک سری مقایسه جفت بین مدل ها است. نشان داده شده است که ترتیب مقایسه مدلها تأثیر عمده ای بر روی انتخابی دارد که در نهایت انتخاب می شود. [30]
یک روش انتخاب مدل جایگزین معیار اطلاعات Akaike (AIC) است ، که به طور رسمی تخمینی از واگرایی Kullback-Leibler بین مدل واقعی و مدل مورد آزمایش است. می توان آن را به عنوان یک تخمین احتمال با یک عامل تصحیح برای مجازات کردن مدل های بیش از اندازه تفسیر کرد. [27] AIC به جای یک جفت بر روی یک مدل واحد محاسبه می شود ، بنابراین مستقل از ترتیب ارزیابی مدل ها است. یک جایگزین مرتبط ، معیار اطلاعات بیزی (BIC) ، یک تعبیر اساسی مشابه دارد اما مدل های پیچیده را به شدت جریمه می کند. [27]
یک پروتکل جامع به صورت مرحله به مرحله در ساخت درخت فیلوژنتیک از جمله مونتاژ توالی پیوسته DNA / آمینو اسید ، ترازی توالی چندگانه ، مدل-تست (آزمایش مدلهای جایگزینی با بهترین اتصالات) و بازسازی فیلوژنی با استفاده از حداکثر احتمال و استنباط بیزی در دسترس است. پروتکل طبیعت [31]
یک روش غیر سنتی برای ارزیابی درخت فیلوژنتیک مقایسه آن با نتیجه خوشهای است. می توان از یک تکنیک پوسته پوسته شدن چند بعدی (به اصطلاح Interpolative Joining) استفاده کرد تا کاهش ابعاد را انجام دهد تا نتیجه خوشه بندی توالی ها به صورت سه بعدی تجسم شود و سپس درخت فیلوژنتیک را بر روی نتیجه خوشه بندی ترسیم کنید. یک درخت بهتر معمولاً با نتیجه خوشه بندی ارتباط بالاتری دارد. [32]
ارزیابی پشتیبانی درخت [ ویرایش ]
مانند تمام تجزیه و تحلیل آماری ، برآورد فیلوژنی از داده های شخصیت نیاز به ارزیابی اطمینان دارد. تعدادی روش برای تست میزان پشتیبانی از یک درخت فیلوژنتیک وجود دارد ، چه با ارزیابی پشتیبانی از هر درخت زیر درخت در فیلوژنی (پشتیبانی گره) یا ارزیابی اینکه آیا فیلوژنی با سایر درختان ممکن تفاوت چشمگیری دارد (آزمون فرضیه جایگزین درخت )
پشتیبانی گره [ ویرایش ]
متداول ترین روش برای ارزیابی حمایت از درخت ، ارزیابی پشتیبانی آماری برای هر گره روی درخت است. به طور معمول ، یک گره با پشتیبانی بسیار کم در تجزیه و تحلیل بیشتر معتبر در نظر گرفته نمی شود ، و از لحاظ بصری ممکن است در یک polytomy فرو بریزد تا نشان دهد که روابط درون یک کلاد حل نشده است.
درخت اجماع [ ویرایش ]
بسیاری از روشها برای ارزیابی پشتیبانی گره ای شامل در نظر گرفتن فیلوژنی های متعدد است. درخت اجماع گره هایی را که در میان مجموعه ای از درختان به اشتراک گذاشته شده است خلاصه می کند. [33] در یک اجماع دقیق * ، تنها گره های یافت شده در هر درخت نشان داده می شود ، و بقیه به یک polytomy حل نشده فرو می روند . روشهای کمتر محافظه کارانه ، مانند درخت * اجماع اکثریت ، گره هایی را در نظر می گیرند که توسط درصد معینی از درختان مورد بررسی پشتیبانی می شوند (مانند حداقل 50٪).
به عنوان مثال ، در تجزیه و تحلیل حداکثر پارسیمونی ، ممکن است درختان زیادی با همان نمره پارسیمونی وجود داشته باشد. یک درخت اجماع سخت نشان می دهد که کدام گره ها در همه درختان به همان اندازه پراکنده یافت می شوند ، و کدام گره ها متفاوت است. همچنین از درختان اجماع برای ارزیابی پشتیبانی از فیلوژنی های بازسازی شده با استنتاج بیزی استفاده می شود (به تصویر زیر مراجعه کنید).
Bootstrapping و jackknifing [ ویرایش ]
در آمار ، bootstrap روشی برای استنباط تغییرپذیری داده هایی است که دارای یک توزیع ناشناخته با استفاده از شبه گزارش از داده های اصلی هستند. به عنوان مثال ، با توجه به مجموعه ای از 100 نقطه داده ، یک شبه مجموعه یک مجموعه داده با اندازه یکسان (100 امتیاز) است که بصورت تصادفی از داده های اصلی با جایگزینی در دسترس است. یعنی هر نقطه داده اصلی ممکن است بیش از یک بار در متن شبه نمایش داده شود ، یا اصلاً نباشد. پشتیبانی آماری شامل ارزیابی اینکه آیا داده های اصلی دارای خواص مشابه به مجموعه بزرگی از شبه طرح هستند.
در فیلوژنتیک ، بوت استرپ با استفاده از ستون های ماتریس کاراکتر انجام می شود. هر شبه گزارش شامل تعداد مشابهی از گونه ها (ردیف ها) و کاراکترها (ستون ها) است که بطور تصادفی از ماتریس اصلی گرفته می شوند و دارای جایگزینی هستند. فیلوژنی از هر شبه بازسازی با همان روشهایی که برای بازسازی فیلوژنی از داده های اصلی استفاده می شود ، بازسازی می شود. برای هر گره موجود در فیلوژنی ، پشتیبانی گره درصد درصد شبه حاوی آن گره است. [34]
دقت آماری آزمون بوت استرپ با استفاده از جمعیت ویروسی با تاریخچه تکاملی شناخته شده ، به صورت تجربی مورد ارزیابی قرار گرفته است ، [35] که یافته است که 70٪ پشتیبانی از بوت استرپ مربوط به احتمال 95٪ وجود کلاد است. با این حال ، این در شرایط ایده آل مورد آزمایش قرار گرفت (به عنوان مثال بدون تغییر در نرخ تکاملی ، فیلوژنی های متقارن). در عمل ، مقادیر بالاتر از 70٪ به طور کلی پشتیبانی می شوند و در اختیار محقق یا خواننده قرار می گیرند تا اعتماد به نفس را ارزیابی کنند. گره هایی با پشتیبانی کمتر از 70٪ معمولاً حل نشده تلقی می شوند.
Jackknifing در فیلوژنتیک روشی مشابه است ، به جز ستون های ماتریس بدون جایگزینی نمونه برداری می شوند. Pseudoreplicates با الگوبرداری تصادفی از داده ها ایجاد می شود - به عنوان مثال ، "جک زن 10٪" شامل نمونه گیری تصادفی 10٪ از ماتریس چندین بار برای ارزیابی پشتیبانی گره ای است.
احتمال خلفی [ ویرایش ]
بازسازی فیلوژنیها با استفاده از استنباط بیزی ، توزیع داده خلفی از درختان بسیار محتمل را با توجه به داده ها و مدل تکاملی ، به جای یک درخت "بهترین" تنها ایجاد می کند. درختان در توزیع خلفی به طور کلی دارای توپولوژی های مختلف هستند. اکثر روشهای استنباط بیزی از تکرار مونت کارلو با زنجیره مارکوف استفاده می کنند و مراحل اولیه این زنجیره بازسازی های قابل اعتماد از فیلوژنی محسوب نمی شوند. درختانی که در اوایل زنجیره تولید می شوند معمولاً به عنوان سوزش درون بدن دور می شوند . متداول ترین روش ارزیابی پشتیبانی گره ای در آنالیز فیلوژنتیک بیزی محاسبه درصد درختان در توزیع خلفی (پس از سوختگی) است که حاوی گره است.
انتظار می رود که پشتیبانی آماری برای یک گره در استنتاج بیزی ، احتمال وجود یک کلاد را با توجه به داده ها و مدل تکاملی نشان دهد. [36] بنابراین ، آستانه پذیرش گره به عنوان پشتیبانی به طور کلی بالاتر از bootstrapping است.
روش شمارش مرحله [ ویرایش ]
پشتیبانی از Bremer تعداد مراحل اضافی لازم برای تضاد با یک کلاد را شمارش می کند.
کاستی ها [ ویرایش ]
این اقدامات هر کدام نقاط ضعف خود را دارند. به عنوان مثال ، کلادهای کوچکتر یا بزرگتر ، تمایل دارند که مقادیر حمایتی بزرگتر از کلادهای متوسط را به سادگی جذب کنند ، در نتیجه تعداد گونه های موجود در آنها. [37]
پشتیبانی از بوت استرپ می تواند تخمین های بالایی از پشتیبانی گره در نتیجه نویز در داده ها به جای وجود واقعی یک کلاد ارائه دهد. [38]
محدودیت ها و راه حل ها [ ویرایش ]
درنهایت ، هیچ راهی برای اندازه گیری درست بودن یا نبود فرضیه فیلوژنتیک وجود ندارد ، مگر اینکه روابط واقعی میان تاکسی هایی که مورد بررسی قرار گرفته اند از قبل مشخص شده باشد (که ممکن است در شرایط آزمایشگاهی با باکتری یا ویروس اتفاق بیفتد). بهترین نتیجه ای که فیلوژنتیک تجربی می تواند برای دستیابی به آن امیدوار باشد درختی با شاخه هایی است که به خوبی از شواهد موجود پشتیبانی می شود. چندین خطای احتمالی شناسایی شده است:
هموپلازی [ ویرایش ]
مقاله اصلی: تکامل همگرا
شخصیت های خاصی احتمالاً به صورت همگرا از سایرین تکامل می یابند . از نظر منطقی ، در بازسازی یک درخت باید به چنین شخصیت هایی وزن کمتری داده شود. [39] وزنها به صورت الگویی از تکامل را می توان از مجموعه داده های مولکولی استنباط کرد ، به طوری که حداکثر احتمال یا بایزیبرای تجزیه و تحلیل آنها می توان از روشها استفاده کرد. برای توالی های مولکولی ، این مشکل وقتی تشدید می شود که گونه های مورد مطالعه به طور قابل توجهی تغییر کرده اند. با گذشت زمان از واگرایی دو گونه افزایش می یابد ، بنابراین احتمال تعویض های متعدد در همان سایت یا جهش های پشتی نیز وجود دارد که همگی منجر به هموپلازی می شوند. برای داده های مورفولوژیکی ، متأسفانه تنها هدف عینی برای تعیین همگرایی با ساخت درخت - روشی تا حدودی دایره ای است. با این حال ، وزن دادن به شخصیت های همجنسگرا [ چگونه؟ ] در واقع منجر به درختان بهتر پشتیبانی می شود. [39]با تغییر وزنی در یک جهت بالاتر از تغییرات در جهت دیگر ، می توان به پالایش بیشتر اشاره کرد. به عنوان مثال ، وجود بالهای قفسه سینه تقریباً ضمانت قرار گرفتن در میان حشرات گلچین را تضمین می کند ، زیرا ، گرچه بالها معمولاً ثانویه از بین می روند ، اما هیچ مدرکی مبنی بر کسب بیش از یک بار در دست نیست. [40]
انتقال ژن افقی [ ویرایش ]
به طور کلی ، ارگانیسم ها می توانند ژن ها را از دو طریق به ارث ببرند: انتقال ژن عمودی و انتقال ژن افقی . انتقال ژن عمودی انتقال ژنها از والدین به فرزندان است و انتقال ژن افقی (که به آن جانبی نیز گفته می شود) هنگامی اتفاق می افتد که ژن ها در بین ارگانیسم های غیرمرتبط پرش می کنند ، یک پدیده شایع به ویژه در پروکاریوت ها . مثال خوبی از این مقاومت آنتی بیوتیکی به دست آمده درنتیجه تبادل ژن بین باکتری های مختلف منجر به گونه های باکتریایی مقاوم به چند دارو است. همچنین موارد خوبی برای انتقال ژن افقی بین یوکاریوتها به ثبت رسیده است .
انتقال ژن های افقی تعیین فیوژنژن موجودات را پیچیده کرده است و ناسازگاری در فیلوژنی بسته به ژن های مورد استفاده در ساخت درختان تکاملی در بین گروه های خاصی از ارگانیسم ها گزارش شده است. تنها راه برای تعیین که ژن به صورت عمودی به دست آورد و که به صورت افقی است parsimoniously فرض کنیم که بزرگترین مجموعه ای از ژن که با هم به ارث برده شده اند به صورت عمودی به ارث برده شده است. این امر نیاز به تجزیه و تحلیل تعداد زیادی ژن دارد.
هیبریدها ، زایمانها ، اغتشاشات و مرتب سازی ناقص نسب [ ویرایش ]
فرض اساسی که بر پایه مدل ریاضی اقلیم شناسی قرار دارد ، شرایطی است که گونه ها به شکلی مرتب در مد تقسیم می شوند. در حالی که چنین فرضی ممکن است در مقیاس بزرگتر باشد (انتقال ژن نوار افقی ، نگاه کنید به بالا) ، زایمان معمولاً بسیار کمتر نظم دارد. تحقیقات از زمان استفاده از روش کلادیستی نشان داده اند که زعفران ترکیبی ، که به ندرت تصور می شد ، در واقع بسیار رایج است ، به خصوص در گیاهان. [41] [42] همچنین گمانه زنی paraphyletic متداول است ، فرض الگوی bifurcating نامناسب ، و منجر به شبکه های فیلوژنتیک به جای درختان می شود. [43] [44]مقدمههمچنين مي تواند ژنها را بين گونه هاي متفاوت و گاهي جنس نيز جابجا كند ، و آناليز فيلوژنتيك را براساس ژنها پيچيده كند. [45] این پدیده می تواند به "مرتب سازی ناقص خطوط" کمک کند و تصور می شود پدیده متداول در تعدادی از گروهها است. در تجزیه و تحلیل سطح گونه ها می توان با نمونهبرداری بزرگتر یا آنالیز ژنوم کل کامل بهتر مورد بررسی قرار گرفت. [46] غالباً با محدود کردن تجزیه و تحلیل به نمونه های کمتری و نزدیک از مشکل ، از مشکل جلوگیری می شود.
نمونه گیری تاکسون [ ویرایش ]
با توجه به توسعه روشهای پیشرفته تعیین توالی در زیست شناسی مولکولی ، جمع آوری مقادیر زیادی از داده ها (توالی DNA یا اسیدهای آمینه) برای استنباط فرضیه های فیلوژنتیک امکان پذیر است.به عنوان مثال ، یافتن مطالعات با ماتریس های شخصیت بر اساس ژنوم کامل میتوکندری (16000 nuc نوکلئوتید ، در بسیاری از حیوانات) نادر نیست . با این حال ، شبیه سازی ها نشان داده اند که افزایش تعداد تاکس ها در ماتریس از افزایش تعداد کاراکترها بسیار مهم است ، زیرا هرچه گونه های بیشتری وجود داشته باشد ، درخت فیلوژنتیکی حاصل از آن دقیق تر و قوی تر است. [47] [48] این ممکن است تا حدودی به دلیل شکسته شدن شاخه های طولانی باشد.
سیگنال فیلوژنتیک [ ویرایش ]
یکی دیگر از عوامل مهم که بر صحت بازسازی درخت تأثیر می گذارد این است که آیا داده های تجزیه و تحلیل شده در واقع حاوی یک سیگنال فیلوژنتیک مفید هستند ، اصطلاحی که بطور کلی برای مشخص کردن اینکه یک شخصیت به آهستگی به اندازه کافی آهسته تکامل می یابد تا در حالتهای نزدیک به هم نزدیک باشد ، برخلاف متغیرهای تصادفی متفاوت است. . آزمایش برای سیگنال فیلوژنتیک وجود دارد. [49]
شخصیت های مداوم [ ویرایش ]
شخصیت های مورفولوژیکی که نمونه ای از پیوستار هستند ممکن است حاوی سیگنال فیلوژنتیک باشند ، اما کدگذاری به عنوان شخصیت های گسسته دشوار است. روشهای مختلفی استفاده شده است که یکی از آنها کدگذاری شکاف است و در کدگذاری شکاف تغییرات وجود دارد. [50] در شکل اصلی رمزگذاری شکاف: [50]
گروه گروهی برای یک کاراکتر ابتدا با اندازه سفارش داده می شوند. انحراف استاندارد درون گروهی محاسبه می شود ... و اختلاف بین وسایل مجاور ... نسبت به این انحراف استاندارد مقایسه می شود. هر جفت وسیله مجاور متفاوت در نظر گرفته می شود و نمرات عدد صحیح متفاوتی با آن در نظر گرفته می شود ... اگر این وسیله با "شکاف" بزرگتر از انحراف استاندارد درون گروهی از هم جدا شود ... چند برابر مقداری ثابت دلخواه.
اگر گونه های بیشتری به تجزیه و تحلیل اضافه شود ، شکاف بین گونه ها ممکن است به حدی کوچک شود که تمام اطلاعات از بین برود. برنامه نویسی شکاف عمومی در مقایسه با این مشکل با مقایسه جفت های جداگانه از گونه ها و نه در نظر گرفتن یک مجموعه که شامل همه گونه ها است ، حل می شود. [50]
داده موجود نیست [ ویرایش ]
به طور کلی ، هرچه داده بیشتری در هنگام ساخت درخت در دسترس باشد ، درخت حاصل از آن دقیق تر و قابل اطمینان تر خواهد بود. داده های گمشده بیشتر از داشتن داده های کمتری مضر نیستند ، اگرچه بیشتر داده های مفقود شده در تعداد کمی از گونه ها تأثیر دارد. متمرکز کردن داده های از دست رفته در تعداد کمی از شخصیت ها ، درخت قوی تری تولید می کند. [51]
نقش فسیلها [ ویرایش ]
از آنجا که بسیاری از شخصیت ها شامل شخصیت های جنینی ، یا بافت های نرم یا مولکولی هستند که (در بهترین حالت) به سختی فسیل می شوند ، و تفسیر فسیل ها مبهم تر از زندگی گونه های زندگی است ، گونه های منقرض شده تقریباً به طور نامحسوس نسبتهای بیشتری از داده های از دست رفته نسبت به موجودات زنده دارند. با این حال ، با وجود این محدودیت ها ، گنجاندن فسیل ها بسیار ارزشمند است ، زیرا می توانند اطلاعاتی را در مناطقی از درختان پراکنده ، شکسته شدن شاخه های طولانی و محدود کردن حالت های شخصیتی واسطه ارائه دهند. بنابراین ، گونه های فسیلی به همان اندازه گونه های مدرن در رفع درختان نقش دارند. [52] فسیل ها همچنین می توانند سن صفات را محدود کنند و بنابراین نشان دهند چقدر درخت با سابقه چینه شناسی سازگار است. [53] استراتوسلاستیکاطلاعات سنی را در ماتریس داده ها برای تجزیه و تحلیل فیلوژنتیک گنجانیده است.