طبقه بندی آماری

طبقه بندی آماری

از ویکیپدیا، دانشنامه آزاد

 

برای رویکرد یادگیری بدون نظارت ، به تجزیه و تحلیل خوشه مراجعه کنید .

یادگیری ماشین و 
داده کاوی
Kernel Machine.svg

مشکلات[نمایش]

یادگیری نظارت شده 
طبقه بندی  • رگرسیون )

[نمایش]

خوشه بندی[نمایش]

کاهش ابعاد[نمایش]

پیش بینی ساختار یافته[نمایش]

تشخیص ناهنجاری[نشان دادن]

شبکه های عصبی مصنوعی[نمایش]

یادگیری تقویتی[نمایش]

نظریه[نمایش]

مکانهای یادگیری ماشین[نمایش]

واژه نامه هوش مصنوعی[نشان دادن]

مقالات مرتبط[نمایش]

در یادگیری ماشینی و آمار ، طبقه بندی مسئله شناسایی کدام مجموعه از دسته ها (زیر جمعیت) یک مشاهده جدید است که براساس مجموعه آموزشی از داده ها حاوی مشاهدات (یا نمونه هایی) است که عضویت در گروه آنها شناخته شده است. به عنوان نمونه می توان ایمیل اختصاصی را به کلاس "اسپم" یا "غیر اسپم" اختصاص داد ، و تشخیص بیماری را براساس خصوصیات مشاهده شده بیمار (جنس ، فشار خون ، وجود یا عدم وجود علائم خاص و غیره) به بیمار داده می شود. . طبقه بندی نمونه ای از تشخیص الگوی است .

در اصطلاحات یادگیری ماشینی ، طبقه بندی [1] نمونه ای از یادگیری نظارت شده است ، یعنی یادگیری در جایی که مجموعه ای از مشاهدات به درستی شناسایی شده در دسترس باشد. روش بدون نظارت مربوطه به عنوان خوشه‌بندی شناخته شده است و شامل گروه بندی داده ها بر اساس مقیاس شباهت ذاتی یا فاصله ذاتی است .

غالباً ، مشاهدات فردی به مجموعه ای از خصوصیات کمی ، که به عنوان متغیرها یا ویژگیهای توضیحی شناخته می شوند ، تجزیه و تحلیل می شوند . این خواص در زمانهای گوناگون و ممکن است طبقه (به عنوان مثال "A"، "B"، "AB" و یا "O"، برای گروه خونی )،ترتیبی (به عنوان مثال "بزرگ"، "متوسط" و یا "کوچک")، ، یک عدد صحیح باشد (به عنوان مثال تعداد وقایع یک کلمه خاص در ایمیل ) یا ارزش واقعی آن (مانند اندازه گیری فشار خون ).

الگوریتم است که پیاده سازی طبقه بندی، به ویژه در اجرای بتن، به عنوان یک شناخته شده طبقه بندی . اصطلاح طبقه بندی گاه به عملکردریاضیاتی که توسط یک الگوریتم طبقه بندی انجام می شود ، اشاره دارد که داده های ورودی را به یک دسته بندی می کند.

اصطلاحات در زمینه ها بسیار متنوع است. در آمار ، جایی که طبقه بندی اغلب با استفاده از رگرسیون لجستیک یا روال مشابه انجام می شود ، خواص مشاهدات به عنوان متغیرهای توضیحی (یا متغیرهای مستقل ، رگرسیون و ...) شناخته می شوند و دسته هایی که پیش بینی می شوند به عنوان نتایج شناخته می شوند. مقادیر احتمالی متغیر وابسته هستند . در یادگیری ماشینی ، مشاهدات اغلب به عنوان نمونهشناخته می شوند ، متغیرهای توضیحی ویژگی ها (گروه بندی شده در یک بردار ویژگی ) نامیده می شوند ، و دسته های احتمالی که پیش بینی می شوند کلاس ها هستند.. زمینه های دیگر ممکن است از اصطلاحات متفاوتی استفاده کنند: به عنوان مثال در محیط زیست جامعه ، اصطلاح طبقه بندی به طور معمول به تجزیه و تحلیل خوشه ای ، یعنی نوعی یادگیری بدون نظارت ، اشاره دارد تا یادگیری نظارت شده که در این مقاله شرح داده شده است.

 

فهرست

ارتباط با سایر مشکلات ویرایش ]

طبقه بندی و خوشه بندی نمونه هایی از مشکل عمومی تر در تشخیص الگوی است که اختصاص نوعی از مقدار خروجی به یک مقدار ورودی معین است. نمونه های دیگر رگرسیون ، که یک خروجی با ارزش واقعی را به هر ورودی اختصاص می دهد. برچسب زدن دنباله ، که یک کلاس را به هر عضو یک دنباله از مقادیر اختصاص می دهد (برای مثال ، بخشی از برچسب زدن گفتار ، که بخشی از گفتار را به هر کلمه در یک جمله ورودی اختصاص می دهد). تجزیه ، که یک درخت تجزیه را به یک جمله ورودی اختصاص می دهد ، ساختار نحوی جمله را توصیف می کند . و غیره.

طبقه بندی متداول طبقه بندی طبقه بندی احتمالی است . الگوریتم های این طبیعت از استنباط آماری برای یافتن بهترین کلاس برای نمونه معین استفاده می کنند. برخلاف الگوریتم های دیگر ، که به سادگی یک کلاس "بهترین" را تولید می کنند ، الگوریتم های احتمالی احتمال این را می دهند که عضو در هر یک از کلاسهای ممکن باشد. سپس بهترین کلاس به عنوان کلاس با بالاترین احتمال انتخاب می شود. با این حال ، چنین الگوریتمی مزایای بی شماری نسبت به طبقه بندی کننده های غیر احتمالی دارد:

  • این می تواند یک مقدار اطمینان در ارتباط با انتخاب خود داشته باشد (به طور کلی ، طبقه بندی کننده ای که می تواند این کار را انجام دهد به عنوان طبقه بندی کننده اعتماد به نفس شناخته می شود ).
  • به همین ترتیب ، هنگامی که اعتماد به نفس خود در انتخاب هر خروجی خاص خیلی کم باشد ، می تواند خودداری کند.
  • از آنجا که از احتمالاتی که ایجاد می شود ، طبقه بندی کننده های احتمالی می توانند به طور مؤثرتری در کارهای یادگیری ماشین بزرگتر استفاده شوند ، به گونه ای که بخشی از یا کاملاً از مشکلانتشار خطا جلوگیری کند .

روشهای متداول ویرایش ]

کار اولیه در مورد طبقه بندی آماری توسط فیشر انجام شد ، [2] [3] در زمینه مشکلات دو گروه ، منجر به عملکرد تبعیض آمیز خطی فیشر به عنوان قاعده اختصاص یک گروه به یک مشاهده جدید. [4]این کار اولیه فرض کرد که مقادیر داده در هر یک از دو گروه توزیع نرمال چند متغیره دارند . گسترش همین زمینه به بیش از دو گروه نیز با محدودیت تحمیل در نظر گرفته شده است که قانون طبقه بندی باید خطی باشد. [4] [5] کار بعدی برای توزیع عادی چند متغیره ، باعث شد طبقه بندی غیرخطی باشد : [6]چندین قانون طبقه بندی بر اساس تنظیمات مختلف فاصله Mahalanobis حاصل می شود ، و مشاهده جدید به گروهی اختصاص می یابد که مرکز آن دارای کمترین فاصله تنظیم شده از مشاهده است.

روشهای بیزی ویرایش ]

بر خلاف روش های مکرر ، روش های طبقه بندی بیزی یک روش طبیعی برای در نظر گرفتن هر گونه اطلاعات در مورد اندازه های نسبی گروه های مختلف در کل جامعه فراهم می کند. [7] رویه های بیزی تمایل به محاسبات گران هستند و در روزهای قبل از محاسبات زنجیره مارکوف مونت کارلو ، تقریب ها برای قوانین خوشه بندی بیزی ابداع شد. [8]

برخی از روشهای بیزی محاسبه احتمالات عضویت در گروه را شامل می شوند: این نتایج می تواند به عنوان یک نتیجه آموزنده تر از یک تجزیه و تحلیل داده نسبت به یک نسبت ساده یک برچسب گروهی واحد به هر مشاهده جدید مشاهده شود.

طبقه بندی دودویی و چند کلاسی ویرایش ]

طبقه بندی را می توان به عنوان دو مشکل جداگانه تصور کرد - طبقه بندی باینری و طبقه بندی چندکلاسی . در طبقه بندی باینری ، یک کار بهتر درک شده ، فقط دو کلاس درگیر هستند ، در حالی که طبقه بندی چندکلاسی شامل اختصاص دادن یک شی به یکی از چندین کلاس است. [9] از آنجا که بسیاری از روش های طبقه بندی به طور خاص برای طبقه بندی باینری توسعه یافته اند ، طبقه بندی چندکلاسی اغلب نیاز به استفاده ترکیبی از طبقه بندی کننده های باینری چندگانه دارد.

بردارهای ویژه ویرایش ]

اکثر الگوریتم ها نمونه فردی را توصیف می کنند که قرار است طبقه بندی آن با استفاده از یک بردار ویژگی از خصوصیات فردی و قابل اندازه گیری به عنوان مثال پیش بینی شود . به هر ویژگی یکویژگی گفته می شود ، که در آمار نیز به عنوان متغیر توضیحی شناخته می شود (یا متغیر مستقل ، گرچه این ویژگیها ممکن است از نظر آماری مستقل باشند یا نباشند ). ویژگی ها ممکن است به صورتهای مختلف باینری باشند (به عنوان مثال "روشن" یا "خاموش"). طبقه ای (به عنوان مثال "A" ، "B" ، "AB" یا "O" ، برای گروه خونی )؛ آیین نامه (به عنوان مثال "بزرگ" ، "متوسط" یا "کوچک")؛ دارای عدد صحیح (به عنوان مثال تعداد وقایع یک کلمه خاص در ایمیل)؛ یابا ارزش واقعی (به عنوان مثال اندازه گیری فشار خون). اگر نمونه یک تصویر باشد ، مقادیر ویژگی ممکن است با پیکسل های یک تصویر مطابقت داشته باشد. اگر نمونه بخشی از متن باشد ، مقادیر ویژگی ممکن است فرکانس وقایع کلمات مختلف باشد. بعضی از الگوریتم ها فقط از لحاظ داده های گسسته کار می کنند و نیاز دارند که داده های دارای ارزش واقعی یا عدد صحیح به گروه ها تفکیک شوند (به عنوان مثال کمتر از 5 ، بین 5 تا 10 یا بیشتر از 10).

طبقه بندی کننده های خطی ویرایش ]

مقاله اصلی: طبقه بندی کننده خطی

تعداد زیادی الگوریتم برای طبقه بندی را می توان از نظر یک تابع خطی بیان کرد که با ترکیب وکتور ویژگی یک نمونه با یک بردار از وزنه ها ، با استفاده از یک محصول نقطه ، امتیاز را به هر گروه ممکن K اختصاص می دهد . دسته پیش بینی شده دارای بالاترین امتیاز است. این نوع تابع نمره به عنوان یک تابع پیش بینی کننده خطی شناخته شده است و دارای شکل کلی زیر است:

\ operatorname {نمره} (\ mathbf {X} _ {i} ، k) = {\ boldsymbol \ beta}} _ {k} \ cdot \ mathbf {X} _ {i}،

که در آن من بردار ویژگی است به عنوان مثال i ، β k بردار وزنی است که مربوط به طبقه k است ، و نمره ( i ، k ) نمره مرتبط با اختصاص نمونه i به طبقه k است . در انتخاب گسستهنظریه، که در آن موارد نشان دهنده مردم و دسته ها انتخابی، نمره نظر گرفته شده است ابزار مرتبط با فرد من انتخاب دسته K .

الگوریتم های این تنظیم اولیه به عنوان طبقه بندی کننده خطی شناخته می شوند . آنچه آنها را متمایز می کند روش تعیین (آموزش) وزن / ضرایب بهینه و نحوه تفسیر امتیاز است.

نمونه هایی از چنین الگوریتم هایی هستند

الگوریتم ها ویرایش ]

در یادگیری بدون نظارت ، طبقه بندی کننده ها ستون فقرات تجزیه و تحلیل خوشه ها و در یادگیری نظارت شده یا نیمه نظارت شده ، طبقه بندی کننده ها چگونگی توصیف و ارزیابی داده های بدون مارک سیستم هستند. اگرچه در همه موارد ، طبقه بندی کننده ها مجموعه مشخصی از قوانین پویا دارند ، که شامل یک روش تفسیر برای مقابله با مقادیر مبهم یا ناشناخته است ، همه متناسب با نوع ورودی های مورد بررسی. [10]

از آنجا که هیچ نوع طبقه بندی واحدی برای کلیه مجموعه های داده ها مناسب نیست ، یک ابزار بزرگ از الگوریتم های طبقه بندی توسعه داده شده است. متداول ترین آنها عبارتند از: [11]

ارزیابی ویرایش ]

عملکرد طبقه بندیگر تا حد زیادی به ویژگی های داده های طبقه بندی شده بستگی دارد. هیچ طبقه بندی منفردی وجود ندارد که بتواند در تمام مشکلات داده شده بهترین کار را داشته باشد (پدیده ای که ممکن است با قضیه ناهار بدون آزاد توضیح داده شود ). آزمایش های تجربی مختلفی برای مقایسه عملکرد طبقه بندی کننده و یافتن ویژگی های داده هایی که عملکرد طبقه بندی کننده را تعیین می کنند انجام شده است. تعیین طبقه بندی مناسب برای یک مشکل خاص ، با این وجود هنوز یک هنر است تا یک علم.

اقدامات مانعیت و جامعیت معیارهای محبوب برای ارزیابی کیفیت یک سیستم طبقه بندی استفاده می شود. اخیراً ، منحنی های مشخصه عامل گیرنده (ROC) برای ارزیابی مبادلات بین نرخ های مثبت و نادرست از الگوریتم های طبقه بندی استفاده شده است.

به عنوان یک معیار عملکرد ، ضریب عدم اطمینان از این مزیت نسبت به دقت ساده برخوردار است زیرا در اندازه های نسبی طبقات مختلف تأثیر نمی گذارد. [12] علاوه بر این ، الگوریتمی برایجابجایی مجدد کلاسها جریمه نمی شود .

دامنه برنامه ویرایش ]

همچنین ببینید: تجزیه و تحلیل خوشه § برنامه های کاربردی

طبقه بندی کاربردهای زیادی دارد. در بعضی از این موارد به عنوان یک روش کاوی داده استفاده می شود ، در حالی که در برخی دیگر مدل سازی آماری دقیق تر انجام می شود.

ادامه نوشته

محاسبات تکاملی


از ویکیپدیا، دانشنامه آزاد

پرش به ناوبریپرش به جستجو

بخشی از یک سری در
زیست شناسی تکاملی
انتهای داروین توسط Gould.jpg

نتیجه های داروین توسط جان گولد

مباحث اصلی[نمایش]

فرایندها و نتایج[نمایش]

تاریخ طبیعی[نمایش]

تاریخ تئوری تکاملی[نشان دادن]

زمینه ها و برنامه های کاربردی[نمایش]

پیامدهای اجتماعی[نشان دادن]

برای مجله ، به Evolutionary Computation (ژورنال) مراجعه کنید .

در علوم رایانه ، محاسبات تکاملی خانواده ای از الگوریتم ها برای بهینه سازی جهانی است که با الهام از تکامل بیولوژیکی و زیر شاخههوش مصنوعی و محاسبات نرم در حال مطالعه این الگوریتم ها هستند. از نظر فنی ، آنها خانواده ای از حلال های آزمایش و خطای مبتنی بر جمعیت هستند که دارای شخصیت بهینه سازی متاوریستی یا تصادفی هستند.

در محاسبات تکاملی ، مجموعه اولیه راه حل های کاندیدای تولید شده و به طور تکراری به روز می شود. هر نسل جدید با حذف تصادفی راه حل های کمتر مورد نظر و معرفی تغییرات تصادفی کوچک تولید می شود. در اصطلاحات بیولوژیکی ، جمعیت محلول در معرضانتخاب طبیعی (یا انتخاب مصنوعی ) و جهش قرار می گیرند . در نتیجه ، جمعیت به تدریج برای افزایش تناسب اندام تکامل می یابد ، در این حالت عملکرد تناسب اندام انتخاب شده الگوریتم.

تکنیک های محاسبه تکاملی می تواند راه حل های بسیار بهینه ای را در طیف گسترده ای از تنظیمات مسئله تولید کند ، و آنها را در علوم رایانه محبوب کند . بسیاری از انواع و پسوندها وجود دارد ، مناسب برای خانواده های خاص تر از مشکلات و ساختار داده ها. محاسبات تکاملی نیز گاهی در زیست شناسی تکاملی به عنوان روشی آزمایشی سیلیکو برای مطالعه جنبه های مشترک فرایندهای تکاملی به کار می رود.

 

فهرست

تاریخچه ویرایش ]

استفاده از اصول تکاملی برای حل خودکار مسئله در دهه 50 سرچشمه گرفت. تا دهه 1960 نگذشت که سه تفسیر مجزا از این ایده در سه مکان مختلف آغاز شد.

برنامه نویسی تکاملی توسط لارنس جی فاگل در ایالات متحده معرفی شد ، در حالی که جان هنری هالند روش خود را الگوریتم ژنتیکی خواند. در آلمان ، اینگو ریشنبرگ و هانس پاول شوودلراهبردهای تکامل را معرفی کردند. این مناطق حدود 15 سال به طور جداگانه توسعه یافتند. از اوایل دهه نود به عنوان نمایندگان مختلف ("گویش") یک فناوری به نام محاسبات تکاملی متحد می شوند. همچنین در اوایل دهه نود ، جریان چهارم پیروی از ایده های کلی پدیدار شد - برنامه نویسی ژنتیکی. از دهه 1990 ، الگوریتم های الهام گرفته از طبیعت به بخشی فزاینده از محاسبات تکاملی تبدیل می شوند.

این اصطلاحات زمینه محاسبات تکاملی را نشان می دهد و برنامه نویسی تکاملی ، استراتژی های تکامل ، الگوریتم های ژنتیکی و برنامه نویسی ژنتیکی را به عنوان زیر مناطق در نظر می گیرد.

شبیه سازی تکامل با استفاده از الگوریتم های تکاملی و زندگی مصنوعی با کار نیلز آل باریکلی در دهه 1960 آغاز شد و توسط الکس فریزر که یک سری مقالات در مورد شبیه سازی انتخاب مصنوعی منتشر کرد ، تمدید شد . [1] تکامل مصنوعی به عنوان یک نتیجه از کارهای Ingo Rechenberg در دهه 1960 و اوایل دهه 1970 به روش بهینه سازی گسترده ای تبدیل شد که ازاستراتژی های تکامل برای حل مشکلات پیچیده مهندسی استفاده کرد. [2] الگوریتم های ژنتیکی به ویژه با نوشتن جان هالند محبوب شدند . [3]با افزایش علاقه دانشگاهی ، افزایش چشمگیر در قدرت رایانه ها برنامه های کاربردی عملی ، از جمله تکامل خودکار برنامه های رایانه ای را امکان پذیر کرد. [4] الگوریتم های تکاملی اکنون برای حل مشکلات چند بعدی با کارآمدتر از نرم افزارهای تولید شده توسط طراحان انسانی و همچنین بهینه سازی طراحی سیستمها مورد استفاده قرار می گیرند. [5] [6]

تکنیک ها ویرایش ]

تکنیک های محاسبات تکاملی عمدتا شامل فوق ابتکاری بهینه سازی الگوریتم های . به طور گسترده ، این زمینه شامل موارد زیر است:

الگوریتم های تکاملی ویرایش ]

مقاله اصلی: الگوریتم تکاملی

الگوریتم های تکاملی زیر مجموعه ای از محاسبه تکاملی را تشکیل می دهند به این ترتیب که آنها فقط تکنیک های اجرای مکانیسم های الهام گرفته از تکامل بیولوژیکی مانند تولید مثل ، جهش ،نوترکیبی ، انتخاب طبیعی و بقای اصلح را در بر می گیرند . راه حل های کاندیدای مسئله بهینه سازی نقش افراد در یک جمعیت را ایفا می کند و عملکرد هزینه محیطی را که در آن راه حل ها "زندگی می کنند" تعیین می کند (همچنین به عملکرد تناسب اندام مراجعه کنید ). سپس تکامل جمعیت پس از اعمال مکرر اپراتورهای فوق انجام می شود.

در این فرایند ، دو نیروی اصلی وجود دارد که اساس سیستم های تکاملی را تشکیل می دهند: جهش نوترکیبی و متقاطع باعث ایجاد تنوع لازم و در نتیجه تازگی می شوند ، در حالی که انتخاب به عنوان نیرویی افزایش کیفیت عمل می کند.

بسیاری از جنبه های چنین روند تکاملی امری تصادفی است . قطعات تغییر یافته اطلاعات به دلیل نوترکیب و جهش به طور تصادفی انتخاب می شوند. از طرف دیگر ، اپراتورهای انتخاب می توانند قطعی یا تصادفی باشند. در حالت دوم ، افراد دارای آمادگی بالاتری شانس بیشتری برای انتخاب نسبت به افراد با آمادگی جسمی پایین دارند ، اما به طور معمول حتی افراد ضعیف شانس ازدواج یا بقا را دارند.

الگوریتم های تکاملی و زیست شناسی ویرایش ]

مقاله اصلی: الگوریتم تکاملی

الگوریتم های ژنتیکی روشهایی را برای مدل سازی سیستم های بیولوژیکی و زیست شناسی سیستم ها که با تئوری سیستم های دینامیکی مرتبط هستند ارائه می دهند ، زیرا از آنها برای پیش بینی حالت های آینده سیستم استفاده می شود. این فقط یک روش واضح (اما شاید گمراه کننده) برای جلب توجه به شخصیت منظم ، کنترل شده و بسیار ساختار یافته توسعه در زیست شناسی است.

با این حال ، استفاده از الگوریتم ها و انفورماتیک ، به ویژه تئوری محاسباتی ، فراتر از قیاس با سیستم های دینامیکی ، برای درک خود تکامل نیز مهم است.

این دیدگاه این شایستگی را دارد که تشخیص دهد که هیچ کنترل محوری در توسعه وجود ندارد. ارگانیسم ها در نتیجه تعامل محلی در داخل و بین سلول ها ایجاد می شوند. به نظر می رسد امیدوار کننده ترین ایده ها در مورد موازی های توسعه برنامه ، ایده هایی هستند که به یک قیاس ظاهراً نزدیک بین فرآیندهای درون سلول و عملکرد سطح پایین رایانه های مدرن اشاره می کنند [7] . بنابراین ، سیستمهای بیولوژیکی مانند ماشینهای محاسباتی هستند که اطلاعات ورودی را برای محاسبه حالتهای بعدی پردازش می کنند ، به گونه ای که سیستمهای بیولوژیکی به یک محاسبه نزدیکتر از سیستم دینامیکی کلاسیک هستند [8] .

علاوه بر این ، به دنبال مفاهیم نظریه محاسباتی ، میکرو فرآیندهای موجود در موجودات بیولوژیکی اساساً ناقص و غیرقابل انکار هستند ( کامل بودن (منطق) ) ، دلالت بر این که "بیش از یک استعاره خام در پشت قیاس بین سلول ها و رایانه ها وجود دارد" [9] .

قیاس به محاسبه نیز به رابطه بین سیستمهای وراثت و ساختار بیولوژیکی گسترش می یابد ، که اغلب تصور می شود یکی از مهمترین مشکلات در تبیین منشأ زندگی را نشان می دهد.

پزشکان قابل توجه ویرایش ]

لیست محققان فعال به طور طبیعی پویا و غیر جامع است. تجزیه و تحلیل شبکه ای از جامعه در سال 2007 منتشر شد. [10]

همایش ها ویرایش ]

کنفرانسهای اصلی در حوزه محاسبات تکاملی شامل است

همچنین مشاهده کنید ویرایش ]

ادامه

انواع درختان و شبکه های فیلوژنتیک ویرایش ]

درختان فیلوژنتیک تولید شده توسط فیلوژنتیک محاسباتی بسته به داده های ورودی و الگوریتم مورد استفاده ، می توانند ریشه یا بدون ریشه باشند . یک درخت ریشه دار یک نمودار کارگردانی است که صریحاً یک جد مشترک اخیر (MRCA) را مشخص می کند ، معمولاً یک توالی منسوخ شده که در ورودی نمایش داده نمی شود. از اقدامات ژنتیکی فاصله می توان برای ترسیم درخت با توالی های ورودی به عنوان گره های برگ و فاصله آنها از ریشه متناسب با فاصله ژنتیکی آنها از MRCA فرضی استفاده کرد. شناسایی یک ریشه معمولاً نیاز به درج در داده های ورودی حداقل یک "گروه خروجی" دارد که فقط از راه دور به دنباله های مورد علاقه مربوط می شود.

در مقابل ، درختان بدون رده فاصله ها و روابط بین توالی ورودی را ترسیم می کنند بدون اینکه فرضیاتی در مورد نزول آنها انجام دهند. یک درخت بدون ریشه همیشه می تواند از یک درخت ریشه تولید شود ، اما یک ریشه معمولاً نمی تواند بر روی یک درخت غیرمستقیم بدون داده های اضافی درباره میزان واگرایی مانند فرضیه فرضیه ساعت مولکولی قرار گیرد . [3]

مجموعه کلیه درختان فیلوژنتیک ممکن برای گروه مشخصی از توالی های ورودی می تواند به عنوان "فضای درختی" چند بعدی تعریف شده تعریف شود که از طریق آن می توان مسیرهای جستجو را با الگوریتم های بهینه سازی دنبال کرد . اگرچه شمارش تعداد کل درختان برای تعداد غیرقابل توالی ورودی می تواند با تغییراتی در تعریف توپولوژی درخت پیچیده باشد ، اما همیشه درست است که برای تعداد معینی از ورودی ها و انتخاب پارامترها ، تعداد بیشتری از درختان ریشه دار وجود ندارد. [4]

هر دو درخت فیلوژنتیک ریشه دار و بدون ریشه را می توان بیشتر به شبکه های فیلوژنتیک ریشه دار و بدون نفوذ تعمیم داد که امکان مدل سازی پدیده های تکاملی مانند هیبریداسیون یا انتقال ژن افقی را فراهم می آورد.

کدگذاری کاراکترها و تعریف همسانی ویرایش ]

تجزیه و تحلیل مورفولوژیکی ویرایش ]

مشکل اساسی در فیلوژنتیک مورفولوژیکی مونتاژ یک ماتریس استبه نمایندگی نقشه برداری از هر یک از گونه ها با اندازه گیری های نماینده برای هر یک از خصوصیات فنوتیپی که به عنوان طبقه بندیگر استفاده می شود ، مقایسه می شود. انواع داده فنوتیپی مورد استفاده برای ساخت این ماتریس بستگی به گونه هایی دارد که با هم مقایسه می شوند. برای گونه های فردی ، ممکن است اندازه گیری هایی از اندازه بدن ، طول یا اندازه استخوان های خاص یا سایر خصوصیات جسمی یا حتی تظاهرات رفتاری انجام شود. البته ، از آنجا که همه ویژگی های فنوتیپی ممکن نیست برای تجزیه و تحلیل اندازه گیری و رمزگذاری شوند ، انتخاب ویژگی های اندازه گیری ، مانع اصلی ذاتی روش است. تصمیمی که صفات استفاده از آن به عنوان مبنایی برای ماتریس ضرورتاً بیانگر فرضیه ای است که در مورد کدام صفات یک گونه یا تاکسون بالاتر از نظر تکاملی مهم است. [5]مطالعات مورفولوژیکی را می توان با نمونه هایی از تکامل همگرا فنوتیپ ها اشتباه گرفت. [6] یک چالش بزرگ در ساخت کلاسهای مفید ، احتمال زیاد همپوشانی بین تاکسون در توزیع تغییرات فنوتیپ است. گنجاندن گونه های منقرض شده در تجزیه و تحلیل مورفولوژیکی اغلب به دلیل عدم وجود سوابق فسیلی یا ناقص ،دشوار است ، اما نشان داده شده است که تأثیر قابل توجهی در درختان تولید شده دارد. در یک مطالعه فقط گنجاندن گونه های منقرض شده میمون ها یک درخت مشتق از لحاظ مورفولوژیکی تولید کرد که مطابق با داده های مولکولی است. [1]

برخی از طبقه بندی های فنوتیپی ، به ویژه مواردی که هنگام تجزیه و تحلیل گروه های بسیار متنوع از گونه مورد استفاده قرار می گیرند ، گسسته و ابهام هستند. برای مثال ، طبقه بندی ارگانیسم ها به عنوان داشتن یا نداشتن دم ، در اکثر موارد ساده است ، مانند شمارش ویژگی هایی مانند چشم یا مهره ها. با این حال ، مناسب ترین نمایندگی از اندازه گیری های فنوتیپی به طور مداوم متغیر ، یک مشکل بحث برانگیز است بدون یک راه حل کلی. یک روش معمول این است که اندازه گیری علاقه را به دو یا چند طبقه مرتب کنید ، و تغییرات مداوم را به صورت طبقه بندی شده ای متناوب بدست آورید (به عنوان مثال ، همه نمونه هایی که دارای استخوان های هومروس طولانی تر از یک برش معین هستند) به عنوان اعضای یک ایالت نمره می گیرند ، و تمام اعضایی که humerus استخوانها کوتاهتر از برش به عنوان اعضای یک کشور دوم هستند). این نتیجه به راحتی دستکاری می شودمجموعه داده ها اما به دلیل گزارش ضعیف مبانی تعاریف کلاس و قربانی کردن اطلاعات در مقایسه با روش هایی که از توزیع مداوم وزنی اندازه گیری استفاده می شود ، مورد انتقاد قرار گرفته است. [7]

از آنجا که داده های مورفولوژیکی برای جمع آوری ، چه از منابع منابع ادبیات و چه از مشاهدات میدانی ، بسیار کارآمد هستند ، استفاده مجدد از ماتریس داده های قبلاً گردآوری شده معمول نیست ، اگرچه این ممکن است نقص های موجود در ماتریس اصلی را به تجزیه و تحلیل های مشتق چندگانه منتقل کند. [8]

تجزیه و تحلیل مولکولی ویرایش ]

مشکل رمزگذاری کاراکتر در آنالیزهای مولکولی بسیار متفاوت است ، زیرا کاراکترهای موجود در داده های توالی بیولوژیکی بصورت فوری و گسسته تعریف می شوند - نوکلئوتیدهای مجزا درتوالیهای DNA یا RNA و اسیدهای آمینه مجزا در توالیهای پروتئینی . با این حال ، تعریف هومولوژی به دلیل مشکلات ذاتی تراز توالی چندگانه می تواند چالش برانگیز باشد . برای MSA شکسته داده شده ، می توان چندین درخت ریشه ریشه ای ساخت که در تفسیر آنها متفاوت است که تغییرات " جهش " در مقابل شخصیتهای اجدادی است ، و کدام وقایع جهش درج یا جهش حذف هستند.. به عنوان مثال ، با توجه به هم ترازی دو طرفه با ناحیه شکاف ، مشخص نیست که آیا یک دنباله دارای جهش درج است یا دیگری دارای حذف است. این مشکل در MSA ها با شکاف های غیرمستقیم و غیرمستقیم افزایش یافته است. در عمل ، مناطق قابل توجهی از یک تراز محاسبه شده ممکن است در ساخت و ساز درخت فیلوژنتیکی تخفیف داده شود تا از ادغام داده های پر سر و صدا در محاسبه درخت جلوگیری شود.

روش های ماتریس از راه دور ویرایش ]

مقاله اصلی: ماتریس از راه دور در فیلوژنی

روش های ماتریس از راه دور تجزیه و تحلیل فیلوژنتیک صریحا به اندازه گیری "فاصله ژنتیکی" بین توالی طبقه بندی شده متکی هستند ، و بنابراین آنها به MSA به عنوان ورودی نیاز دارند. مسافت اغلب به عنوان کسری از عدم تطابق در موقعیت های هم تراز تعریف می شود که شکاف ها یا نادیده گرفته می شوند یا به عنوان عدم تطابق در نظر گرفته می شوند. [3] روش های فاصله سعی در ساخت یک ماتریس همه به همه از مجموعه پرس و جو دنباله دارند که فاصله بین هر جفت دنباله را توصیف می کند. از این طریق یک درخت فیلوژنتیک ساخته شده است که توالی های نزدیک به هم را در زیر یک گره داخلی قرار می دهدو طول شاخه آنها از نزدیک بازتولید فاصله های مشاهده شده بین توالی ها را نشان می دهد. بسته به الگوریتمی که برای محاسبه آنها استفاده می شود ، روش های ماتریس از راه دور ممکن است درختان ریشه دار یا بدون پراکنده تولید کنند. آنها غالباً به عنوان پایه ای برای انواع مترقی و تکراری ترازهای توالی چندگانه مورد استفاده قرار می گیرند . نقطه ضعف اصلی روش های ماتریس فاصله ، عدم توانایی آنها در استفاده کارآمد از اطلاعات در مورد مناطق دارای تنوع زیاد محلی است که در زیر چندین درخت مشاهده می شود. [4]

UPGMA و WPGMA ویرایش ]

مقاله اصلی: UPGMA

مقاله اصلی: WPGMA

UPGMA ( بدون وزن روش جفت گروه با میانگین حسابی ) و WPGMA ( وزن جفت روش گروه با میانگین حسابی ) روش های تولید درختان ریشه دار و نیاز به یک فرض نرخ ثابت - است که، آن نظر میرسد که یک ultrametric درخت که در آن فاصله از ریشه به هر نوک شاخه برابر است. [9]

همسایگی ویرایش ]

مقاله اصلی: پیوستن به همسایگان

روشهای همسایگی همسایگان از تکنیک های تحلیل خوشه ای کلی برای تجزیه و تحلیل توالی با استفاده از فاصله ژنتیکی به عنوان یک معیار خوشه استفاده می کنند. ساده همسایه پیوستن به روش تولید درختان بدون ریشه، اما آن را با سرعت ثابت تکامل (به عنوان مثال، یک فرض نیست ساعت مولکولی ) در سراسر دودمان. [10]

روش Fitch – Margoliash ویرایش ]

روش Fitch-Margoliash از روش وزنی حداقل مربعات برای خوشه بندی بر اساس فاصله ژنتیکی استفاده می کند. [11] توالی های مربوط به نزدیك وزن بیشتری در فرآیند ساخت درخت داده می شود تا از عدم دقت در اندازه گیری فاصله بین توالی های دور تا دور اصلاح شود. مسافتهایی که به عنوان ورودی به الگوریتم استفاده می شوند باید عادی شوند تا از مصنوعات بزرگ در محاسبه روابط بین گروههای نزدیک و مرتبط با آن جلوگیری شود. مسافت محاسبه شده توسط این روش باید خطی باشد . معیار خطی برای مسافت ، مقادیر مورد انتظار را می طلبدطول شعبه برای دو شاخه جداگانه باید با مقدار مورد انتظار از مجموع دو فاصله شاخه برابر باشد - خاصیتی که فقط در موارد توالی بیولوژیکی اعمال می شود فقط در صورت اصلاح آنها برای امکان جهش پشت در سایت های جداگانه.این اصلاح با استفاده از ماتریس جانشینی مانند آنچه که از مدل تکامل DNA Jukes-Cantor حاصل می شود انجام می شود. اصلاح فاصله فقط در عمل ضروری است وقتی نرخ تکامل بین شاخه ها متفاوت است. [4] اصلاح دیگر الگوریتم می تواند مفید باشد ، به خصوص در مورد مسافت متمرکز (لطفاً به غلظت پدیده اندازه گیری و نفرین ابعاد گزارش دهید.): این اصلاح ، توصیف شده در ، [12]برای بهبود کارآیی الگوریتم و استحکام آن نشان داده شده است.

معیار حداقل مربعات اعمال شده برای این مسافت ها دقیق تر اما کارآمدتر از روش های اتصال همسایه است. یک پیشرفت اضافی که برای ارتباط بین فواصل ناشی از بسیاری از توالی های نزدیک به مجموعه در داده ها ایجاد می شود ، می تواند با افزایش هزینه محاسباتی نیز به کار رود. یافتن درخت مطلوب حداقل مربعات با هر فاکتور تصحیح NP کامل است ، [13] بنابراین روش های جستجواکتشافی مانند روش های مورد استفاده در آنالیز حداکثر پارسیمونی برای جستجوی از طریق فضای درخت استفاده می شوند.

استفاده از گروههای ویرایش ]

از اطلاعات مستقل در مورد رابطه سکانسها یا گروهها می توان برای کاهش فضای جستجوی درخت و ریشه درختان بی استفاده استفاده کرد. استفاده استاندارد از روش های ماتریس از راه دور شامل حداقل یک دنباله برون مرزی است که فقط از راه دور به دنباله های مورد علاقه در مجموعه پرس و جو مربوط می شود. [3] این استفاده را می توان نوعی کنترل آزمایشی دانست . اگر نتیجه مناسب انتخاب شده باشد ، فاصله ژنتیکی بسیار بیشتری خواهد داشتو به این ترتیب طول شاخه طولانی تر از هر توالی دیگر است ، و در نزدیکی ریشه یک درخت ریشه ظاهر می شود. انتخاب یک نتیجه مناسب ، مستلزم انتخاب دنباله ای است که به طور متوسط ​​با سکانس های مورد علاقه مرتبط باشد. خیلی نزدیک یک رابطه هدف گروه را خراب می کند و خیلی دور هم صدایی را به تجزیه و تحلیل می افزاید . [3] همچنین باید مراقب باشید تا از موقعیت هایی که گونه هایی که از آن دنباله ها گرفته شده است با یکدیگر فاصله داشته باشند ، جلوگیری شود ، اما ژن رمزگذاری شده توسط توالی ها در بین سلسله بسیار محافظت می شود . انتقال ژن های افقی ، به ویژه بین باکتری های واگرای متفاوت ، همچنین می تواند میزان استفاده از گروه را مختل کند.

حداکثر تقسیم ویرایش ]

حداکثر پارسیمونی (MP) روشی برای شناسایی درخت احتمالی فیلوژنتیک است که برای توضیح داده های توالی مشاهده شده به کمترین تعداد رویدادهای تکاملی نیاز دارد . برخی از راه های به ثمر رساندن درختان همچنین شامل "هزینه" مربوط به انواع خاص از وقایع تکاملی و تلاش برای یافتن درخت با کمترین هزینه در کل است. این یک روش مفید در مواردی است که هر نوع رویداد ممکن به همان اندازه محتمل است - به عنوان مثال ، هنگامی که نوکلئوتیدها یا اسیدهای آمینه خاص شناخته می شوند قابل جهش از سایرین هستند.

ساده ترین روش برای شناسایی پارساترین درخت شمارش ساده است - در نظر گرفتن هر درخت احتمالی پشت سر هم و جستجوی درخت با کمترین امتیاز. با این حال ، این تنها برای تعداد نسبتاً کمی از توالی یا گونه ها امکان پذیر است زیرا مشکل شناسایی درخت پارسا ترین NP-hard شناخته شده است . در نتیجه ، تعدادی از روشهای جستجوی اکتشافی برای بهینه‌سازی برای یافتن یک درخت بسیار پارسا ، اگر بهترین آن در مجموعه نباشد ، ایجاد شده است. بیشتر این روشها شامل یک مکانیسم به حداقل رساندن سبک نزولی است که بر اساس معیار تنظیم مجدد درخت کار می کند.

شعبه و محدود ویرایش ]

شاخه و حد الگوریتم یک روش کلی برای افزایش بهره وری از جستجو برای راه حل های نزدیک به بهینه است NP-hard است مشکلات برای اولین بار به فیلوژنتیک در اوایل 1980s استفاده شده است. [14] شاخه و محدود به خصوص در ساخت درخت فیلوژنتیک مناسب است زیرا ذاتاً نیاز به تقسیم یک مشکل در یک ساختار درخت دارد.زیرا فضای مسئله را به مناطق کوچکتر تقسیم می کند.همانطور که از نام آن پیداست ، به عنوان ورودی نیاز به یک قانون انشعاب دارد (در مورد فیلوژنتیک ، افزودن گونه بعدی یا دنباله به درخت) و یک بند (قاعده ای که مناطق خاصی از فضای جستجو را از نظر دور می کند) ، از این رو با فرض اینکه راه حل بهینه نمی تواند آن منطقه را اشغال کند). شناسایی یک محدود خوب ، چالش برانگیزترین جنبه کاربرد الگوریتم برای فیلوژنتیک است. یک روش ساده برای تعیین حد مجاز تعداد حداکثر تغییرات فرضی تکاملی مجاز در هر درخت است. مجموعه ای از معیارهای معروف به قوانین ژارکیک [15]با تعریف ویژگی هایی که همه درختان "پارساتر" نامزد دارند ، فضای جستجو را به شدت محدود کنید. دو قانون اساسی نیاز به حذف همه جز یک دنباله زائد دارد (برای مواردی که مشاهدات متعدد داده های یکسان را تولید کرده اند) و حذف سایت های شخصیتی که در آنها دو یا چند حالت حداقل در دو گونه رخ نمی دهد. در شرایط ایده آل این قوانین و الگوریتم مرتبط با آنها یک درخت را به طور کامل تعریف می کنند.

الگوریتم Sankoff-Morel-Cedergren ویرایش ]

الگوریتم Sankoff-Morel-Cedergren از اولین روشهای منتشر شده برای تولید همزمان MSA و یک درخت فیلوژنتیک برای توالی نوکلئوتید بود. [16] در این روش از یک محاسبه حداکثر پارسیمونی در رابطه با یک تابع امتیاز دهی استفاده می شود که جریمه ها و عدم تطابق ها را جریمه می کند ، بدین ترتیب از درختی که حداقل تعداد چنین وقایعی را معرفی می کند ، مطلوب می شود (یک دیدگاه جایگزین معتقد است که درختان مورد علاقه باید مواردی باشند که حداکثر مقدار شباهت توالی که می تواند به عنوان همسانی تعبیر شود ، نقطه ای که ممکن است منجر به درختان بهینه مختلف شود [17] ). توالی های منتسب به گره های داخلیدرخت در هر درخت ممکن بیش از همه گره ها به ثمر رسیده و خلاصه می شود. با توجه به عملکرد گلزنی ، کمترین نمره درخت هم درخت بهینه و هم MSA بهینه را فراهم می کند. از آنجا که این روش از نظر محاسباتی بسیار فشرده است ، روشی تقریبی که در آن حدسهای اولیه برای ترازهای داخلی یک گره در یک زمان تصفیه می شود.نسخه کامل و تقریبی هر دو در عمل توسط برنامه نویسی پویا محاسبه می شود. [4]

MALIGN و POY ویرایش ]

روشهای اخیر درخت فیلوژنتیک / MSA از اکتشافی استفاده می کند تا درختان با امتیاز بالا ، اما لزوماً بهینه نباشد. روش MALIGN از یک تکنیک حداکثر پارسیمونی برای محاسبه یک تراز چندگانه با استفاده از حداکثر نمره کلادوگرام استفاده می کند ، و همراه آن POY از یک روش تکراری استفاده می کند که بهینه سازی درخت فیلوژنتیک را با پیشرفت های MSA مربوطه انجام می دهد. [18]اما ، استفاده از این روشها در ساخت فرضیه های تکاملی به دلیل ساخت و ساز عمدی درختان که منعکس کننده حداقل وقایع تکاملی هستند ، مغرضانه مورد انتقاد قرار گرفته است. [19]این به نوبه خود با این دیدگاه مخالفت کرده است که باید از این روشها به عنوان رویکردهای اکتشافی برای یافتن درختانی استفاده کرد که حداکثر میزان تشابه دنباله ای را که می توان به عنوان همسانی تعبیر کرد ، به حداکثر رساند. [17] [20]

حداکثر احتمال ویرایش ]

روش حداکثر احتمال استفاده از تکنیک های آماری استاندارد برای استنباط توزیع احتمال برای اختصاص احتمال به درختان فیلوژنتیک خاص ممکن است. این روش برای ارزیابی احتمال جهشهای خاصنیاز به یک مدل جایگزینی دارد . تقریباً ، درختی که برای گره های داخلی نیاز به جهش بیشتری دارد برای توضیح فیلوژنی مشاهده شده ، احتمال کمتری را ارزیابی می کند. این کاملاً شبیه به روش حداکثر پارسیمونی است ، اما حداکثر احتمال اجازه می دهد با اجازه دادن به نرخهای مختلف تکامل در هر دو زمینه و سایت ، انعطاف پذیری آماری اضافی ایجاد کند. در حقیقت ، این روش مستلزم تحول در مکانهای مختلف و در امتداد خطوط مختلف استآماری مستقل . حداکثر احتمال بنابراین به خوبی در تجزیه و تحلیل توالی های از راه دور مناسب است ، اما اعتقاد بر این است که محاسبه شده به دلیل سختی NP آن ، از نظر محاسباتی غیرقابل نفوذ است. [21]

الگوریتم "هرس" ، نوعی برنامه نویسی پویا است که اغلب برای محاسبه فضای جستجو با محاسبه کارآمد احتمال زیر شاخه ها استفاده می شود. [4] این روش احتمال برای هر سایت را به صورت "خطی" محاسبه می کند ، با شروع از گره ای که تنها فرزندان آنها برگها (یعنی نکات درخت) است و کار به سمت عقب به سمت گره "پایین" در مجموعه های توخالی. با این حال ، درختان تولید شده با روش فقط در صورتی ریشه می گیرند که مدل جایگزینی غیرقابل برگشت باشد ، که به طور کلی در مورد سیستم های بیولوژیکی صادق نیست. جستجوی درخت حداکثر احتمال نیز شامل یک مؤلفه بهینه سازی طول شاخه است که بهبود آن بر اساس الگوریتمی دشوار است. ابزارهای بهینه سازی کلی جهانی مانند نیوتن-رافسون روش اغلب استفاده می شود.

استنتاج بیزی ویرایش ]

مقاله اصلی: استنباط بیزی در فیلوژنی

استنباط بیزی را می توان برای تولید درختان فیلوژنتیک به روشی که با روشهای حداکثر احتمال نزدیک مرتبط باشد ، مورد استفاده قرار گرفت. روش های بیزی یک توزیع احتمال قبلی از درختان ممکن را فرض می کنند ، که احتمالاً احتمال وجود یک درخت در بین تمام درختان ممکن است که از داده ها ایجاد می شود ، یا ممکن است یک تخمین پیچیده تر حاصل از این فرض باشد که حوادث واگرایی از این قبیل به عنوان زایمان به عنوان فرآیندهای تصادفی اتفاق می افتد . انتخاب توزیع قبلی نقطه ای از اختلاف نظر در بین کاربران روشهای فیلوژنتیک استنتاج بیزی است. [4]

پیاده سازی روش های بیزی به طور کلی از الگوریتم های نمونه گیری از نمونه های زنجیره مارکوف استفاده می کند ، اگرچه انتخاب مجموعه حرکت متفاوت است. گزیده های مورد استفاده در فیلوژنتیک بیزی شامل گره های برگ بصورت دایره ای مسدود شده در هر مرحله [22] و تعویض زیر شاخه های فرودست یک گره داخلی تصادفی بین دو درخت مرتبط است. [23] استفاده از روشهای بیزی در فیلوژنتیک بحث برانگیز بوده است ، عمدتا به دلیل مشخصات ناقص در انتخاب مجموعه حرکت ، معیار پذیرش و توزیع قبلی در کارهای منتشر شده. [4] روشهای بیزی معمولاً برتر از روشهای مبتنی بر پارسیمونی هستند. آنها می توانند بیشتر از روشهای حداکثر احتمال در معرض جذب شاخه های بلند قرار گیرند ،[24] اگرچه آنها قادر به جمع آوری داده های گمشده هستند. [25]

در حالی که روشهای احتمال درختی را پیدا می کند که احتمال داده را به حداکثر می رساند ، یک رویکرد بیزی با ترسیم بر روی توزیع خلفی ، درختی را به نمایش می گذارد که به احتمال زیاد کلادها را نشان می دهد. با این حال ، برآوردهای احتمال خلفی چادها (اندازه گیری "پشتیبانی" آنها) می تواند کاملاً گسترده از علامت باشد ، به خصوص در دسته هایی که احتمالاً زیاد نیستند. به این ترتیب ، روشهای دیگری برای تخمین احتمال خلفی به جلو ارائه شده است. [26]

انتخاب مدل ویرایش ]

روشهای فیلوژنتیک مولکولی به یک مدل جایگزینی تعریف شده تکیه می کنند که یک فرضیه را در مورد نرخ های نسبی جهش در سایت های مختلف در امتداد ژن یا توالی اسیدهای آمینه مورد مطالعه قرار می دهد. در ساده ترین آنها، هدف مدل جایگزینی برای اصلاح تفاوت در نرخ انتقال و transversions در توالی نوکلئوتید است. استفاده از مدل های جایگزینی با این واقعیت ضروری است کهفاصله ژنتیکی بین دو سکانس بطور خطی فقط برای مدت کوتاهی افزایش می یابد پس از اینکه دو دنباله از یکدیگر فاصله گرفتند (در عوض ، فاصله فقط کمی قبل از انعقاد خطی است.) هرچه مدت زمان بعد از واگرایی طولانی تر باشد ، احتمال می رود که دو جهش در همان محل نوکلئوتید اتفاق بیفتد. در نتیجه محاسبات ساده ژنتیکی از تعداد حوادث جهش یافته در تاریخ تکاملی کم خواهد شد.وسعت این کمیت با افزایش زمان از زمان واگرایی افزایش می یابد ، که می تواند به پدیده جذب شاخه های طولانی منجر شود یا سوء استفاده از دو سکانس که به دور از هم مرتبط هستند اما به هم پیوسته در حال تکامل هستند و از نزدیک نزدیک هستند. [27] حداکثر روش پارسیمونی به دلیل جستجوی صریح آن برای یک درخت که نمایانگر حداقل تعداد رویدادهای تکاملی متمایز است ، به ویژه در معرض این مشکل است. [4]

انواع مدل ها ویرایش ]

مقاله اصلی: مدل جایگزینی

همه مدل های تعویض مجموعه ای از وزنها را به هر تغییر احتمالی حالت نمایش داده شده در توالی اختصاص می دهند. متداول ترین انواع مدل به طور ضمنی قابل برگشت هستند زیرا آنها همان وزن را به مثلاً جهش نوکلئوتیدی G> C به یک جهش C> G اختصاص می دهند. ساده ترین مدل ممکن ، مدل Jukes-Cantor ، احتمال برابر را به هر تغییر حالت ممکن برای یک پایه نوکلئوتیدی اختصاص می دهد. میزان تغییر بین هر دو نوکلئوتید مجزا یک سوم میزان تعویض کلی خواهد بود. [4] مدل های پیشرفته تر تمایز بین انتقال و transversions. عمومی ترین مدل برگشت پذیر زمان ممکن ، به نام مدل GTR ، دارای شش پارامتر سرعت جهش است. یک مدل حتی عمومی تر که به عنوان مدل 12 پارامتر عمومی شناخته می شود ، بازگرداندن زمان را با هزینه پیچیدگی اضافی بیشتری در محاسبه مسافت ژنتیکی که بین خطوط متعدد سازگار است ، می شکند. [4] یک تنوع احتمالی در این موضوع نرخ ها را طوری تنظیم می کند که محتوای کلی GC - یک اندازه گیری مهم از ثبات مارپیچ DNA - با گذشت زمان تغییر کند. [28]

مدلها همچنین ممکن است تغییر نرخ با موقعیت در توالی ورودی را امکان پذیر سازند. بارزترین نمونه چنین تغییراتی از ترتیب نوکلئوتیدها در ژنهای کد کننده پروتئین به کدون های سه پایه ای ناشی می شود . اگر محل قاب خواندن باز (ORF) مشخص باشد ، می توان میزان جهش را برای موقعیت یک سایت معین در یک کدون تنظیم کرد ، زیرا شناخته شده است که جفت شدن پایه پایه می تواند باعث افزایش بیشتر جهش در نوکلئوتید سوم a شود. کدون بدون تأثیر معنی کدون در کد ژنتیکی . [27] یک مثال کمتر فرضیه محور که به شناسایی ORF متکی نباشد ، صرفاً نرخی را به طور تصادفی از توزیع از پیش تعیین شده به هر سایت اختصاص می دهد ، اغلبتوزیع گاما یا توزیع log-normal . [4] سرانجام ، یک برآورد محافظه کارانه تر از تغییرات نرخ که به عنوان روش کواریونیون شناخته می شوند ، اجازه می دهد تا تغییرات همبستگی در نرخ ها ایجاد شود ، به طوری که سرعت جهش یک سایت خاص در بین سایت ها و دودمان ها در ارتباط باشد. [29]

انتخاب بهترین مدل ویرایش ]

انتخاب مدل مناسب برای تولید آنالیزهای خوب فیلوژنتیک بسیار مهم است ، هم به دلیل اینکه مدلهای کم فشار یا بیش از حد محدودکننده ممکن است در صورت نقض فرضیات زیربنایی خود رفتار ناهنجاری ایجاد کنند ، و به دلیل اینکه مدلهای بسیار پیچیده یا بیش از حد اندازه محاسباتی گران هستند و پارامترها ممکن است بیش از حد باشند. . [27] متداول ترین روش انتخاب مدل آزمون نسبت احتمال (LRT) است ، که تخمین ای از احتمال ایجاد می کند که می تواند به عنوان معیار " خوبی بودن تناسب " بین مدل و داده های ورودی تعبیر شود . [27]با این وجود ، باید در استفاده از این نتایج دقت کرد ، زیرا یک مدل پیچیده تر با پارامترهای بیشتر ، همیشه احتمال بیشتری نسبت به نسخه ساده مدل مشابه خواهد داشت ، که می تواند منجر به انتخاب ساده و بی تکلف مدلهای بسیار پیچیده شود. [4] به همین دلیل برنامه های انتخاب کامپیوتر مدل ساده ترین مدل را انتخاب می کنند که به مراتب بدتر از مدل های جایگزینی پیچیده نیست. یک ضرر مهم LRT ضرورت ساختن یک سری مقایسه جفت بین مدل ها است. نشان داده شده است که ترتیب مقایسه مدلها تأثیر عمده ای بر روی انتخابی دارد که در نهایت انتخاب می شود. [30]

یک روش انتخاب مدل جایگزین معیار اطلاعات Akaike (AIC) است ، که به طور رسمی تخمینی از واگرایی Kullback-Leibler بین مدل واقعی و مدل مورد آزمایش است. می توان آن را به عنوان یک تخمین احتمال با یک عامل تصحیح برای مجازات کردن مدل های بیش از اندازه تفسیر کرد. [27] AIC به جای یک جفت بر روی یک مدل واحد محاسبه می شود ، بنابراین مستقل از ترتیب ارزیابی مدل ها است. یک جایگزین مرتبط ، معیار اطلاعات بیزی (BIC) ، یک تعبیر اساسی مشابه دارد اما مدل های پیچیده را به شدت جریمه می کند. [27]

یک پروتکل جامع به صورت مرحله به مرحله در ساخت درخت فیلوژنتیک از جمله مونتاژ توالی پیوسته DNA / آمینو اسید ، ترازی توالی چندگانه ، مدل-تست (آزمایش مدلهای جایگزینی با بهترین اتصالات) و بازسازی فیلوژنی با استفاده از حداکثر احتمال و استنباط بیزی در دسترس است. پروتکل طبیعت [31]

یک روش غیر سنتی برای ارزیابی درخت فیلوژنتیک مقایسه آن با نتیجه خوشهای است. می توان از یک تکنیک پوسته پوسته شدن چند بعدی (به اصطلاح Interpolative Joining) استفاده کرد تا کاهش ابعاد را انجام دهد تا نتیجه خوشه بندی توالی ها به صورت سه بعدی تجسم شود و سپس درخت فیلوژنتیک را بر روی نتیجه خوشه بندی ترسیم کنید. یک درخت بهتر معمولاً با نتیجه خوشه بندی ارتباط بالاتری دارد. [32]

ارزیابی پشتیبانی درخت ویرایش ]

مانند تمام تجزیه و تحلیل آماری ، برآورد فیلوژنی از داده های شخصیت نیاز به ارزیابی اطمینان دارد. تعدادی روش برای تست میزان پشتیبانی از یک درخت فیلوژنتیک وجود دارد ، چه با ارزیابی پشتیبانی از هر درخت زیر درخت در فیلوژنی (پشتیبانی گره) یا ارزیابی اینکه آیا فیلوژنی با سایر درختان ممکن تفاوت چشمگیری دارد (آزمون فرضیه جایگزین درخت )

پشتیبانی گره ویرایش ]

متداول ترین روش برای ارزیابی حمایت از درخت ، ارزیابی پشتیبانی آماری برای هر گره روی درخت است. به طور معمول ، یک گره با پشتیبانی بسیار کم در تجزیه و تحلیل بیشتر معتبر در نظر گرفته نمی شود ، و از لحاظ بصری ممکن است در یک polytomy فرو بریزد تا نشان دهد که روابط درون یک کلاد حل نشده است.

درخت اجماع ویرایش ]

بسیاری از روشها برای ارزیابی پشتیبانی گره ای شامل در نظر گرفتن فیلوژنی های متعدد است. درخت اجماع گره هایی را که در میان مجموعه ای از درختان به اشتراک گذاشته شده است خلاصه می کند. [33] در یک اجماع دقیق * ، تنها گره های یافت شده در هر درخت نشان داده می شود ، و بقیه به یک polytomy حل نشده فرو می روند . روشهای کمتر محافظه کارانه ، مانند درخت * اجماع اکثریت ، گره هایی را در نظر می گیرند که توسط درصد معینی از درختان مورد بررسی پشتیبانی می شوند (مانند حداقل 50٪).

به عنوان مثال ، در تجزیه و تحلیل حداکثر پارسیمونی ، ممکن است درختان زیادی با همان نمره پارسیمونی وجود داشته باشد. یک درخت اجماع سخت نشان می دهد که کدام گره ها در همه درختان به همان اندازه پراکنده یافت می شوند ، و کدام گره ها متفاوت است. همچنین از درختان اجماع برای ارزیابی پشتیبانی از فیلوژنی های بازسازی شده با استنتاج بیزی استفاده می شود (به تصویر زیر مراجعه کنید).

Bootstrapping و jackknifing ویرایش ]

در آمار ، bootstrap روشی برای استنباط تغییرپذیری داده هایی است که دارای یک توزیع ناشناخته با استفاده از شبه گزارش از داده های اصلی هستند. به عنوان مثال ، با توجه به مجموعه ای از 100 نقطه داده ، یک شبه مجموعه یک مجموعه داده با اندازه یکسان (100 امتیاز) است که بصورت تصادفی از داده های اصلی با جایگزینی در دسترس است. یعنی هر نقطه داده اصلی ممکن است بیش از یک بار در متن شبه نمایش داده شود ، یا اصلاً نباشد. پشتیبانی آماری شامل ارزیابی اینکه آیا داده های اصلی دارای خواص مشابه به مجموعه بزرگی از شبه طرح هستند.

در فیلوژنتیک ، بوت استرپ با استفاده از ستون های ماتریس کاراکتر انجام می شود. هر شبه گزارش شامل تعداد مشابهی از گونه ها (ردیف ها) و کاراکترها (ستون ها) است که بطور تصادفی از ماتریس اصلی گرفته می شوند و دارای جایگزینی هستند. فیلوژنی از هر شبه بازسازی با همان روشهایی که برای بازسازی فیلوژنی از داده های اصلی استفاده می شود ، بازسازی می شود. برای هر گره موجود در فیلوژنی ، پشتیبانی گره درصد درصد شبه حاوی آن گره است. [34]

دقت آماری آزمون بوت استرپ با استفاده از جمعیت ویروسی با تاریخچه تکاملی شناخته شده ، به صورت تجربی مورد ارزیابی قرار گرفته است ، [35] که یافته است که 70٪ پشتیبانی از بوت استرپ مربوط به احتمال 95٪ وجود کلاد است. با این حال ، این در شرایط ایده آل مورد آزمایش قرار گرفت (به عنوان مثال بدون تغییر در نرخ تکاملی ، فیلوژنی های متقارن). در عمل ، مقادیر بالاتر از 70٪ به طور کلی پشتیبانی می شوند و در اختیار محقق یا خواننده قرار می گیرند تا اعتماد به نفس را ارزیابی کنند. گره هایی با پشتیبانی کمتر از 70٪ معمولاً حل نشده تلقی می شوند.

Jackknifing در فیلوژنتیک روشی مشابه است ، به جز ستون های ماتریس بدون جایگزینی نمونه برداری می شوند. Pseudoreplicates با الگوبرداری تصادفی از داده ها ایجاد می شود - به عنوان مثال ، "جک زن 10٪" شامل نمونه گیری تصادفی 10٪ از ماتریس چندین بار برای ارزیابی پشتیبانی گره ای است.

احتمال خلفی ویرایش ]

بازسازی فیلوژنیها با استفاده از استنباط بیزی ، توزیع داده خلفی از درختان بسیار محتمل را با توجه به داده ها و مدل تکاملی ، به جای یک درخت "بهترین" تنها ایجاد می کند. درختان در توزیع خلفی به طور کلی دارای توپولوژی های مختلف هستند. اکثر روشهای استنباط بیزی از تکرار مونت کارلو با زنجیره مارکوف استفاده می کنند و مراحل اولیه این زنجیره بازسازی های قابل اعتماد از فیلوژنی محسوب نمی شوند. درختانی که در اوایل زنجیره تولید می شوند معمولاً به عنوان سوزش درون بدن دور می شوند . متداول ترین روش ارزیابی پشتیبانی گره ای در آنالیز فیلوژنتیک بیزی محاسبه درصد درختان در توزیع خلفی (پس از سوختگی) است که حاوی گره است.

انتظار می رود که پشتیبانی آماری برای یک گره در استنتاج بیزی ، احتمال وجود یک کلاد را با توجه به داده ها و مدل تکاملی نشان دهد. [36] بنابراین ، آستانه پذیرش گره به عنوان پشتیبانی به طور کلی بالاتر از bootstrapping است.

روش شمارش مرحله ویرایش ]

پشتیبانی از Bremer تعداد مراحل اضافی لازم برای تضاد با یک کلاد را شمارش می کند.

کاستی ها ویرایش ]

این اقدامات هر کدام نقاط ضعف خود را دارند. به عنوان مثال ، کلادهای کوچکتر یا بزرگتر ، تمایل دارند که مقادیر حمایتی بزرگتر از کلادهای متوسط ​​را به سادگی جذب کنند ، در نتیجه تعداد گونه های موجود در آنها. [37]

پشتیبانی از بوت استرپ می تواند تخمین های بالایی از پشتیبانی گره در نتیجه نویز در داده ها به جای وجود واقعی یک کلاد ارائه دهد. [38]

محدودیت ها و راه حل ها ویرایش ]

درنهایت ، هیچ راهی برای اندازه گیری درست بودن یا نبود فرضیه فیلوژنتیک وجود ندارد ، مگر اینکه روابط واقعی میان تاکسی هایی که مورد بررسی قرار گرفته اند از قبل مشخص شده باشد (که ممکن است در شرایط آزمایشگاهی با باکتری یا ویروس اتفاق بیفتد). بهترین نتیجه ای که فیلوژنتیک تجربی می تواند برای دستیابی به آن امیدوار باشد درختی با شاخه هایی است که به خوبی از شواهد موجود پشتیبانی می شود. چندین خطای احتمالی شناسایی شده است:

هموپلازی ویرایش ]

مقاله اصلی: تکامل همگرا

شخصیت های خاصی احتمالاً به صورت همگرا از سایرین تکامل می یابند . از نظر منطقی ، در بازسازی یک درخت باید به چنین شخصیت هایی وزن کمتری داده شود. [39] وزنها به صورت الگویی از تکامل را می توان از مجموعه داده های مولکولی استنباط کرد ، به طوری که حداکثر احتمال یا بایزیبرای تجزیه و تحلیل آنها می توان از روشها استفاده کرد. برای توالی های مولکولی ، این مشکل وقتی تشدید می شود که گونه های مورد مطالعه به طور قابل توجهی تغییر کرده اند. با گذشت زمان از واگرایی دو گونه افزایش می یابد ، بنابراین احتمال تعویض های متعدد در همان سایت یا جهش های پشتی نیز وجود دارد که همگی منجر به هموپلازی می شوند. برای داده های مورفولوژیکی ، متأسفانه تنها هدف عینی برای تعیین همگرایی با ساخت درخت - روشی تا حدودی دایره ای است. با این حال ، وزن دادن به شخصیت های همجنسگرا [ چگونه؟ ] در واقع منجر به درختان بهتر پشتیبانی می شود. [39]با تغییر وزنی در یک جهت بالاتر از تغییرات در جهت دیگر ، می توان به پالایش بیشتر اشاره کرد. به عنوان مثال ، وجود بالهای قفسه سینه تقریباً ضمانت قرار گرفتن در میان حشرات گلچین را تضمین می کند ، زیرا ، گرچه بالها معمولاً ثانویه از بین می روند ، اما هیچ مدرکی مبنی بر کسب بیش از یک بار در دست نیست. [40]

انتقال ژن افقی ویرایش ]

به طور کلی ، ارگانیسم ها می توانند ژن ها را از دو طریق به ارث ببرند: انتقال ژن عمودی و انتقال ژن افقی . انتقال ژن عمودی انتقال ژنها از والدین به فرزندان است و انتقال ژن افقی (که به آن جانبی نیز گفته می شود) هنگامی اتفاق می افتد که ژن ها در بین ارگانیسم های غیرمرتبط پرش می کنند ، یک پدیده شایع به ویژه در پروکاریوت ها . مثال خوبی از این مقاومت آنتی بیوتیکی به دست آمده درنتیجه تبادل ژن بین باکتری های مختلف منجر به گونه های باکتریایی مقاوم به چند دارو است. همچنین موارد خوبی برای انتقال ژن افقی بین یوکاریوتها به ثبت رسیده است .

انتقال ژن های افقی تعیین فیوژنژن موجودات را پیچیده کرده است و ناسازگاری در فیلوژنی بسته به ژن های مورد استفاده در ساخت درختان تکاملی در بین گروه های خاصی از ارگانیسم ها گزارش شده است. تنها راه برای تعیین که ژن به صورت عمودی به دست آورد و که به صورت افقی است parsimoniously فرض کنیم که بزرگترین مجموعه ای از ژن که با هم به ارث برده شده اند به صورت عمودی به ارث برده شده است. این امر نیاز به تجزیه و تحلیل تعداد زیادی ژن دارد.

هیبریدها ، زایمانها ، اغتشاشات و مرتب سازی ناقص نسب ویرایش ]

فرض اساسی که بر پایه مدل ریاضی اقلیم شناسی قرار دارد ، شرایطی است که گونه ها به شکلی مرتب در مد تقسیم می شوند. در حالی که چنین فرضی ممکن است در مقیاس بزرگتر باشد (انتقال ژن نوار افقی ، نگاه کنید به بالا) ، زایمان معمولاً بسیار کمتر نظم دارد. تحقیقات از زمان استفاده از روش کلادیستی نشان داده اند که زعفران ترکیبی ، که به ندرت تصور می شد ، در واقع بسیار رایج است ، به خصوص در گیاهان. [41] [42] همچنین گمانه زنی paraphyletic متداول است ، فرض الگوی bifurcating نامناسب ، و منجر به شبکه های فیلوژنتیک به جای درختان می شود. [43] [44]مقدمههمچنين مي تواند ژنها را بين گونه هاي متفاوت و گاهي جنس نيز جابجا كند ، و آناليز فيلوژنتيك را براساس ژنها پيچيده كند. [45] این پدیده می تواند به "مرتب سازی ناقص خطوط" کمک کند و تصور می شود پدیده متداول در تعدادی از گروهها است. در تجزیه و تحلیل سطح گونه ها می توان با نمونه‌برداری بزرگتر یا آنالیز ژنوم کل کامل بهتر مورد بررسی قرار گرفت. [46] غالباً با محدود کردن تجزیه و تحلیل به نمونه های کمتری و نزدیک از مشکل ، از مشکل جلوگیری می شود.

نمونه گیری تاکسون ویرایش ]

با توجه به توسعه روشهای پیشرفته تعیین توالی در زیست شناسی مولکولی ، جمع آوری مقادیر زیادی از داده ها (توالی DNA یا اسیدهای آمینه) برای استنباط فرضیه های فیلوژنتیک امکان پذیر است.به عنوان مثال ، یافتن مطالعات با ماتریس های شخصیت بر اساس ژنوم کامل میتوکندری (16000 nuc نوکلئوتید ، در بسیاری از حیوانات) نادر نیست . با این حال ، شبیه سازی ها نشان داده اند که افزایش تعداد تاکس ها در ماتریس از افزایش تعداد کاراکترها بسیار مهم است ، زیرا هرچه گونه های بیشتری وجود داشته باشد ، درخت فیلوژنتیکی حاصل از آن دقیق تر و قوی تر است. [47] [48] این ممکن است تا حدودی به دلیل شکسته شدن شاخه های طولانی باشد.

سیگنال فیلوژنتیک ویرایش ]

یکی دیگر از عوامل مهم که بر صحت بازسازی درخت تأثیر می گذارد این است که آیا داده های تجزیه و تحلیل شده در واقع حاوی یک سیگنال فیلوژنتیک مفید هستند ، اصطلاحی که بطور کلی برای مشخص کردن اینکه یک شخصیت به آهستگی به اندازه کافی آهسته تکامل می یابد تا در حالتهای نزدیک به هم نزدیک باشد ، برخلاف متغیرهای تصادفی متفاوت است. . آزمایش برای سیگنال فیلوژنتیک وجود دارد. [49]

شخصیت های مداوم ویرایش ]

شخصیت های مورفولوژیکی که نمونه ای از پیوستار هستند ممکن است حاوی سیگنال فیلوژنتیک باشند ، اما کدگذاری به عنوان شخصیت های گسسته دشوار است. روشهای مختلفی استفاده شده است که یکی از آنها کدگذاری شکاف است و در کدگذاری شکاف تغییرات وجود دارد. [50] در شکل اصلی رمزگذاری شکاف: [50]

گروه گروهی برای یک کاراکتر ابتدا با اندازه سفارش داده می شوند. انحراف استاندارد درون گروهی محاسبه می شود ... و اختلاف بین وسایل مجاور ... نسبت به این انحراف استاندارد مقایسه می شود. هر جفت وسیله مجاور متفاوت در نظر گرفته می شود و نمرات عدد صحیح متفاوتی با آن در نظر گرفته می شود ... اگر این وسیله با "شکاف" بزرگتر از انحراف استاندارد درون گروهی از هم جدا شود ... چند برابر مقداری ثابت دلخواه.

اگر گونه های بیشتری به تجزیه و تحلیل اضافه شود ، شکاف بین گونه ها ممکن است به حدی کوچک شود که تمام اطلاعات از بین برود. برنامه نویسی شکاف عمومی در مقایسه با این مشکل با مقایسه جفت های جداگانه از گونه ها و نه در نظر گرفتن یک مجموعه که شامل همه گونه ها است ، حل می شود. [50]

داده موجود نیست ویرایش ]

به طور کلی ، هرچه داده بیشتری در هنگام ساخت درخت در دسترس باشد ، درخت حاصل از آن دقیق تر و قابل اطمینان تر خواهد بود. داده های گمشده بیشتر از داشتن داده های کمتری مضر نیستند ، اگرچه بیشتر داده های مفقود شده در تعداد کمی از گونه ها تأثیر دارد. متمرکز کردن داده های از دست رفته در تعداد کمی از شخصیت ها ، درخت قوی تری تولید می کند. [51]

نقش فسیلها ویرایش ]

از آنجا که بسیاری از شخصیت ها شامل شخصیت های جنینی ، یا بافت های نرم یا مولکولی هستند که (در بهترین حالت) به سختی فسیل می شوند ، و تفسیر فسیل ها مبهم تر از زندگی گونه های زندگی است ، گونه های منقرض شده تقریباً به طور نامحسوس نسبتهای بیشتری از داده های از دست رفته نسبت به موجودات زنده دارند. با این حال ، با وجود این محدودیت ها ، گنجاندن فسیل ها بسیار ارزشمند است ، زیرا می توانند اطلاعاتی را در مناطقی از درختان پراکنده ، شکسته شدن شاخه های طولانی و محدود کردن حالت های شخصیتی واسطه ارائه دهند. بنابراین ، گونه های فسیلی به همان اندازه گونه های مدرن در رفع درختان نقش دارند. [52] فسیل ها همچنین می توانند سن صفات را محدود کنند و بنابراین نشان دهند چقدر درخت با سابقه چینه شناسی سازگار است. [53] استراتوسلاستیکاطلاعات سنی را در ماتریس داده ها برای تجزیه و تحلیل فیلوژنتیک گنجانیده است.

فیلوژنتیک محاسباتی



پرش به ناوبریپرش به جستجو

فیلوژنتیک محاسباتی استفاده از الگوریتم های محاسباتی ، روش ها و برنامه ها برای تجزیه و تحلیل فیلوژنتیک است . هدف این است که یک درخت فیلوژنتیک جمع آوری شود و یک فرضیه را در مورد جدیت تکاملی مجموعه ای از ژن ها ، گونه ها یا گونه های دیگر نشان دهد . به عنوان مثال ، از این تکنیک ها برای کاوش درخت خانواده گونه های هومنید [1] و روابط بین ژن های خاص که توسط بسیاری از ارگانیسم ها مشترک است استفاده شده است. [2] فیلوژنتیک سنتی به داده های مورفولوژیکی به دست آمده با اندازه گیری و اندازه گیری فنوتیپی متکی است.خواص ارگانیسم های نماینده ، در حالی که زمینه جدیدی از فیلوژنتیک مولکولی از توالی نوکلئوتیدی استفاده می کند که ژن ها را رمزگذاری می کند یا توالی اسید آمینه که کد کننده پروتئین ها به عنوان پایه ای برای طبقه بندی است.بسیاری از اشکال فیلوژنتیک مولکولی از نزدیک در ارتباط هستند و از ترازبندی توالی در ساخت و پالایش درختان فیلوژنتیک استفاده می کنند ، که برای طبقه بندی روابط تکاملی بین ژنهای همولوگنمایان شده در ژنوم گونه های واگرا استفاده می شوند. درختان فیلوژنتیک ساخته شده با روش های محاسباتی بعید است که بتوانند درخت تکاملی را به طور کامل تولید کنندکه بیانگر روابط تاریخی بین گونه هایی است که مورد تجزیه و تحلیل قرار می گیرند. همچنین درخت گونه تاریخی ممکن است با درخت تاریخی یک ژن همولوگ فردی که توسط آن گونه ها مشترک است ، متفاوت باشد.

 

فهرست

 

ادامه نوشته