یادگیری ماشین در بیوانفورماتیک - ویکی‌پدیا، دانشنامهٔ آزاد

با پیشرفت تکنولوژی و افزایش چشمگیر داده‌های زیستی، علاوه بر ذخیره‌سازی و نگهداری، استخراج اطلاعات سودمند از این حجم از داده نیز چالش بزرگی را برای پژوهشگران به وجود آورده‌است. به این منظور، برای به دست آوردن دانش از داده‌های زیستی از ابزارها و روش‌های یادگیری ماشین استفاده می‌شود.[۱] یادگیری ماشین که زیرشاخه‌ای از علوم رایانه است، دارای کاربردهای بسیاری در بیوانفورماتیک است. بیوانفورماتیک دانشی است که به جنبه‌های ریاضی و محاسباتی زیست‌شناسی برای فهم و پردازش داده‌های زیستی می‌پردازد.[۲]

پیش از ظهور روش‌های یادگیری ماشین در بیوانفورماتیک، الگوریتم‌های بیوانفورماتیک به صورت دست‌نویس و غیرخودکار برنامه‌نویسی می‌شدند، که برای مسائلی مانند پیش‌بینی ساختار پروتئین بسیار دشوار بوده‌است. روش‌هایی در یادگیری ماشین مانند یادگیری عمیق به الگوریتم این اجازه را می‌دهد که از روی ویژگی‌های اولیهٔ دادهٔ ورودی ویژگی‌هایی پیچیده‌تر را برای به‌کارگیری در الگوریتم یادگیری بسازد. این نوع سیستم‌ها با داشتن حجم بزرگی از داده برای یادگیری می‌توانند پیش‌بینی‌های کاملاً پیچیده‌ای را انجام دهند. در سال‌های اخیر حجم داده‌های زیستی به شدت افزایش یافته‌است، که این موضوع استفاده از سیستم‌های گفته شده را برای پژوهشگران بیوانفورماتیک میسر می‌کند.[۲]

یادگیری ماشین در شش شاخه از زیست‌شناسی مورد استفاده قرار می‌گیرد. این شاخه‌ها عبارتند از: ژنومیک، پروتئومیک، ریزآرایه، زیست‌شناسی دستگاه‌ها، تکامل و متن‌کاوی.

زیرشاخه‌هایی از بیوانفورماتیک که در آن‌ها از روش‌های یادگیری ماشین استفاده می‌شود.[۱]

وظایف[ویرایش]

الگوریتم های یادگیری ماشین در بیوانفورماتیک را می توان برای پیش بینی، طبقه بندی و انتخاب ویژگی استفاده کرد. روش های دستیابی به این وظیفه متنوع است و بخش های گسترده ایی را در بر می گیرد. شناخته شده ترین آنها یادگیری ماشین و آمار است. هدف الگوریتم های طبقه‌بندی و پیش‌بینی، ساخت مدل‌هایی است که کلاس‌ها یا مفاهیم را برای پیش‌بینی آینده توصیف و متمایز می‌کنند. تفاوت بین آنها به شرح زیر است:

  • الگوریتم های مربوط به طبقه‌بندی/تشخیص، یک کلاس طبقه‌بندی را خروجی می‌دهند، در حالی که الگوریتم های پیش‌بینی یک ویژگی با ارزش عددی را خروجی می‌دهد.
  • نوع الگوریتم یا فرآیندی که برای ساخت مدل های پیش بینی از داده ها با استفاده از قیاس ها، قوانین، شبکه های عصبی، احتمالات و/یا آمار استفاده می شود.

با توجه به رشد تصاعدی فناوری‌های اطلاعات و مدل‌های کاربردی از جمله هوش مصنوعی و داده‌کاوی، علاوه بر دسترسی به مجموعه‌های داده‌ای جامع‌تر، تکنیک‌های جدید و بهتری برای تجزیه و تحلیل اطلاعات بر اساس توانایی یادگیری آن‌ها ایجاد شده است. چنین مدل هایی امکان دسترسی فراتری را فراهم می کنند.

رویکردهای یادگیری ماشینی[ویرایش]

شبکه های عصبی مصنوعی[ویرایش]

از جمله کاربرد های شبکه های عصبی مصنوعی در بیوانفورماتیک به شرح زیر است: [۳]

  • مقایسه و همسوسازی توالی های RNA، پروتئین و DNA.
  • شناسایی پروموترها و یافتن ژن از توالی های مرتبط با DNA.
  • تفسیر بیان ژن و داده های ریز آرایه.
  • شناسایی شبکه (تنظیمی) ژن ها.
  • یادگیری روابط تکاملی با ساختن درخت فیلوژنتیکی.
  • طبقه بندی و پیش بینی ساختار پروتئین.
  • طراحی مولکولی و داکینگ.

مهندسی ویژگی[ویرایش]

روشی که ویژگی ها، اغلب بردارها در یک فضای چند بعدی، از داده های دامنه استخراج می شوند، جزء مهمی از سیستم های یادگیری است.[۲]

در ژنومیک، یک نمایش مرسوم از یک دنباله، استفاده از بردار فرکانس های ک تایی (k-mer) است، که برداری بعدی است که نهاده های آن تعداد وقوع هر زیر دنباله ای از طول را در یک دنباله معین می شمارند. از آنجایی که حتی برای مقداری به کوچکی ابعاد این بردارها بسیار بزرگ است (به عنوان مثال در این مورد از بعد است)، تکنیک هایی مانند تحلیل مؤلفه‌های اصلی برای تصویر داده ها به فضای ابعاد پایین تر استفاده می شود و به این ترتیب، مجموعه کوچکتری از ویژگی ها از دنباله ها انتخاب می شود. [۲][نیازمند منبع بیشتر]

طبقه بندی[ویرایش]

در طبقه بندی، خروجی مدل یک متغیر گسسته است. یکی از نمونه‌ها آن در بیوانفورماتیک، برچسب‌گذاری داده‌های ژنومی جدید (مانند ژنوم باکتری‌های غیرقابل کشت) بر اساس مدلی از داده‌های از قبل برچسب‌گذاری شده است. [۲]

مدل مارکوف پنهان[ویرایش]

مدل های مارکوف پنهان (HMMs) دسته‌ای از مدل‌های آماری برای داده‌های متوالی (اغلب مربوط به سیستم‌هایی که در طول زمان تکامل می‌یابند). یک HMM از دو شیء ریاضی تشکیل شده است: یک فرآیند وابسته به حالت مشاهده شده و یک فرآیند حالت مشاهده نشده (پنهان) . در یک HMM، فرآیند حالت مستقیماً مشاهده نمی‌شود - این یک متغیر "پنهان" (یا "مخفی") است - اما مشاهدات از یک فرآیند وابسته به حالت (یا فرآیند مشاهده) ساخته می‌شوند که مبتنی بر یک فرآیند حالت زیربنایی است (بنابراین می تواند به عنوان یک اندازه گیری پر سر و صدا از حالت های مورد علاقه سیستم در نظر گرفته شود). [۴] HMM ها را می توان در زمان پیوسته فرموله کرد. .[۵][۶]

HMM ها را می توان برای پروفایل و تبدیل یک هم‌ترازسازی چند توالی به یک سیستم امتیازدهی برای جستجوی پایگاه های داده برای دنباله های همولوگ از راه دور استفاده کرد. [۷] علاوه بر این، پدیده های اکولوژیکی را می توان با HMM ها توصیف کرد. [۸]

شبکه عصبی پیچشی[ویرایش]

شبکه عصبی پیچشی (CNN) کلاسی از شبکه عصبی عمیق است که معماری آن بر اساس وزن‌های مشترک کرنل های کانولوشن یا فیلترهایی است که در امتداد ویژگی‌های ورودی اسلاید می‌شوند و نقشه‌های ویژگی را ارائه می‌دهند. [۹][۱۰] CNN ها از الگوی سلسله مراتبی در داده ها بهره می برند و الگوهای پیچیده را را با استفاده از الگوهای کوچکتر و ساده تری که از طریق فیلترهایشان کشف می شوند، جمع آوری می کنند. بنابراین، آنها در مقیاس اتصال پذیری و پیچیدگی پایین تر هستند. [نیازمند منبع]

جنگل تصادفی[ویرایش]

Some bioinformatic applications[کدام؟] of Random Forest.

جنگل های تصادفی (RF) با ساخت مجموعه ای از درخت های تصمیم عمل طبقه بندی را انجام میدهند و میانگین پیش بینی درختان را به عنوان خروجی اعلام میکنند. [۱۱] این نوع دیگری از تجمع بوت استرپ است (که مجموعه بزرگی از درختان تصمیم را جمع می کند) و می تواند برای طبقه بندی یا رگرسیون استفاده شود. [۱۲][۱۳]

از آنجایی که جنگل‌های تصادفی یک تخمین داخلی از خطای تعمیم را ارائه می‌دهند، ضرورتی به اعتبارسنجی متقابل نیست. علاوه بر این، مجاورت‌هایی تولید می‌کنند که می‌توان از آن‌ها برای انتساب به مقادیر گمشده و تجسم داده‌های جدیداستفاده کرد. [۱۴]

از نظر محاسباتی، جنگل‌های تصادفی جذاب هستند، زیرا به طور طبیعی هم رگرسیون و هم طبقه‌بندی (چند کلاسی) را انجام می‌دهند، برای آموزش و پیش‌بینی نسبتاً سریع هستند، تنها به یک یا دو پارامتر تنظیم بستگی دارند، یک تخمین داخلی از خطای تعمیم دارند، می‌توان از آنها استفاده به طور مستقیم برای مسائل با ابعاد بالا استفاده کرد، و به راحتی می تواند به صورت موازی اجرا شود. از نظر آماری، جنگل‌های تصادفی برای ویژگی‌های اضافی، مانند اندازه‌گیری‌ اهمیت متغیر، وزن‌دهی کلاس‌های دیفرانسیل، انتساب مقدار گمشده، تجسم، تشخیص نقاط دورافتاده، و یادگیری بدون نظارت جذاب هستند. [۱۴]

خوشه بندی[ویرایش]

خوشه‌بندی - تقسیم‌بندی یک مجموعه داده به زیرمجموعه‌های مجزا، به طوری که داده‌های هر زیرمجموعه تا حد امکان به یکدیگر نزدیک و تا حد امکان از داده‌های هر زیرمجموعه دیگری، طبق برخی تابع فاصله یا شباهت تعریف‌شده، دورتر باشند - یک تکنیک رایج برای تجزیه و تحلیل داده های آماری است.

خوشه‌بندی برای بسیاری از تحقیقات بیوانفورماتیک که مبتنی بر داده‌ها هستند مهم میباشد و به عنوان یک روش محاسباتی قدرتمند عمل می‌کند که به موجب آن ابزارهای طبقه‌بندی سلسله مراتبی، مبتنی بر مرکز، مبتنی بر توزیع، مبتنی بر چگالی و طبقه بندی نقشه های خودسازمانده، مدت‌هاست که در یادگیری ماشین‌ کلاسیک مورد مطالعه و استفاده قرار گرفته است. به طور ویژه، خوشه بندی به تجزیه و تحلیل داده های بدون ساختار و با ابعاد بالا در قالب توالی، عبارات، متون، تصاویر و غیره کمک می کند. خوشه بندی همچنین برای به دست آوردن بینش در مورد فرآیندهای بیولوژیکی در سطح ژنومیک استفاده می شود، به عنوان مثال. عملکردهای ژن، فرآیندهای سلولی، زیرشاخه‌های سلولی، تنظیم بیان ژن و فرآیندهای متابولیک. [۱۵]

کاربردها[ویرایش]

ژنومیک[ویرایش]

نمودار رشد نمایی تعداد رشته‌های WGS و GenBank. منحنی آبی مربوط به WGS و منحنی قرمز مربوط به GenBank است. GenBank یک پایگاه داده برای رشته‌های ژنوم است که توسط مرکز ملی اطلاعات زیست‌فناوری (NCBI) منتشر شده‌است.[۱۶]

ژنومیک شامل مطالعهٔ ژنوم موجودات زنده، که رشتهٔ دی‌ان‌ای کامل آن‌ها است، می‌شود. با وجود اینکه داده‌های ژنومیک به دلیل مشکلات فنی در توالی‌یابی یک قطعه از دی‌ان‌ای در طول زمان ناقص بوده‌است، تعداد رشته‌های موجود به صورت نمایی در حال افزایش است. برخلاف افزایش نمایی این نوع از دادهٔ خام، تفسیر زیستی آن با سرعت بسیار کمتری انجام می‌شود. به این دلیل به روش‌های یادگیری ماشین برای تشخیص محل ژن‌هایی که به پروتئین ترجمه می‌شوند، روی آورده می‌شود. این مسئله به مسألهٔ ژن‌یابی معروف است.

علاوه بر مسألهٔ ژن‌یابی، روش‌های یادگیری ماشین در مسألهٔ هم‌ترازسازی چند توالی نیز استفاده می‌شود. در این مسئله، تعداد زیادی رشتهٔ دی‌ان‌ای یا اسید آمینه به منظور یافتن نواحی مشابه هم‌ترازسازی می‌شوند. این نواحی مشابه می‌توانند نشان‌دهندهٔ اطلاعاتی در مورد پیش‌زمینهٔ تکاملی این رشته‌ها باشند.[۲]

پروتئومیک[ویرایش]

دسته‌بندی اسید آمینه‌های یک رشتهٔ پروتئین به سه دستهٔ مارپیچ، صفحه و سیم‌پیچ.

پروتئین‌ها که رشته‌هایی متشکل از اسید آمینه‌ها هستند، بخش بزرگی از کارایی و عملکرد خود را از تاشدگی می‌گیرند که به آن‌ها ساختاری سه‌بعدی می‌دهد. این ساختار شامل ۴ لایه که به آن‌ها ساختار اول تا چهارم گفته می‌شود، می‌شود. ساختار اولیهٔ پروتئین نشان‌دهندهٔ توالی اسید آمینه‌ها است و ساختار دوم آن شامل مارپیچ‌های آلفا و صفحات بتا می‌شود.

از آن‌جایی که ساختارهای سوم و چهارم وابستگی زیادی به ساختار دوم دارند، در زیرشاخهٔ پروتئومیک توجه زیادی به ساختار دوم می‌شود. به دست آوردن ساختار کامل و دقیق پروتئین فرایندی بسیار پیچیده و زمان‌گیر است. پیش از استفاده از روش‌های یادگیری ماشین، پژوهشگران سیستم‌های پیش‌بینی ساختار پروتئین را به صورت دستی پیاده‌سازی می‌کردند. امروزه روش‌های یادگیری ماشین با به دست آوردن خودکار ویژگی‌های داده به دقت ۸۴٪-۸۲ رسیده‌اند. در حال حاضر الگوریتم سرآمد در حوضهٔ پیش‌بینی ساختار دوم از سیستمی به نام DeepCNF استفاده می‌کند که بر اساس مدل شبکهٔ عصبی مصنوعی، به دقت ۸۴٪ در دسته‌بندی اسید آمینه‌های یک رشتهٔ پروتئین به دسته‌های مارپیچ، صفحه و سیم‌پیچ رسیده‌است. از لحاظ تئوری، حداکثر دقت قابل دستیابی در این مسئله برابر ۹۰٪-۸۸ است.

روش‌های یادگیری ماشین در مسئله‌های دیگری مانند پیش‌بینی زنجیر جانبی و مدل کردن خمیدگی‌های پروتئین نیز استفاده می‌شوند.[۲]

ریزآرایه[ویرایش]

نمونه‌ای از ریزآرایه آنالیز شده که در آن بیان ژن‌ها مشخص شده‌اند.

ریزآرایه یکی از انواع آزمایشگاه روی تراشه است که برای جمع‌آوری داده از مواد زیستی با مقدار بالا استفاده می‌شود. یادگیری ماشین می‌تواند در آنالیز این نوع داده کمک کند و در مواردی مانند مشخص کردن الگوهای بیان ژن‌ها، دسته‌بندی و استنتاج از شبکه‌های ژنتیکی مورد استفاده قرار گیرد.

این تکنولوژی به‌طور ویژه برای نظارت بر بیان ژن‌های یک ژنوم به منظور تشخیص انواع مختلف سرطان استفاده می‌شود. یکی از مهمترین مسئله‌ها در این عرصه تشخیص ژن‌هایی است که بیان شده‌اند. حجم بالای داده و وجود داده‌های بی‌ربط، این مسئله را سخت‌تر می‌کند. روش‌های دسته‌بندی در یادگیری ماشین مانند شبکهٔ تابع پایه شعاعی، یادگیری عمیق، دسته‌بندی‌کنندهٔ بیزی، درخت تصمیم و جنگل تصادفی در این مسئله استفاده می‌شوند.[۲]

زیست‌شناسی دستگاه‌ها[ویرایش]

زیست‌شناسی دستگاه‌ها به بررسی رفتارهای شدید فعل و انفعالات پیچیده در بین اجزاء سادهٔ زیستی می‌پردازد. چنین اجزائی می‌توانند شامل مولکول‌هایی مانند دی‌ان‌ای، آران‌ای، پروتئین‌ها و متابولیت‌ها شوند.

یادگیری ماشین در مدل کردن فعل و انفعالات پیچیده در سیستم‌هایی مانند شبکه‌های ژنتیکی، شبکه‌های انتقال سیگنال و مسیرهای متابولیکی به کار می‌آید. مدل‌های گرافیکی احتمالاتی یکی از پرکاربردترین روش‌ها در مدل کردن شبکه‌های ژنتیکی هستند. علاوه بر این از روش بهینه‌سازی زنجیره مارکوف نیز در مسئله‌هایی مانند تشخیص نواحی اتصال فاکتور رونویسی استفاده می‌شود. الگوریتم‌های ژنتیکی که روش‌هایی بر اساس روند طبیعی تکامل هستند در مدل کردن شبکه‌های ژنتیکی و ساختارهای تنظیم‌کننده مورد استفاده قرار می‌گیرند.

کاربردهای دیگر یادگیری ماشین در زیست‌شناسی دستگاه‌ها عبارتند از: پیش‌بینی عملکرد آنزیم‌ها، آنالیز دادهٔ ریزآرایه‌های توان بالا و پیش‌بینی عملکرد پروتئین.[۲]

تکامل[ویرایش]

در علم تکامل، به خصوص در بازسازی درخت تبارزایی نیز از روش‌های یادگیری ماشین استفاده می‌شود. درخت تبارزایی درختی است که نشان‌دهندهٔ روابط تکاملی در میان انواع مختلف گونه‌های زیستی، بر اساس شباهت ژنتیکی آن‌ها است. یک دسته از روش‌های مورد استفاده برای یافتن گونه‌هایی که از لحاط ژنتیکی به یکدیگر نزدیک هستند، روش‌های خوشه‌بندی از جمله k-medoids ،k-means و DBSCAN هستند. در بین این روش‌ها، DBSCAN دقت و سرعت بیشتری در خوشه‌بندی داده‌های ژنتیکی دارد.[۱۷] علاوه بر این روش‌ها، از روش‌های یادگیری عمیق مانند شبکه‌های عصبی پیچشی نیز استفاده می‌شود.[۱۸]

متن‌کاوی[ویرایش]

با افزایش تعداد نشریات زیست‌شناسی جستجو و جمع‌آوری اطلاعات در مورد موضوعی خاص به امری دشوار تبدیل شد. به این امر استخراج دانش گفته می‌شود. جمع‌آوری اطلاعات از تمامی منابع موجود در مورد داده‌های زیستی بسیار مهم است چرا که این اطلاعات در ادامه می‌توانند به تولید دانش زیستی جدید با استفاده الگوریتم‌های یادگیری ماشین کمک کنند. برای استخراج دانش از گزارش‌هایی که به دست انسان تولید شده‌اند، می‌توان از روش‌های پردازش زبان طبیعی استفاده کرد.[۲]

سایر کاربردها[ویرایش]

مثالی از مسألهٔ بخش‌بندی هستهٔ سلول. در این تصویر مرزهای هسته‌ها و ناحیهٔ مربوط به هر هسته مشخص شده‌است.[۱۹]

یکی از زیرشاخه‌هایی که روش‌های یادگیری ماشین در آن نقش مهمی دارند آنالیز تصاویر زیستی است. در این زیرشاخه به طراحی روش‌هایی برای آنالیز محاسباتی تصاویر زیستی پرداخته می‌شود. به صورت مرسوم، آنالیز تصاویر زیستی به دست خود انسان انجام می‌شود. این روش کند و پرهزینه است و نتیجهٔ آن وابسته به شخصی است که تصاویر را آنالیز می‌کند. علاوه بر این، میکروسکوپ‌های خودکار مدرن قادر به تولید صدها تا هزاران تصویر در هر ساعت هستند، که آنالیز دستی این تصاویر را غیرممکن می‌کند. به همین دلیل از روش‌های بینایی ماشین و تشخیص الگو در آنالیز تصاویر زیستی کمک گرفته می‌شود. یکی از بزرگترین زیرمجموعه‌ها از تصاویر زیستی که به آنالیز خودکار نیاز دارد، تصاویر میکروسکوپ‌های فلئورسانس است. برای این گروه از تصاویر، مسئله‌های بخش‌بندی سلول‌ها، دسته‌بندی واکنش‌های فنوتیپی و تصمیمات مربوط به واکنش‌های مشتق از آن، به‌طور معمول مطرح می‌شوند.[۲۰]

از زیرشاخه‌های دیگری که در آن‌ها از روش‌های یادگیری ماشین استفاده می‌شود می‌توان به طراحی پرایمر، آنالیز داده‌های طیف‌سنج جرمی و ترجمهٔ معکوس پروتئین‌ها اشاره کرد.

موضوعات مرتبط[ویرایش]

منابع[ویرایش]

  1. ۱٫۰ ۱٫۱ Larrañaga, Pedro; Calvo, Borja; Santana, Roberto; Bielza, Concha; Galdiano, Josu; Inza, Iñaki; Lozano, José A.; Armañanzas, Rubén; Santafé, Guzmán (2006-03-01). "Machine learning in bioinformatics". Briefings in Bioinformatics (به انگلیسی). 7 (1): 86–112. doi:10.1093/bib/bbk007. ISSN 1467-5463.
  2. ۲٫۰۰ ۲٫۰۱ ۲٫۰۲ ۲٫۰۳ ۲٫۰۴ ۲٫۰۵ ۲٫۰۶ ۲٫۰۷ ۲٫۰۸ ۲٫۰۹ "Machine learning in bioinformatics". Wikipedia (به انگلیسی). 2019-07-10. خطای یادکرد: برچسب <ref> نامعتبر؛ نام «:0» چندین بار با محتوای متفاوت تعریف شده است. (صفحهٔ راهنما را مطالعه کنید.).
  3. Shastry KA, Sanjay HA (2020). "Machine Learning for Bioinformatics". In Srinivasa K, Siddesh G, Manisekhar S (eds.). Statistical Modelling and Machine Learning Principles for Bioinformatics Techniques, Tools, and Applications. Algorithms for Intelligent Systems. Singapore: Springer. pp. 25–39. doi:10.1007/978-981-15-2445-5_3. ISBN 978-981-15-2445-5. S2CID 214350490. Retrieved June 28, 2021.
  4. Rabiner L, Juang B (January 1986). "An introduction to hidden Markov models". IEEE ASSP Magazine. 3 (1): 4–16. doi:10.1109/MASSP.1986.1165342. ISSN 1558-1284. S2CID 11358505.
  5. Jackson CH, Sharples LD, Thompson SG, Duffy SW, Couto E (July 2003). "Multistate Markov models for disease progression with classification error". Journal of the Royal Statistical Society, Series D (The Statistician). 52 (2): 193–209. doi:10.1111/1467-9884.00351.
  6. Amoros R, King R, Toyoda H, Kumada T, Johnson PJ, Bird TG (May 30, 2019). "A continuous-time hidden Markov model for cancer surveillance using serum biomarkers with application to hepatocellular carcinoma". Metron. 77 (2): 67–86. doi:10.1007/s40300-019-00151-8. PMC 6820468. PMID 31708595.
  7. Eddy SR (October 1, 1998). "Profile hidden Markov models". Bioinformatics. 14 (9): 755–63. doi:10.1093/bioinformatics/14.9.755. PMID 9918945.
  8. McClintock BT, Langrock R, Gimenez O, Cam E, Borchers DL, Glennie R, Patterson TA (December 2020). "Uncovering ecological state dynamics with hidden Markov models". Ecology Letters. 23 (12): 1878–1903. arXiv:2002.10497. doi:10.1111/ele.13610. PMC 7702077. PMID 33073921.
  9. Zhang W (1988). "Shift-invariant pattern recognition neural network and its optical architecture". Proceedings of Annual Conference of the Japan Society of Applied Physics.
  10. Zhang W, Itoh K, Tanida J, Ichioka Y (November 1990). "Parallel distributed processing model with local space-invariant interconnections and its optical architecture". Applied Optics. 29 (32): 4790–7. Bibcode:1990ApOpt..29.4790Z. doi:10.1364/AO.29.004790. PMID 20577468.
  11. Ho TK (1995). Random Decision Forests. Proceedings of the 3rd International Conference on Document Analysis and Recognition, Montreal, QC, 14–16 August 1995. pp. 278–282.
  12. Dietterich T (2000). An Experimental Comparison of Three Methodsfor Constructing Ensembles of Decision Trees:Bagging, Boosting, and Randomization. Kluwer Academic Publishers. pp. 139–157.
  13. Breiman L (2001). Random Forest (45 ed.). Machine Learning: Kluwer Academic Publisers. pp. 5–32.
  14. ۱۴٫۰ ۱۴٫۱ Zhang C, Ma Y (2012). Ensemble machine learning: methods and applications. New York: Springer New York Dordrecht Heidelberg London. pp. 157–175. ISBN 978-1-4419-9325-0.
  15. Karim MR, Beyan O, Zappa A, Costa IG, Rebholz-Schuhmann D, Cochez M, Decker S (January 2021). "Deep learning-based clustering approaches for bioinformatics". Briefings in Bioinformatics. 22 (1): 393–415. doi:10.1093/bib/bbz170. PMC 7820885. PMID 32008043.
  16. «GenBank and WGS Statistics». www.ncbi.nlm.nih.gov. دریافت‌شده در ۲۰۱۹-۰۷-۲۳.
  17. Mahapatro, Gayatri; Mishra, Debahuti; Shaw, Kailash; Mishra, Sashikala; Jena, Tanushree (2012). "Phylogenetic Tree Construction for DNA Sequences using Clustering Methods". Procedia Engineering (به انگلیسی). 38: 1362–1366. doi:10.1016/j.proeng.2012.06.169.
  18. Schrider, Daniel R.; Hochuli, Joshua; Suvorov, Anton (2019-06-18). "Accurate inference of tree topologies from multiple sequence alignments using deep learning". bioRxiv (به انگلیسی): 559054. doi:10.1101/559054.
  19. Coelho, Luis Pedro; Shariff, Aabid; Murphy, Robert F. (2009-6). "Nuclear segmentation in microscope cell images: A hand-segmented dataset and comparison of algorithms". (:unav). doi:10.1109/isbi.2009.5193098. PMC 2901896. PMID 20628545. {{cite journal}}: Check date values in: |date= (help)نگهداری یادکرد:فرمت پارامتر PMC (link)
  20. Coelho, Luis Pedro; Glory-Afshar, Estelle; Kangas, Joshua; Quinn, Shannon; Shariff, Aabid; Murphy, Robert F. (2010). Blaschke, Christian; Shatkay, Hagit (eds.). "Principles of Bioimage Informatics: Focus on Machine Learning of Cell Patterns". Linking Literature, Information, and Knowledge for Biology. Lecture Notes in Computer Science (به انگلیسی). Springer Berlin Heidelberg: 8–18. doi:10.1007/978-3-642-13131-8_2. ISBN 978-3-642-13131-8.