Warum Hadoop perfekt zur Genomsequenzierung passt

Autor: Roger Morrison
Erstelldatum: 19 September 2021
Aktualisierungsdatum: 5 Kann 2024
Anonim
Combine Hadoop and Elasticsearch to Get the Most of Your Big Data
Video: Combine Hadoop and Elasticsearch to Get the Most of Your Big Data

Inhalt


Quelle: A3701027 / Dreamstime.com

Wegbringen:

Die Genomsequenzierung benötigt leistungsstarke Technologie-Tools, um alle Daten zu verarbeiten, und Hadoop ist der Aufgabe gewachsen.

Klinische Genomik ist ein faszinierendes Thema, in dem Menschen an den neuesten Technologien arbeiten, um schnelle und genaue Ergebnisse zu erzielen. Es gibt viele Genomsequenzierer auf dem Markt, die Petabytes an Sequenzdaten produzieren, und das Wachstum der Sequenzierung wird in naher Zukunft Exabytes an Daten produzieren. Hier ist Hadoop die perfekte Plattform für die Verarbeitung komplexer Genomics-Workflows. Hadoop kann riesige Informationsmengen speichern und sortieren sowie aussagekräftige Analysen durchführen. (Um eine Vorstellung davon zu bekommen, wie viele Daten dies wirklich beinhaltet, lesen Sie Informationen zu Bits, Bytes und ihren Vielfachen.)

Gegenwart und Zukunft der Genomik

Die Genomkartierung hat heute ihren Höhepunkt erreicht. Viele Menschen, die mit der Genomikbranche in Verbindung stehen, sind neugierig und da sich neue Möglichkeiten bieten, ist bessere Technologie das Gebot der Stunde. Die Genomsequenzierung ist eine sehr repetitive und ressourcenintensive Aufgabe. Alleine im Jahr 2013 wurden etwa 15 Petabyte an Daten erzeugt, und zwar nur von 2.000 Sequenzern. Diese atemberaubende Menge enthielt 300 KB sequenzierter Humangenomdaten. Bei dieser Datenproduktionsrate kann geschätzt werden, dass bis 2018 etwa ein Exabyte an Daten produziert werden wird. Dies ist auf das Wachstum der Sequenzer zurückzuführen, die pro Lauf immer mehr Daten produzieren. Ein weiterer Grund ist das Aufkommen extrem leistungsfähiger und kostengünstiger Genomsequenzierungsmaschinen. Seit 2008 ist der Preis dieser Maschinen stetig gesunken. Dies liegt an leistungsstarken Maschinen der nächsten Generation, die auf den Markt vorgedrungen sind.


Die Bedürfnisse der Genomkartierungsindustrie

Für die Verarbeitung der Daten, die aus dem menschlichen Genom stammen, werden komplexe Algorithmen verwendet. Dann müssen diese Informationen gespeichert werden. Es kann in Zukunft für den Vergleich mit den Originaldaten überprüft werden. Das Verarbeiten und Speichern von 100 GB Daten ist nicht allzu schwierig, besonders wenn Sie dies mit den leistungsstarken Maschinen tun, die in den Sequenzierzentren eingesetzt werden. Studien zeigen, dass diese Datenmenge in nur etwa 1.000 CPU-Stunden verarbeitet werden kann, was sehr einfach ist. Bei diesem technischen Fortschritt ist es offensichtlich, dass die Genomindustrie bald Tausende von Gigabyte in nur wenigen Sekunden verarbeiten wird.

Die Datenverwaltungs- und -speichertechniken entwickeln sich jedoch nicht so schnell, weshalb ein großer Verlust an wertvollen Daten zu erwarten ist. Dies ist wirklich unerwünscht, da dies die Fortschritte in der Humangenomik ernsthaft behindern wird. Daher ist der Bedarf an einer effizienten Datenverwaltungstechnik, die leicht aktualisiert werden kann, sehr hoch. Dies kann besonders in naher Zukunft von Nutzen sein, wenn die Genomkartierung von großen Labors mit leistungsstarken Computern zu kleinen Krankenhäusern und Labors verlagert wird.


Was wird in der Lösung erwartet?

Das Tempo, mit dem neue Genomsequenzierungstechniken entdeckt und entwickelt werden, ist extrem hoch. Dieses Tempo kann für die Medizin von großem Nutzen sein, da es einen wichtigen Schritt zur Ausrottung schwerwiegender Krankheiten darstellt. Dieses Tempo kann jedoch auch sehr herausfordernd sein.

Die Herausforderung besteht in der Verwaltung der großen Datenmengen, die durch die Sequenzierungsprojekte erzeugt werden. Daher ist eine effektive Lösung erforderlich, die bei der Speicherung und Verarbeitung von Big Data hilft. Diese Lösung muss kostengünstig und schnell sein, aber auch anpassungsfähig. Die von dieser Lösung bereitgestellte Analyse muss ebenfalls genau und konstant sein. Was ist die Lösung für das Problem? Zweifellos ist es Hadoop. (Weitere Informationen zur Verwendung von Hadoop finden Sie unter 5 Einblicke in Big Data (Hadoop) als Dienst.)

Warum Hadoop die beste Lösung für die Genomsequenzierung ist

Was die Genombranche braucht, ist eine überlegene Lösung, mit der sie die Daten effektiv verwalten, verarbeiten und für die zukünftige Verwendung speichern können. Diese Lösung scheint perfekt zur Hadoop-Software zu passen. Somit kann Hadoop als die perfekte Big-Data-Management-Software angesehen werden, die die aktuellen Datenspeicherungstechniken der Genomics-Branche erheblich verbessern kann.

Dank der Echtzeitfunktionen von Hadoop können Genomsequenzierer große Datenmengen gleichzeitig in Echtzeit analysieren und speichern. Dies ermöglicht auch die zukünftige Verwendung der Daten. Hadoop kann viele ältere Systeme übertreffen, da es viel schneller und zuverlässiger ist als diese.

Keine Bugs, kein Stress - Ihre schrittweise Anleitung zur Erstellung lebensverändernder Software, ohne Ihr Leben zu zerstören

Sie können Ihre Programmierkenntnisse nicht verbessern, wenn sich niemand um die Softwarequalität kümmert.

Was kann Hadoop sonst noch?

Aufgrund von Hadoop haben sich im Bereich der Genomik und Gensequenzierung eine Vielzahl von Möglichkeiten und Chancen eröffnet. Hadoop bietet parallele Rechenoptionen, wodurch eine schnellere Sequenzierung möglich ist. Mit der MapReduce-Funktion von Hadoop können außerdem sehr einfach eine große Anzahl von Genen zugeordnet werden. Aus diesem Grund wird die Sequenzierung mit Hadoop zu einem echten "Next-Gen" und ist viel unkomplizierter.

Chancen für Hadoop

Hadoop hat mehrere Möglichkeiten in der Genombranche, aber die beste ergab sich aus Lynda Chins Artikel "Aufschluss über genomische Krebsdaten" in der Zeitschrift Genes & Development. In diesem Artikel beschreibt sie, wie die moderne Genomik neue Türen geöffnet hat, und dies hat zu vielen positiven Ergebnissen geführt, wie zum Beispiel der Entdeckung genomischer Informationen über Krebs. Aus diesem Grund sind wir näher dran, die Heilung von Krebs selbst zu entdecken. Dies erfordert jedoch ein wenig mehr Aufmerksamkeit und eine leistungsstarke Datenverwaltungsanwendung für eine bessere Forschungsfähigkeit auf diesem Gebiet. Dies kann für Hadoop die beste Gelegenheit sein, seine Geschwindigkeit, Kraft und Genauigkeit unter Beweis zu stellen.

Crossbow: Die Datenverwaltungsplattform der nächsten Generation

Crossbow, eine Software-Pipeline zur Analyse der Genom-Re-Sequenzierung, ist eine der besten Lösungen. Es war das Ergebnis der Integration eines schnellen Algorithmus zum Ausrichten der sequenzierten Daten in Hadoop, der als Bowtie bezeichnet wird, und eines leistungsstarken Algorithmus zum Vergleichen und Untersuchen der sequenzierten Daten, d. H. Eines Genotyper mit dem Namen SoapSNP. Es basiert auf Apache Hadoop und basiert auf einer Implementierung des MapReduce-Frameworks. Crossbow ist portabel, skalierbar und eignet sich auch als Cloud-Computing-Tool.

Mit dieser leistungsstarken Integration kann ein vollständiges Genom in nur einem Tag auf einem lokalen Cluster mit 10 Knoten untersucht werden. Mit einem 40-Knoten-Cluster ist der Prozess noch schneller und dauert nur drei Stunden. Die Gesamtkosten betragen weniger als 100 US-Dollar. Eine Studie zum Testen der Genauigkeit von Crossbow ergab, dass jedes Genom mit einer Genauigkeit von 99 Prozent verglichen werden kann. Eine weitere hilfreiche Funktion von Crossbow ist, dass es in der Cloud ausgeführt wird. Auf diese Weise wird es Crossbow den Tausenden künftiger Sequenzierungszentren wie Krankenhäusern ermöglichen, große Mengen von Genomdaten zu sequenzieren, ohne leistungsfähige, kostenintensive Computer und Technologien zu benötigen.

Andere Hadoop-basierte Genomics-Software

Viele Unternehmen haben die Kraft von Hadoop bei der Veränderung der Welt der Genomik erkannt. Sie haben Hadoop entsprechend modifiziert, um sein Potenzial für eine fortschrittliche Genomsequenzierung auszuschöpfen. Einige Beispiele für bekannte Hadoop-basierte Genomsequenzierungslösungen sind nachstehend aufgeführt:

  • Hadoop-BAM: Dies ist ein leistungsstarkes Datenverwaltungstool, das die MapReduce-Funktion von Hadoop für verschiedene genomische Aktivitäten wie die Genotypisierung verwendet. Dies funktioniert im binären Ausrichtungs- / Kartenformat.
  • Cloudburst: Diese auf Hadoop basierende Lösung wurde 2009 entwickelt. Sie ist äußerst effizient beim Vergleich von Genomsequenzen und der Kartierung einzelner Gene. Dies ist auch eine der ersten Hadoop-basierten Anwendungen, die für diesen Zweck entwickelt wurden.

Fazit

Die Integration von Big Data und Genomics-Industrie erweist sich in der heutigen Zeit als Segen. Diese Plattformen sind bei der Entdeckung der Behandlung mehrerer Krankheiten wie Krebs wirksam. Die Daten, die durch Genomkartierung gefunden werden, können zur Formulierung einer vorbeugenden Information über solche Krankheiten verwendet werden. Das Aufkommen von Big Data kann als Wendepunkt in der Welt der Genomik angesehen werden, und wenn die Informationen mit Bedacht genutzt werden, dann möglicherweise auch im breiteren Bereich der Gesundheitsversorgung. Der einzige Weg für dieses Feld ist die Verwendung geeigneter Datenverwaltungstools wie Hadoop.