So automatisieren Sie Ihre Data-Science-Projektstruktur in 3 einfachen Schritten

Startseite » So automatisieren Sie Ihre Data-Science-Projektstruktur in 3 einfachen Schritten
So automatisieren Sie Ihre Data-Science-Projektstruktur in 3 einfachen Schritten

Waren Sie jemals in einer Situation, in der es schwierig wurde, Ihre eigene Codebasis zu entschlüsseln? Haben Sie oft mehrere Dateien wie z untitled1.py oder untitled2.ipynb? Die meisten von uns mussten mehr als einmal die Hauptlast schlechter Codierungspraktiken tragen. Die Situation ist bei Datenwissenschaftlern noch häufiger, da wir dazu neigen, unseren Fokus auf die Analyse und das Endprodukt zu beschränken, während wir die Qualität des Codes ignorieren, der für die Analyse verantwortlich ist.

So automatisieren Sie Ihre Data-Science-Projektstruktur in 3 einfachen Schritten

  1. Automatisieren Sie die Erstellung von Projektvorlagen mit Cookiecutter Data Science.
  2. Erstellen Sie eine gute README mit readme.so.
  3. Pushen Sie Ihren Code an GitHub.

Warum ist Reproduzierbarkeit ein wesentlicher Bestandteil der Data-Science-Pipeline? Ich habe dieses Thema angesprochen Vor: Ein reproduzierbares Beispiel ermöglicht es jemand anderem, Ihre Analyse mit denselben Daten neu zu erstellen. Dies ist sehr sinnvoll, da Sie Ihre Arbeit öffentlich zur Nutzung durch andere veröffentlichen, aber wir verfehlen den Zweck, wenn andere unsere Arbeit nicht reproduzieren können. Noch wichtiger, als Dr. Rachel Tatman, Leg es:

„Warum sollten Sie sich um Reproduzierbarkeit kümmern? Denn die Person, die Ihre Arbeit am ehesten reproduzieren muss, sind Sie.“

Sehen wir uns in diesem Artikel drei nützliche Tools an, mit denen Sie strukturierte, reproduzierbare Projekte erstellen können. Hier ist ein End-to-End-Video, das die unten verwendeten Tools zeigt.

Automatisieren Sie Ihre Data-Science-Projektstruktur in wenigen Minuten

So erstellen Sie eine gute Projektstruktur

Angenommen, Sie möchten ein Projekt erstellen, das Code enthält, um die Meinungen zu Filmkritiken zu analysieren. Es gibt drei wesentliche Schritte, um eine gute Projektstruktur zu erstellen:

Die Pipeline zum Erstellen einer Projektvorlage | Bild vom Autor

1. Automatisieren Sie die Erstellung von Projektvorlagen mit Cookiecutter Data Science

In der Community besteht kein klarer Konsens über Best Practices für die Organisation von Machine-Learning-Projekten. Infolgedessen gibt es eine Fülle von Auswahlmöglichkeiten, was letztendlich zu viel Verwirrung geführt hat. Glücklicherweise gibt es dank der Leute bei DrivenData eine Problemumgehung. Sie haben ein Tool namens erstellt Cookiecutter-Datenwissenschafteine standardisierte, aber flexible Projektstruktur zum Ausführen und Teilen von Data-Science-Arbeiten. Ein paar Codezeilen richten eine ganze Reihe von Unterverzeichnissen ein und erleichtern das Starten, Strukturieren und Teilen von Analysen. Sie können mehr über das Tool auf ihrer Seite lesen Projekthomepage. Kommen wir zum interessanten Teil und sehen uns Cookiecutter Data Science in Aktion an.

Mehr von Parul Pandey10 Python-Bildbearbeitungstools, die Sie heute ausprobieren können

Installieren Sie Cookiecutter Data Science

pip install cookiecutter
or
conda config --add channels conda-forge
conda install cookiecutter

Starten Sie ein neues Projekt

Gehen Sie zu Ihrem Terminal und führen Sie den folgenden Befehl aus. Es füllt automatisch ein Verzeichnis mit den erforderlichen Dateien.

Auf dem angegebenen Pfad, in diesem speziellen Fall dem Desktop, wird ein Stimmungsanalyse-Projektverzeichnis erstellt.

automatisieren-data-science-projektstruktur
Die Verzeichnisstruktur des neu erstellten Projekts | Bild vom Autor

KlasseHinweis: Cookiecutter Data Science wird in Kürze auf Version zwei umgestellt, sodass es geringfügige Änderungen bei der Verwendung des Befehls geben wird. Dies bedeutet, dass Sie verwenden müssen ccds ... statt cookiecutter ... im obigen Befehl. Gemäß der GitHub-Repositorydiese Version der Vorlage wird weiterhin verfügbar sein, aber man müsste sie explizit verwenden -c v1 es auszuwählen.

Weitere Experten-Tutorials zu Built InHüten Sie sich vor der Dummy-Variablenfalle in Pandas

2. Erstellen Sie eine gute Readme mit readme.so

Nachdem Sie das Skelett des Projekts erstellt haben, müssen Sie es füllen. Aber vorher muss eine wichtige Datei aktualisiert werden – die Liesmich. Eine README ist eine Markdown-Datei, die wesentliche Informationen zu Ihrem Projekt vermittelt. Es sagt anderen, worum es in dem Projekt geht, die Lizenz des Projekts, wie andere zum Projekt beitragen können usw. Ich habe viele Leute gesehen, die enorme Anstrengungen in ihre Projekte gesteckt haben, aber es nicht geschafft haben, anständige README-Dateien zu erstellen. Wenn Sie einer von ihnen sind, gibt es gute Neuigkeiten in Form eines Projekts namens readme.so.

Eine gute Seele hat dem manuellen Schreiben von READMEs ein Ende gesetzt: Katharina Peterson hat kürzlich einen einfachen Editor erstellt, mit dem Sie die README-Datei Ihres Projekts schnell erstellen und anpassen können.

Der Editor ist ziemlich intuitiv. Sie müssen nur auf einen Abschnitt klicken, um den Inhalt zu bearbeiten, und dann wird der Abschnitt zu Ihrer README-Datei hinzugefügt. Wählen Sie aus einer umfangreichen Sammlung diejenigen aus, die Ihnen gefallen. Sie können die Abschnitte auch abhängig von der Position verschieben, an der Sie sie auf der Seite haben möchten. Sobald Sie alles eingerichtet haben, kopieren Sie den Inhalt oder laden Sie die Datei herunter und fügen Sie sie Ihrem bestehenden Projekt hinzu.

Manchmal ist es in Ordnung zu betrügen9 umfassende Data Science Spickzettel

3. Pushen Sie Ihren Code zu GitHub

Wir sind fast fertig. Das Einzige, was übrig bleibt, ist, den Code an GitHub (oder eine andere Versionskontrolle Plattform Ihrer Wahl). Das geht ganz einfach per Git. Hier ist ein praktisches Spickzettel.

Alternativ, wenn Sie verwenden Visual Studio-Code (VS Code), wie ich, müssen Sie nichts tun. VS Code ermöglicht es, jedes Projekt direkt auf GitHub zu veröffentlichen, ohne zuerst ein Repository erstellen zu müssen. VS Code erstellt das Repository für Sie und steuert, ob es öffentlich oder privat sein soll. Das einzige, was von Ihrer Seite erforderlich ist, ist die Authentifizierung für GitHub über VS Code bereitzustellen.


Das ist alles, was Sie brauchen, um eine robuste und strukturierte Projektbasis aufzubauen. Ich habe alle oben genannten Schritte zusammengefasst Dieses Video falls Sie alle Schritte synchron betrachten möchten.

Das Erstellen strukturierter und reproduzierbarer Projekte mag am Anfang schwierig oder langwierig erscheinen, aber sich die Zeit dafür zu nehmen, bietet langfristig viele Vorteile.