banner

Blog

Feb 04, 2024

Was ist Regression beim maschinellen Lernen?

KOHb – Getty Images

Regressionstechniken sind unerlässlich, um Beziehungen innerhalb von Daten aufzudecken und Vorhersagemodelle für eine Vielzahl von Unternehmensanwendungsfällen zu erstellen, von Umsatzprognosen bis hin zu Risikoanalysen. Hier erhalten Sie einen detaillierten Einblick in diese leistungsstarke Technik des maschinellen Lernens.

Regression beim maschinellen Lernen ist eine Technik zur Erfassung der Beziehungen zwischen unabhängigen und abhängigen Variablen mit dem Hauptzweck, ein Ergebnis vorherzusagen. Dabei wird eine Reihe von Algorithmen trainiert, um Muster aufzudecken, die die Verteilung jedes Datenpunkts charakterisieren. Wenn Muster identifiziert sind, kann das Modell dann genaue Vorhersagen für neue Datenpunkte oder Eingabewerte treffen.

Es gibt verschiedene Arten der Regression. Zwei der häufigsten sind die lineare Regression und die logistische Regression. Bei der linearen Regression besteht das Ziel darin, alle Datenpunkte entlang einer klaren Linie anzupassen. Die logistische Regression konzentriert sich auf die Bestimmung, ob jeder Datenpunkt unter oder über der Linie liegen sollte. Dies ist nützlich, um Beobachtungen in verschiedene Kategorien zu sortieren, z. B. Betrug/Nicht-Betrug, Spam/Nicht-Spam oder Katze/Nicht-Katze.

Regression ist ein grundlegendes Konzept in den meisten Statistiken. „Maschinelles Lernen geht noch einen Schritt weiter, indem es Algorithmen verwendet, um diese grundlegenden Beziehungen durch einen automatisierten Prozess zu destillieren“, sagte Harshad Khadilkar, leitender Wissenschaftler bei TCS Research und Gastprofessor am IIT Bombay.

„Regression ist das, was Wissenschaftler und Unternehmen bei der Beantwortung quantitativer Fragen verwenden, insbesondere der Art „wie viele“, „wie viel“, „wann wird“ usw. Beim maschinellen Lernen werden alle Messungen entdeckt, die derzeit nicht verfügbar sind Daten“, erklärte Khadilkar.

Zwei gängige Regressionstechniken beim maschinellen Lernen sind Interpolation und Extrapolation. Bei der Interpolation besteht das Ziel darin, Werte innerhalb der verfügbaren Datenpunkte zu schätzen. Ziel der Extrapolation ist es, auf Basis der bestehenden Regressionsbeziehungen Werte vorherzusagen, die über die Grenzen vorhandener Daten hinausgehen.

„Regression ist ein wesentliches Konzept nicht nur für Experten für maschinelles Lernen, sondern für alle Unternehmensleiter, da es sich um eine grundlegende Technik in der prädiktiven Analyse handelt“, sagte Nick Kramer, Vizepräsident für angewandte Lösungen beim globalen Beratungsunternehmen SSA & Company. Regression wird üblicherweise für viele Arten von Prognosen verwendet; Durch die Aufdeckung der Art der Beziehung zwischen Variablen geben Regressionstechniken Unternehmen Einblick in wichtige Themen wie Kundenabwanderung, Preiselastizität und mehr.

David Stewart, Leiter der Datenwissenschaft bei Legal & General, einem globalen Vermögensverwalter, stellte fest, dass Regressionsmodelle verwendet werden, um Vorhersagen auf der Grundlage bereits bekannter Informationen zu treffen, was sie für verschiedene Branchen von großer Relevanz macht. Beispielsweise könnte eine lineare Regression, die ein numerisches Ergebnis vorhersagt, verwendet werden, um die Größe einer Person anhand von Faktoren wie Alter und Geschlecht zu messen. Im Gegensatz dazu könnte die logistische Regression dabei helfen, die Wahrscheinlichkeit einer Person, ein neues Produkt zu kaufen, vorherzusagen, indem sie ihre früheren Produktkäufe als Indikatoren verwendet.

Die lineare Regression hat eine feste oder konstante Sensitivität gegenüber den Variablen, von denen sie abhängt – sei es die Vorhersage von Aktienkursen, dem Wetter von morgen oder der Einzelhandelsnachfrage. Beispielsweise würde eine zweifache Änderung einer Variablen zu einer bestimmten Abweichung in der Ausgabe führen, sagte Khadilkar. Viele branchenübliche Algorithmen verwenden lineare Regression, beispielsweise die Bedarfsprognose in Zeitreihen.

Im Gegensatz dazu konzentriert sich die logistische Regression auf die Messung der Wahrscheinlichkeit eines Ereignisses auf einer Skala von 0 bis 1 oder 0 % bis 100 %. Die Kernidee dieses Ansatzes besteht darin, eine S-förmige Kurve zu erstellen, die die Wahrscheinlichkeit des Eintretens eines Ereignisses zeigt, wobei das Ereignis – beispielsweise ein Systemausfall oder eine Sicherheitsverletzung – auf einer Seite der Kurve und in der Nähe höchst unwahrscheinlich ist sicher andererseits.

Wie bereits erwähnt, konzentrieren sich lineare Regressionstechniken auf die Anpassung neuer Datenpunkte an eine Linie. Sie sind wertvoll für Predictive Analytics.

Im Gegensatz dazu zielt die logistische Regression darauf ab, die Wahrscheinlichkeit zu bestimmen, dass ein neuer Datenpunkt oberhalb oder unterhalb der Linie, also zu einer bestimmten Klasse, gehört. Logistische Regressionstechniken sind bei Klassifizierungsaufgaben wie den oben genannten hilfreich – um festzustellen, ob eine Transaktion betrügerisch, eine E-Mail Spam oder ein Bild eine Katze ist oder nicht.

Der Hauptunterschied zwischen diesen Ansätzen liegt in ihren Zielen. Die Klassifizierung ist besonders nützlich bei überwachten maschinellen Lernprozessen, um Datenpunkte in verschiedene Klassen zu kategorisieren, die dann zum Trainieren anderer Algorithmen verwendet werden können. Die lineare Regression eignet sich besser für Probleme wie die Identifizierung von Ausreißern gegenüber einer gemeinsamen Basislinie, wie sie bei der Erkennung von Anomalien auftreten, oder für die Vorhersage von Trends.

Der Einsatz künstlicher neuronaler Netze sei einer der wichtigsten und neuesten Ansätze in der Regression, sagte Khadilkar. Diese Ansätze nutzen Deep-Learning-Techniken, um einige der ausgefeiltesten verfügbaren Regressionsmodelle zu erstellen.

„Es erlaubt uns, Größen mit weitaus komplexeren Zusammenhängen als je zuvor zu approximieren“, erklärte er. „Heutzutage übernehmen neuronale Netze nahezu alle Formen von Regressionsanwendungen.“

Von den oben diskutierten Ansätzen sei die lineare Regression am einfachsten anzuwenden und zu verstehen, sagte Khadilkar, aber sie sei manchmal kein gutes Modell der zugrunde liegenden Realität. Nichtlineare Regression – zu der auch logistische Regression und neuronale Netze gehören – bietet mehr Flexibilität bei der Modellierung, allerdings manchmal auf Kosten einer geringeren Erklärbarkeit.

Regressionsmodelle liefern gehorsam eine Antwort, können aber Ungenauigkeiten oder übermäßige Vereinfachungen verbergen, stimmte Kramer zu. Und eine falsche Vorhersage ist oft schlimmer als keine Vorhersage. Es ist wichtig zu verstehen, dass je nach Problem ein Ansatz besser funktionieren kann als andere.

„Es ist bekannt, dass ich die Klingenspitze meines Schweizer Taschenmessers verwende und sie arbeiten lasse, wenn der Schraubenzieher effektiver wäre. Ebenso sehen wir oft, dass Analysten die Art der Regression anwenden, die sie kennen, auch wenn sie nicht die beste ist.“ Lösung", sagte Kramer.

Hier sind fünf Arten der Regression und was sie am besten können.

Kramer bot die folgenden spezifischen Anwendungen der Regression an, die in der Wirtschaft häufig verwendet werden:

Laut Stewart liegt einer der Hauptvorteile von Regressionsmodellen darin, dass sie einfach und leicht zu verstehen sind. Es handelt sich um sehr transparente Modelle, und es ist leicht klar zu erklären, wie das Modell eine Vorhersage trifft.

Ein weiterer Vorteil besteht darin, dass Regressionsmodelle in der Industrie schon seit langem eingesetzt werden und gut verstanden sind. Beispielsweise werden verallgemeinerte lineare Modelle in der Aktuarbranche häufig verwendet und ihre Verwendung ist gut etabliert. „Die Modelle werden von den Regulierungsbehörden gut verstanden, was es einfach macht, fundierte Diskussionen über die Modellimplementierung und die damit verbundenen Risiken, Governance und Aufsicht zu führen“, sagte Stewart.

Ihre Einfachheit sei jedoch auch ihre Einschränkung, sagte er. Regressionsmodelle basieren auf mehreren Annahmen, die in realen Szenarien selten zutreffen, und sie können nur einfache Beziehungen zwischen Prädiktoren und dem vorhergesagten Wert verarbeiten. Daher übertreffen andere Modelle des maschinellen Lernens in der Regel Regressionsmodelle.

Nach Ansicht von Khadilkar bietet die Regression als quantitatives Mess-, Interpolations- und Vorhersageinstrument den größten Wert – und ist darin unglaublich gut. „Seine Eigenschaften sind gut bekannt, und wir verfügen auch über hervorragende Möglichkeiten, unser Vertrauen in unsere Vorhersagen zu quantifizieren“, sagte er. Beispielsweise kann man Börsenkurse mit einem bestimmten Bereich möglicher Variationen um die prognostizierte Menge vorhersagen.

Es gibt jedoch viele Anwendungen, bei denen die Regression nicht gut geeignet ist. „Zum Beispiel ist es weniger nützlich, um Gesichter anhand von Bildern zu erkennen. Außerdem ist es nicht geeignet, wenn man versucht, Daten zur Mustererkennung zu sammeln oder Entscheidungen zu automatisieren“, sagte Khadilkar.

„Der Hauptnachteil der Regression ist möglicherweise die Tatsache, dass sie uns nur eine Vorhersage der interessierenden Menge gibt, ohne einen Vorschlag zu machen, was man mit den Informationen machen soll“, erklärte Khadilkar. „Das muss der Mensch entscheiden.“

Überwachtes vs. unüberwachtes Lernen: Einsatz in der Wirtschaft

Die 12 wichtigsten Anwendungsfälle und Geschäftsanwendungen für maschinelles Lernen

Wahl zwischen einem regelbasierten oder einem maschinellen Lernsystem

AKTIE