Inhaltliche Analyse auf Autor:innen-Ebene#

Neben der zeitlichen Überprüfung des Korpus, möchten wir inhaltliche Plausibilitätschecks durchführen. Hierzu möchten wir in einem ersten Schritt prüfen, ob Autor:innen und einzelne Publikationen, die wir anhand der Literatur als relevant einstufen können, in unserem Korpus enthalten sind. Da sich aus der historischen Analyse erkennen lässt, dass bis zu den 1960ern nur vereinzelt Veröffentlichungen im Korpus enthalten sind, ist vor allem bei den frühen Autor:innen zu erwarten, dass einige nicht im Korpus sind.

import pandas as pd
import re

# Korpus einlesen (Datei inkl. unvollständige Einträge)
corpus = pd.read_csv('corpus/corpus_all_entries.csv', low_memory = False)

# Neuen Dataframe anlegen, um Autor:innen zu analysieren
df_neu_auth = corpus[corpus['authors'].notnull()]
# Autor:innen am Semikolon trennen & als neue Spalte in den Korpus einfügen
splittedAuthors = df_neu_auth['authors'].apply(lambda row: row.split(';'))
corpus.insert(0,'splittedAuthors', splittedAuthors)

# Explode Dataframe anlegen
df_exp_auth = corpus.explode('splittedAuthors', ignore_index=True)
df_exp_auth['splittedAuthors'] = df_exp_auth['splittedAuthors'].str.strip() # Leerzeichen entfernen

Relevante Wissenschaftler:innen aus den Ursprungsjahren (1920/1930er)#

Für den ersten historischen Abschnitt des Forschungsfeldes der modernen SNA, also von den Ursprüngen in den 1930ern bis 1940, halten wir die von Freeman (2011, 1f.) beschriebenen drei einflussreichen Wissenschaftler Moreno, Warner und Lewin hierfür geeignet.

Die Suche nach den jeweiligen Autor:innen-Namen ergibt folgendes:

‘Moreno’, bzw. ‘Moreno, JL’: kein Ergebnis
‘Warner’, bzw. ‘Warner, WL’: kein Ergebnis
‘Lewin’, bzw. ‘Lewin, K’: kein Ergebnis

Diese Ergebnisse waren erwartbar, da in der historischen Analyse deutliche Lücken für diese Jahre sichtbar waren. Auch die älteste Publikation in unserem Netzwerk aus 1938 stammt nicht von einem der drei Autoren, sondern ist eine frühe Analyse über die internationalen Netzwerke der deutschen Nationalsozialisten.

# Zur Reproduktion der oben beschriebenen Ergebnisse können die Suchbegriffe in den unten stehenden Code eingesetzt werden. 
df_exp_auth.loc[df_exp_auth['splittedAuthors'].str.contains('Moreno, J') == True]

# Früheste Einträge bis 1960 anzeigen
df_exp_auth.loc[df_exp_auth['publ_year'] <= 1960]

Relevante Wissenschaftler:innen aus den “Dark Ages” (1940-1969)#

Für den darauffolgenden Abschnitt, der die Zeit ab 1940 bis zur Institutionalisierung ab 1970 umfasst, und in dem die verschiedenen Entwicklungslinien parallel zueinander arbeiten - Freeman (2004) nennt diese drei Jahrzehnte die Dark Ages I-III - greifen wir auf eine von Freeman (2011, S. 3) entwickelte Übersicht zurück, die relevante Zentren der SNA und deren anführende Wissenschaftler:innen darstellt.

Abb-1-Relevante%20Forschende%201940-1969.png Abb. 1: Zentren der sozialen Netzwerkforschung und relevante Persönlichkeiten 1940-1969 (Freeman 2011, S. 3)

Außerdem suchen wir nach weiteren relevanten Personen, wie z.B. Barry Wellman, der die INSNA initial gegründet hat, und H. Russell Bernard und Alvin W. Wolfe, die die Sunbelt Conferences initiert haben (Freeman 2004, S. 153).

Die Suche nach den jeweiligen Autor:innen ergibt folgendes:

Für ein Großteil der Autor:innen gibt es überhaupt keine oder keine passenden Treffer. In letzten Fällen wurde durch eine erweiterte externe Recherche untersucht, ob es sich hier um einen verwandten Namen oder um die gesuchte Person handelt.

Folgende Personen konnten im Korpus identifiziert werden:

Linton C. Freeman
Edward O. Laumann
Robert J. Mokken
Barry Wellmann
A. W. Wolfe
H. R. Bernard

Bei der Ausgabe des Publikationsjahres wird deutlich, dass vor allem jüngere Publikationen ab den 1990er-Jahren der Autor:innen im Korpus enthalten sind. Außerdem werden vor allem Autor:innen gefunden, die spät in diesem Zeitabschnitt gewirkt haben, z.B. die unteren drei Autoren, die alle an der Institutionalisierung des Feldes mitgewirkt haben. Kritisch zu betrachten ist, dass z.B. bei Freeman, die von uns genutzten Werke aus 2011 und 2004 nicht enthalten sind. Allerdings zeigt eine Recherche in Web of Science auch, dass die Werke gar nicht in der WoS Core Collection enthalten sind. Hier scheint die Schwäche also nicht im Search String, sondern eher in der Vollständigkeit der WoS Core Collection an sich zu liegen.

auth_check = df_exp_auth.loc[df_exp_auth['splittedAuthors'].str.contains('Freeman, LC') == True]
print(auth_check[['splittedAuthors', 'publ_year']])

# Linton C. Freeman ist im Datensatz mit vier Publikationen vorhanden
# Bei erweiterter Suche sehen wir, dass neuere Publikationen ab 1995 enthalten sind
# Allerdings werden u.a. Artikel, die wir selbst zitieren, z.B. Freeman 2004 oder Freeman 2011, nicht angezeigt.

auth_check = df_exp_auth.loc[df_exp_auth['splittedAuthors'].str.contains('Laumann, EO') == True]
print(auth_check[['splittedAuthors', 'publ_year']])

# Edward Otto Laumann ist im Datensatz vorhanden.
# auch hier wird sichtbar, dass nur neuere Publikationen ab 1997 im Korpus enthalten sind.

auth_check = df_exp_auth.loc[df_exp_auth['splittedAuthors'].str.contains('Mokken') == True]
print(auth_check[['splittedAuthors', 'publ_year']])

# Robert J. Mokken ist im Korpus mit zwei Publikationen enthalten

Initiatoren von relevanten Formen der Institutionalisierung#

auth_check = df_exp_auth.loc[df_exp_auth['splittedAuthors'].str.contains('Wellman, B') == True]
print(auth_check[['splittedAuthors', 'publ_year']])

# Barry Wellman ist mit einigen Publikationen vorhanden, überwiegend ebenfalls nach 2000.

auth_check = df_exp_auth.loc[df_exp_auth['splittedAuthors'].str.contains('Wolfe,') == True]
print(auth_check[['splittedAuthors', 'publ_year']])

# A.W. Wolfe ist vorhanden.

auth_check = df_exp_auth.loc[df_exp_auth['splittedAuthors'].str.contains('Bernard, HR') == True]
print(auth_check[['splittedAuthors','publ_year']])

# H. R. Bernard ist vorhanden.

Relevante Physiker:innen#

Für den folgenden Zeitabschnitt konzentrieren wir uns vor allem auf die neu eingestiegenen Physiker:innen, allen voran Duncan J. Watts, Steven Strogatz, Albert-László Barabási, Réka Albert und Mark Buchanan.

Die Ergebnisse zeigen, dass ein größerer Anteil der gesuchten Personen tatsächlich im Korpus enthalten ist und diesen jeweils auch mehrere Artikel zugeordnet werden können. Bei genauerer Betrachtung lassen Parallelen zu den Ergebnissen der Suchen davor finden: So sind auch hier vor allem Artikel, die jünger als 2000 sind, enthalten.

Zwei der Autoren, Steven Strogatz und Marc Buchanan, sind nicht Teil des Korpus. Beide sind in Web of Science auffindbar. Bei Buchanan sind die auf WoS gelisteten Artikel allerdings sehr neu (hauptsächlich 2021 und 2022) und fast ausschließlich aus dem Journal “Nature Physics”, welches der WoS_Category “Physics, Multidisciplinary” zugeordnet ist. Weder aus der Ausrichtung des Journals noch aus den Titeln der Veröffentlichungen geht hierbei ein Bezug zu (sozialen) Netzwerken hervor. Es ist zu vermuten, dass frühere, für das Feld der SNA relevante Publikationen nicht in der WoS Core Collection enthalten sind. Bei Strogatz sind mehr Artikel aus verschiedenen Jahren in WoS gelistet, allerdings fehlen auch hier relevante Veröffentlichungen wie das Standardwerk in der SNA von Watts & Strogatz zum small world-Phänomen aus 1998. Dies ist besonders kritisch zu betrachten, da dies sogar ein Journal-Artikel in Nature war. Bisher hatten vor allem Bücher in der WoS Core Collection gefehlt.

auth_check = df_exp_auth.loc[df_exp_auth['splittedAuthors'].str.contains('Barabasi') == True]
print(auth_check[['splittedAuthors', 'publ_year']])

# Albert-Laszlo Barabasi ist im Datensatz mit einigen Publikationen enthalten
# Eine Betrachtung der publ_years zeigt, dass alle Publikationen jünger als 2000 sind. Das Einstiegswerk von Barabasi aus 1998 ist also nicht enthalten.

auth_check = df_exp_auth.loc[df_exp_auth['splittedAuthors'].str.contains('Albert, R') == True]
print(auth_check[['splittedAuthors', 'RI', 'publ_year']])

# Reka Albert ist im Datensatz vorhanden

auth_check = df_exp_auth.loc[df_exp_auth['splittedAuthors'].str.contains('Watts, DJ') == True]
print(auth_check[['splittedAuthors', 'publ_year']])

# Duncan J. Watts ist im Datensatz vorhanden

Standardwerke für die (Weiter-)Entwicklung der Disziplin#

In einem nächsten Schritt möchten wir überprüfen, ob einzelne Werke eingehen, die in der Literatur als Standardwerke beschrieben werden, in unserem Korpus enthalten sind:

Stephen D. Berkowitz (1982): “An Introduction to Structural Analysis: The Network Approach to Social Research”
Stephen D. Berkowitz & Barry Wellman (1988): “Social Structures: A Network Approach”
David Knoke und James H. Kuklinski (1982): “Network Analysis”
John Scott (1991): “Social Network Analysis: a Handbook”
Stanley Wassermann & Katherine Faust (1994): “Social network analysis: Methods and Applications”

Zu allen fünf Standardwerken finden wir keine Einträge im Korpus. Für den größten Teil der Autor:innen finden wir allerdings andere Artikel im Korpus, nur Berkowitz und Kuklinski sind überhaupt nicht vertreten. Eine Folge-Recherche auf WoS zeigt, dass all diese Standardwerke nicht in der WoS Core Collection enthalten sind.

# Check, ob das Standardwerk von Stephen D. Berkowitz "An Introduction to Structural Analysis: The Network Approach to Social Research" aus 1982 vorhanden ist.
auth_check = df_exp_auth.loc[df_exp_auth['splittedAuthors'].str.contains('Berkowitz') == True]
print(auth_check[['splittedAuthors', 'title', 'publ_year']])

# ist nicht vorhanden, selbst der Autor an sich ist nicht vorhanden
# demnach wird auch das andere Standardwerk von Berkowitz und Wellmann (1988) nicht vorhanden sein. Bei Wellman haben wir bereits einige Einträge weiter oben im Notebook gefunden)

# Check, ob das Standardwerk von David Knoke und James H. Kuklinski, "Network Analysis" aus 1982 vorhanden ist.
auth_check = df_exp_auth.loc[df_exp_auth['splittedAuthors'].str.contains('Knoke') == True]
print(auth_check[['splittedAuthors', 'RI', 'title', 'publ_year']])

# Nicht vorhanden, aber immerhin sind andere Werke von D. Knoke enthalten.

# Check, ob das Standardwerk von Scott "Social Network Analysis: a Handbook" aus 1991 vorhanden ist.
auth_check = df_exp_auth.loc[df_exp_auth['splittedAuthors'].str.contains('Scott, J') == True]
auth_check.loc[auth_check['title'].str.contains('social network analysis') == True]

# Check, ob das Standardwerk von Stanley Wassermann und Katherine Faust, "Social network analysis: Methods and Applications" aus 1994 vorhanden ist.
auth_check = df_exp_auth.loc[df_exp_auth['splittedAuthors'].str.contains('Wasserman, S')  == True]
print(auth_check[['splittedAuthors', 'title']])

# Nicht vorhanden, aber immerhin sind andere Werke von Wasserman (ebenso wie Faust) enthalten.

# Check, ob das Standardwerk von Stanley Wassermann und Katherine Faust, "Social network analysis: Methods and Applications" aus 1994 vorhanden ist.
auth_check = df_exp_auth.loc[df_exp_auth['title'].str.contains('Social network analysis: Methods and Applications - wasserman', flags=re.IGNORECASE) == True]
print(auth_check[['splittedAuthors', 'RI', 'title', 'publ_year']])

# Wir sehen, dass das Werk an sich nicht vorhanden ist, andere Werke dieses aber in ihrem Titel referenzieren
# Interessanterweise sind die Autor:innen, die das Werk referenzieren, selber einflussreiche Autor:innen, nach denen wir in unseren Plausibilitätschecks gesucht haben (z.B. Scott, Knoke, Wolfe)
# Eine Recherche zeigt, dass diese Werke alle Journal-Beiträge sind, während das fehlende Originalwerk ein Buch ist.

Aus der Analyse der Autor:innen-Ebene wird deutlich, dass unser Korpus einige Lücken zu haben scheint. Vor allem aus den frühen Jahrzehnten fehlen relevante Autor:innen häufig, was im Hinblick auf die zeitliche Analyse zuvor logisch erscheint. Dies bessert sich mit fortschreitender Zeit und exponentiellem Wachstum an Veröffentlichungen - so wird z.B. auch deutlich, dass von relevanten Autor:innen wie z.B. Freeman vor allem spätere Werke vorhanden sind - allerdings bleiben trotzdem Lücken.

Um besser zu verstehen, warum diese klar themenbezogenen Autor:innen und Werke durch unseren Search String nicht erfasst wurden, haben wir einige der Autor:innen und der Werke genauer direkt in Web of Science untersucht. Hierbei hat sich oftmals gezeigt, dass die Werke und Autor:innen an sich nicht in der WoS Core Collection enthalten sind. Dies scheint insbesondere bei (älteren) Büchern der Fall zu sein und könnte daher ein Erklärungsansatz für die fehlenden Standardwerke der sozialen Netzwerkanalyse, die v.a. in den 1980ern und -90ern entstanden sind, sein. Auch das Fehlen früherer Publikationen könnte so, zumindest teilweise, erklärt werden. Das stimmt mit den bereits beschriebenen Angaben von WoS überein, nach denen Bücher erst ab 2005 vollständig abgedeckt (Clarivate Analytics, o.J.c). Zudem zeigen Untersuchungen, dass sozial- und geisteswissenschaftliche Publikationen weniger vollständig in WoS abgedeckt werden als naturwissenschaftliche Veröffentlichungen (Maltseva & Batagelj 2018, S. 6). Weiterhin hat die Recherche direkt in WoS gezeigt, dass bei den fehlenden Artikeln und Büchern oftmals weder ein Abstract noch Author Keywords in WoS angegeben waren, was ein weiterer Erklärungsansatz für die Lücken im Korpus sein könnte. Indem wir in unserem Search String in allen Feldern (“ALL”) nach unseren Schlagwörtern gesucht haben, konnten wir dem etwas entgegenwirken, trotzdem verringert sich so natürlich die Wahrscheinlichkeit, dass relevante Texte, die die SNA nicht im Titel tragen, entdeckt werden.

Für zukünftige Arbeiten könnte der Search String anhand der ausgewählten WoS_Categories verbessert werden. Hier haben wir uns, neben der Suche in allen WoS_Categories über ausgewählte Schlagworte, v.a. auf sozialwissenschaftliche und wissenschaftsphilosophische Kategorien konzentiert. Um naturwissenschaftliche Veröffentlichungen besser einschließen zu können, könnten weitere Kategorien, wie z.B. “Physics, Multidisciplinary” oder “Science & Technology - Other Topics” in denen Veröffentlichungen von Strogatz und Buchanan zu finden waren, in Kombination mit einer Suche nach Schlagwortern wie “network*” und/oder “social” inkludiert werden. Hierbei besteht allerdings die Gefahr, die Suche zu weit zu öffnen und sich so sehr weit von der sozialen Netzwerkanalyse zu entfernen. Außerdem könnten ggfs. passendere Datenbanken ausgewählt werden, die mehr und ältere Bücher umfassen. Außerdem könnten künftige Projekte andere wissenschaftliche Datenbanken nutzen. Während sich WoS vor allem auf Journals, und hier vorallem auf solche mit hohen Impact-Faktoren konzentriert, umfasst Google Scholar z.B. eine größere Spannbreite (Maltseva & Batagelj 2018, S. 6) und enthält auch die von uns gesuchten Standardwerke der SNA die in WoS nicht vorhanden waren.

Aus der Überprüfung des Datensatzes ergibt sich somit ein gemischtes Bild. Vor allem die Lücken in der Zeit bis 1960/1970, die dadurch fehlenden Autor:innen und die fehlenden Werke (hauptsächlich Bücher) stellen Limitationen für unsere Untersuchung dar. Trotzdem lässt sich durch die recht stetige Wachstumskurve unseres Korpus und das Vorhandensein von jüngeren relevanten Autor:innen und Werken annehmen, dass der Datensatz für den Zeitraum ab den 1990ern eine recht valide Grundlage für die weitere Netzwerkanalyse darstellt. Trotzdem muss auch für diese Zeit beachtet werden, dass Web of Science erst später Bücher aufgenommen hat und es dadurch zu Verzerrungen kommen kann. Da uns insbesondere die Zeit seit dem Einstieg der Physiker:innen und die dadurch angestoßenen Entwicklungen in der interdisziplinären Zusammenarbeit interessieren, schätzen wir die Lücke an Veröffentlichungen vor 1990 als hinnehmbar ein.

Analyse der Informationsflüsse und Interdisziplinarität im Feld der Sozialen Netzwerkanalyse (SNA)

Inhaltliche Analyse auf Autor:innen-Ebene

Contents