Skip to content

Commit

Permalink
updated to amc_4.24q4LTS
Browse files Browse the repository at this point in the history
  • Loading branch information
Pirker, Hannes committed Jan 13, 2025
1 parent 60c830b commit 84a0a87
Show file tree
Hide file tree
Showing 8 changed files with 50 additions and 35 deletions.
2 changes: 1 addition & 1 deletion content/pages/about-amc.mdx
Original file line number Diff line number Diff line change
Expand Up @@ -2,7 +2,7 @@
title: Das amc!
image: /assets/content/pages/about-amc/image.png
---
Mit aktuell ca. 50 Mio. Artikeln und 12.6 Mrd. Token (9.5 Mrd. *running words*) gehört das Austrian Media Corpus (amc) zu den größten Textkorpora in deutscher Sprache. Was das amc über seine Größe hinaus einzigartig macht, ist die Tatsache, dass darin die Printmedienlandschaft Österreichs der letzten Jahrzehnte nahezu vollständig abgedeckt wird.
Mit aktuell ca. 51 Mio. Artikeln und 12.7 Mrd. Token (9.6 Mrd. *running words*) gehört das Austrian Media Corpus (amc) zu den größten Textkorpora in deutscher Sprache. Was das amc über seine Größe hinaus einzigartig macht, ist die Tatsache, dass darin die Printmedienlandschaft Österreichs der letzten Jahrzehnte nahezu vollständig abgedeckt wird.

Der Inhalt des amc kann mit dem Schlagwort "journalistische Prosa" zusammengefasst werden: er umfasst Komplettausgaben von Zeitungen und Zeitschriften, Agenturmeldungen der Austria Presse Agentur (APA) sowie Transkripte von TV-Produktionen (vorwiegend von Nachrichtensendungen).

Expand Down
58 changes: 29 additions & 29 deletions content/pages/dokumentation/amc-in-zahlen.mdx
Original file line number Diff line number Diff line change
Expand Up @@ -8,57 +8,57 @@ Für eine Beschreibung aller hier genannten Attribute und Strukturen vgl. die [A

Für den Umgang mit Trefferzahlen aus Ihren Recherchen **beachten Sie unbedingt die Hinweise zum Thema** [**Normalisierung**](/normalisierung/).

## aktuellste Version: amc\_4.24q3 (bis incl. 2024 Quartal 3 – also bis 2024-09-30)
## aktuellste Version: amc\_4.24q4LTS (bis incl. 2024 Quartal 4 – also bis 2024-12-31)

### Anzahl der Token, Words, etc.

| | Counts |
| --------- | -------------: |
| Tokens | 12.660.427.393 |
| Wörter | 9.602.488.987 |
| Sätze | 1.052.335.670 |
| Dokumente | 51.114.256 |
## Sizes
| | Counts |
| --| -- |
| Dokumente | 51.424.098 |
| Sätze | 1.059.346.562 |
| Token | 12.746.733.078 |
| Wörter | 9.670.164.441 |


## aktuellste LTS-Version: amc\_4.3 (bis incl. 2023-12)

(in der aktuellen Korpus-Nomenklatur würde man amc\_4.3 als amc\_4.23q4LTS benennen: die Daten reichen bis inklusive Quartal 4 2024, und es ist eine Version mit LTS — d.h. mit *long term support*)
## aktuellste LTS-Version: amc\_4.24q4LTS (bis incl. 2024-12)

### Anzahl der Token, Words, etc.

| | Counts |
| --------- | -------------: |
| Tokens | 12.402.137.100 |
| Words | 9.399.509.602 |
| Sentences | 1.031.383.187 |
| Documents | 50.177.372 |
| | Counts |
| --| -- |
| Dokumente | 51.424.098 |
| Sätze | 1.059.346.562 |
| Token | 12.746.733.078 |
| Wörter | 9.670.164.441 |

### Verteilung der Artikel über die Zeit

Die Verteilung der Artikel über die Zeit ist offensichtlich unregelmäßig. Die anfangs monoton steigende Zahl der Artikel pro Jahr kann durch die "Sammlungslogik" der APA erklärt werden: die Anzahl der in der Datenbank aufgenommenen Medien steigt im Laufe der Jahre sukzessive. In den Anfangsjahren sind nur Artikel der APA selbst vertreten, im Laufe der 1990er Jahre kommen nach und nach neue Medien hinzu.

![](/assets/content/pages/dokumentation/amc-in-zahlen/lsclex_doc.year_.png)
![](/assets/content/pages/dokumentation/amc-in-zahlen/lsclex_doc.year_amc_4.3.png)

### Verteilung der Artikel auf Medientypen

![](/assets/content/pages/dokumentation/amc-in-zahlen/amc_4.3_mediatype.png)
![](/assets/content/pages/dokumentation/amc-in-zahlen/amc_4.24q4LTS_text_type_analysis_mediatype.png)

| doc.mediatype | Artikelanzahl |
| :------------ | ------------: |
| print | 40.577.867 |
| agentur | 8.664.575 |
| tv | 914.899 |
| radio | 20.031 |
| print | 41.598.079 |
| agentur | 8.842.240 |
| tv | 942.854 |
| radio | 40.925 |

### Verteilung der Artikel auf "Regionen"

Nähere Erläuterungen zur Regioneneinteilung finden sich in den [Annotationsdetails](/dokumentation/korpusinhalt-attribute/#doc.region)

![](/assets/content/pages/dokumentation/amc-in-zahlen/amc_4.24q4LTS_text_type_analysis_region.png)

| doc.region | Artikelanzahl |
| :--------- | ------------: |
| agesamt | 26.612.219 |
| amitte | 3.527.856 |
| awest | 4.548.043 |
| aost | 8.823.473 |
| asuedost | 5.035.394 |
| spezifisch | 1.630.387 |
| agesamt | 27.283.812 |
| amitte | 3.614.536 |
| awest | 4.662.762 |
| aost | 9.025.250 |
| asuedost | 5.176.875 |
| spezifisch | 1.660.863 |
22 changes: 18 additions & 4 deletions content/pages/dokumentation/dokumentation-versionsarchiv.mdx
Original file line number Diff line number Diff line change
Expand Up @@ -14,22 +14,23 @@ Die zweite Ziffernfolge markiert die zeitliche und somit quantitative Entwicklun
**Versionsnummern nach dem "neuen System" (seit 2024)**

Seit dem Jahr 2024 wurden die "Update-Zyklen" des amc drastisch verkürzt. Die Textbasis wird nicht mehr bloß 1 x pro Jahr aktualisiert sondern nunmehr 1 x pro Quartal.
Um die Übersichtlichkeit und die Aussagekraft der Versionsnummern zu erhöhen wurde das Benennungsschema verändert: Weiterhin signalisiert die erste Ziffer den Annotationsstand und die zweite Ziffer den "Zeitschnitt". Nur wird jetzt die zeitliche Komponente explizit benannt: es werden Jahr und Quartalsnummer angegeben. Das erste Update nach amc\_4.*3* heißt daher nicht mehr amc\_4.*4*. Da es nun Texte bis inklusive Quartal 1 / 2024 enthält lautet die Bezeichnung nunmehr amc\_4.*24q1*.
Um die Übersichtlichkeit und die Aussagekraft der Versionsnummern zu erhöhen wurde das Benennungsschema verändert: Weiterhin signalisiert die erste Ziffer den Annotationsstand und die zweite Ziffer den "Zeitschnitt". Nur wird jetzt die zeitliche Komponente explizit benannt: es werden Jahr und Quartalsnummer angegeben. Damit ist nun der "Aktualitätsstand" eines Korpus direkt in seinem Namen ablesbar. Das erste Update nach amc\_4.*3* heißt daher nicht mehr amc\_4.*4*. Da es nun Texte bis inklusive 2024 - Quartal 1 enthält lautet die Bezeichnung nunmehr amc\_4.*24q1*.

**Vorhaltung alter Versionen**

Mit den kürzeren Updatezyklen wird es also ab nun 4 neue Versionsschritte pro Jahr geben. Wir können derzeit nicht garantieren, dass wir all diese Versionen mit vergleichsweise geringfügigen Änderungsschritten "ewig" in der NoSke vorhalten. Es ist aber geplant, zumindest einmal jählich eine *long term supported (LTS)* Version bereitzustellen. Für diese wird die Langzeitverfügbarkeit auf Dauer gewährleistet sein. Als LTS sind diejenigen Versionen vorgesehen, die das Quartal 4 – also ein abgeschlossenes Jahr – enthalten, und diese Versionen werden auch mit dem Namenszusatz `LTS` versehen sein.
Mit den kürzeren Updatezyklen wird es also ab nun 4 neue Versionsschritte pro Jahr geben. Wir können derzeit nicht garantieren, dass wir all diese Versionen mit vergleichsweise geringfügigen Änderungsschritten "ewig" in der NoSke vorhalten werden. Es ist aber geplant, zumindest einmal jählich eine *long term supported (LTS)* Version bereitzustellen. Für diese wird die Langzeitverfügbarkeit auf Dauer gewährleistet sein. Als LTS sind diejenigen Versionen vorgesehen, die das Quartal 4 – also ein abgeschlossenes Jahr – enthalten, und diese Versionen werden auch mit dem Namenszusatz `LTS` versehen sein.

Die erste LTS Version nach diesem Namensschema wird also den Namen `amc_4.24q4LTS` erhalten.
Die erste LTS Version nach diesem Namensschema trägt also den Namen `amc_4.24q4LTS`.

Oder umgekehrt: die bisherigen Versionen amc\_4.2 und 4.3 würden nach dem neuen Namensschema die Nummer 4.*22q4LTS* bzw. 4.*23q4LTS* tragen.
Oder umgekehrt: die bisherigen Versionen amc\_4.2 und 4.3 würden nach dem neuen Namensschema die Bezeichnung 4.*22q4LTS* bzw. 4.*23q4LTS* tragen.

## Archiv

Archivierte quantitative Informationen zu **älteren Versionen**

| Version | Periode | Details |
| :------- | :---------------- | :---------------------- |
| amc\_4.24q3 | bis incl. 09/2024 | siehe [unten](#amc24q3) |
| amc\_4.24q2 | bis incl. 06/2024 | siehe [unten](#amc24q2) |
| amc\_4.24q1 | bis incl. 03/2024 | siehe [unten](#amc24q1) |
| amc\_4.3 | bis incl. 12/2023 | siehe [unten](#amc43) |
Expand All @@ -38,6 +39,19 @@ Archivierte quantitative Informationen zu **älteren Versionen**
| amc\_3.2 | bis incl. 12/2020 | siehe [unten](#amc32) |
| amc\_3.1 | bis incl. 12/2018 | siehe [unten](#amc31) |

****
## <span id="amc24q3">amc\_4.24q3</span>
(bis incl. 2024 Quartal 3 – also bis 2024-09-30)

### Anzahl der Token, Words, etc.

| | Counts |
| --------- | -------------: |
| Tokens | 12.660.427.393 |
| Wörter | 9.602.488.987 |
| Sätze | 1.052.335.670 |
| Dokumente | 51.114.256 |

****
## <span id="amc24q2">amc\_4.24q2</span>
(bis incl. 2024 Quartal 2 – also bis 2024-06-31)
Expand Down
3 changes: 2 additions & 1 deletion content/pages/normalisierung.mdx
Original file line number Diff line number Diff line change
Expand Up @@ -41,7 +41,8 @@ Für die tatsächliche Berechnung normalisierter Frequenzwerte steht unten für
Diese Datei enthält die Gesamtanzahl der vorhanden Token für jede Kombination aus `docsrc` (Medienname) `region`, `year` und — seit amc\_4.3/2023 — auch `yymm` (d.h. Monate). Damit sind also die Grundgesamtheiten für alle üblicherweise verwendeten Facettierungen des Korpus verfügbar. Mit diesen Informationen kann die jeweilige Umrechnung der absoluten Trefferzahlen in relative, normalisierte Trefferzahlen z.B. in einem Tabellenkalkulationsprogramm vorgenommen werden.

| Korpus | xlsx zur Normalsierung (Downloadlink) |
| ----------- | ----------------------------------------------------------------------------------------------------------------------------------------------------------------------- |
| ----------- | -----------------------------------------------------------------------------------------------------------------------------------------------------------------------
| amc\_4.24q4LTS | <Download href="/assets/content/pages/normalisierung/freqs_amc_4.24q4LTS_region_province_docsrc_mediatype_year_yymm_for_normalization_2025-01-12.xlsx"> Download</Download> |
| amc\_4.24q3 | <Download href="/assets/content/pages/normalisierung/freqs_amc_4.24q3_region_province_docsrc_mediatype_year_yymm_for_normalization_2024-10-16.xslx">Download</Download> |
| amc\_4.24q2 | <Download href="/assets/content/pages/normalisierung/freqs_amc_4.24q2_region_province_docsrc_mediatype_year_yymm_for_normalization_2024-07-30.xlsx">Download</Download> |
| amc\_4.24q1 | <Download href="/assets/content/pages/normalisierung/freqs_amc_4.24q1_region_province_docsrc_mediatype_year_yymm_for_normalization_2024-04-16.xlsx">Download</Download> |
Expand Down
Loading
Sorry, something went wrong. Reload?
Sorry, we cannot display this file.
Sorry, this file is invalid so it cannot be displayed.
Loading
Sorry, something went wrong. Reload?
Sorry, we cannot display this file.
Sorry, this file is invalid so it cannot be displayed.
Binary file not shown.

0 comments on commit 84a0a87

Please sign in to comment.