How to: Automatisierte Prüfung der Qualität staatlicher Nachrichtenportale
Das Auffinden von Mustern in der Nutzung komplexer und umfassender Informationsprodukte ist zeit- und ressourcenaufwendig. In diesem Blogbeitrag erläutere ich, inwieweit dieser Prozess skaliert und in Teilen automatisiert werden kann. Ziel ist es typische Metriken der Web-Analyse (Aufrufe, Klicks, Lesezeiten, etc.) mit einer quantitativen und qualitativen Analyse der im Web-Frontend ausgewiesen Inhalte ( Textlängen, Text-Qualität, Themen, Stil etc.) kombinieren, um ein ganzheitliches Bild der Qualität von redaktionellen Inhalten auf einem Webportal zu erhalten. Die konsolidierte Sicht auf die Inhalte soll in einem Web-Interface dargestellt werden. Einfache Datenvisualisierungen heben Auffälligkeiten hervor.
Das Ergebnis sollte sein, eine moderne Software-Architektur (Weber and Hußmann 2022) für eine Lösung zur Analyse eines Newsportals einer obersten Bundesbehörde zu erarbeiten und eine vereinfachte Umsetzung dieser Architektur zu implementieren (MVP).
Datenquellen
Die zwei wichtigsten Datenquellen sind die Ergebnisse einer Auswertung der Eigenschaften, die den Inhalten immanent sind, und die Analyse der Nutzung der Inhalte durch Web Analytics-Daten. Ergänzend soll eine Bewertung der Inhalte durch die Referenzierung auf anderen Plattformen möglich sein.
Bei der Klassifizierung der Inhalte greife ich auf Natural Language Unterstanding zur Kategorisierung und auf etablierte Content-Metriken (Lesbarkeit) zur Qualitätsbewertung zurück (Atzmueller 2018). Die Basis dafür stellt das Mining der Web-Präsenz anhand etablierter Praktiken (Barua and Mondal 2019) dar. Da es sich beim Analysegegenstand, um die Webpräsenz einer Bundesbehörde handelt, stellt sich die hier die Frage, inwieweit die Inhalte in Form von Open Data darstellen, die durch das Mining in eine Maschinen-lesbare Form gebracht wurden (Milić, Veljković, and Stoimenov 2012).
Im Bereich Web Analytics folge ich etablierten Ansätzen zur Analyse von News-orientierten Portalen (Sulova 2019). Hier stehen Metriken im Zentrum, die durch einem cookie-less tracking-Ansatz erhoben werden können: Seitenansichten, Scrolltiefe, Verweildauer und Absprungrate.
Perspektivisch sollen aus öffentlich verfügbaren Quellen Daten erhoben (API, Mining) werden, welche die zu analysierenden Inhalte referenzieren. Dies kann beispielsweise die Sichtbarkeit der Inhalte in den Suchmaschinen sein oder auch die Verlinkung der Inhalte in Diskussionen auf Portalen wie Twitter oder Foren (Manga et al. 2022; Nagarajan, Sheth, and Velmurugan 2011; Khanh Duy, Küng, and Huu Hanh 2022; Manga and Marinagi 2021; Riel, Popescu, and Guanlao 2014).
Auswertungsgegenstand
Die Nutzung von Web-Angeboten folgt einem etablierten Schema: Für die Nutzer*innen stellt ein Artikel eine abgeschlossene Informationseinheit dar. Der überwiegende Anteil von Online-Plattformen besitzt diese Struktur: Ein Artikel hat je eine URL. Der Analysegegenstand ist also der Inhalt (englisch “Content”), der auf einer unparametrisierten URL zu finden ist. Ähnlich gelagerte Projekte orientieren sich auch an diesem Analysegegenstand (Miao 2021). Diese Strukturvoraussetzung wird unter anderem auch durch die Optimierung für Suchmaschinen gewährleistet: Die Suchmaschinenalgorithmen strafen Seiten ab, welche die gleichen Inhalte auf mehreren URLs anbieten. Die Einzigartigkeit URL-Inhalts-Paars wird dadurch gewährleistet.
Datenhaltung
Fragen der Datenerhebung und Datenhaltung stellen die Grundlage der Arbeit dar (Borges, Marques, and Bernardino 2013). Da große Datenmengen durch das Web Mining, aber auch durch ein granulares Web Tracking anfallen können, werden Konzepte wie die Nutzung eines Data Warehouses zur Speicherung und Verfügbarmachung der Daten diskutiert (Bhutani, Saha, and Gosain 2023). Da sich die Analysebedarfe ändern können, also noch weitere Datenquellen hinzukommen können, bietet sich auch eine Betrachtung der Datenhaltung als Data Lake an. Da es sich um ein Projekt aus dem Bereich der öffentlichen Hand handelt, werden Technologieauswahl und Architekturvorschlag an den Anforderungen des Sektors orientieren ( Archenaa and Anita 2015).
Darstellung
Die Darstellung der Analyseergebnisse soll sowohl einzelne Redakteur*innen befähigen als auch Personen in Leitungsfunktion eine Entscheidungshilfe geben (Pascual-Cid 2008). Den Anforderungen der Hierarchiestufen wird durch verschiedene Dashboard-Darstellungen entsprochen. Kommunikationsplanerische Rollen wie die der Chefredaktion sind an übergreifenden Trends interessiert. Einzelne Redakteur_innen hingegen wollen Sichten auf die Qualität und Leistungsdaten ihrer Artikel - am besten im Vergleich zu anderen ähnlich gelagerten Inhalts-Elementen erhalten. Natürlich sollen auch weitere komplexe Analysen ermöglicht werden (Mazón et al. 2012). Die Analyse von Lernplattformen und E-Commerce-Portalen mit einem ähnlichen Ansatz zeigte sich gewinnbringend (d’Aquin and Jay 2013; Kiseleva 2013).
Vorhersage
Vorhersageanalysen auf Basis von Machine Learning-Algorithmen stellen eine Ausbaustufe dar. In der Arbeit soll konzeptionell definiert, welche Darstellungsformen und Algorithmen für das Erkennen von Abhängigkeiten und Mustern in den jeweiligen Datensätzen gibt. Durch diese Analyse könnten Inhaltsbedarfe aufgezeigt werden, Texte und Platzierung vor der Veröffentlichung auf ihre Erfolge geprüft werden.
Skalierbarkeit und Übertragbarkeit
Obwohl die Architektur an einer Webpräsenz entwickelt wird, sollte es durch eine Modularisierung möglich sein, weitere Datenquelle hinzuzufügen. Eine Kapselung der Anwendung erlaubt einen Rollout auf verschiedene Plattformen.
Ziele der Arbeit
Die Arbeit erkundet, ob eine redaktionell orientierte Analyse einer Onlineplattform automatisiert werden kann. Daran schließt sich die Frage an, wie die Ergebnisse dieser Auswertung durch Redakteur_innen und Kommunikations-Planer_innen weiter genutzt werden können.
Ein Nebenziel ist die Frage nach der Reduktion des Bedarfs von privaten Daten. Entgegen des sonst üblichen Paradigmas einer möglichst genauen Analyse der Nutzenden auf der Plattform – unter anderem durch die Erstellung von Nutzungsinhalten – steht in der Arbeit der „Inhalt“ der Web-Präsenzen im Zentrum. Darüber hinaus sollen Datenschutzaspekte in der Datenverwaltung diskutiert werden (Kenthapadi, Mironov, and Thakurta 2019).
Weiterhin ermöglicht die Arbeit die Darstellung von ursprünglich unstrukturierten Daten auf den Regierungsplattformen in einer maschinenlesbaren Form. Damit werden diese Informationen für Open-Data-Szenarien nutzbar.
Bibliographie
Aquin, Mathieu d’, and Nicolas Jay. 2013. “Interpreting Data Mining Results with Linked Data for Learning Analytics: Motivation, Case Study and Directions.” In Proceedings of the Third International Conference on Learning Analytics and Knowledge, 155–64. LAK ’13. New York, NY, USA: Association for Computing Machinery. https://doi.org/10.1145/2460296.2460327.
Archenaa, J., and E. A. Mary Anita. 2015. “A Survey of Big Data Analytics in Healthcare and Government.” Procedia Computer Science, Big Data, Cloud and Computing Challenges, 50 (January): 408–13. https://doi.org/10.1016/j.procs.2015.04.021.
Atzmueller, Martin. 2018. “Declarative Aspects in Explicative Data Mining for Computational Sensemaking.” In Declarative Programming and Knowledge Management, edited by Dietmar Seipel, Michael Hanus, and Salvador Abreu, 97–114. Lecture Notes in Computer Science. Cham: Springer International Publishing. https://doi.org/10.1007/978-3-030-00801-7_7.
Barua, Hrishav Bakul, and Kartick Chandra Mondal. 2019. “A Comprehensive Survey on Cloud Data Mining (CDM) Frameworks and Algorithms.” ACM Computing Surveys 52 (5): 104:1–62. https://doi.org/10.1145/3349265.
Bhutani, Priyanka, Anju Saha, and Anjana Gosain. 2023. “A Review of Integration of Data Warehousing and WWW in the Last Decade.” In Proceedings of Third International Conference on Computing, Communications, and Cyber-Security, edited by Pradeep Kumar Singh, Sławomir T. Wierzchoń, Sudeep Tanwar, Joel J. P. C. Rodrigues, and Maria Ganzha, 743–54. Lecture Notes in Networks and Systems. Singapore: Springer Nature. https://doi.org/10.1007/978-981-19-1142-2_58.
Borges, Luís C., Viriato M. Marques, and Jorge Bernardino. 2013. “Comparison of Data Mining Techniques and Tools for Data Classification.” In Proceedings of the International C* Conference on Computer Science and Software Engineering, 113–16. C3s2e ’13. New York, NY, USA: Association for Computing Machinery. https://doi.org/10.1145/2494444.2494451.
Kenthapadi, Krishnaram, Ilya Mironov, and Abhradeep Guha Thakurta. 2019. “Privacy-Preserving Data Mining in Industry.” In Proceedings of the Twelfth ACM International Conference on Web Search and Data Mining, 840–41. WSDM ’19. New York, NY, USA: Association for Computing Machinery. https://doi.org/10.1145/3289600.3291384.
Khanh Duy, Truong, Josef Küng, and Hoang Huu Hanh. 2022. “Survey on IoT Data Analytics with Semantic Approaches.” In The 23rd International Conference on Information Integration and Web Intelligence, 199–204. iiWAS2021. New York, NY, USA: Association for Computing Machinery. https://doi.org/10.1145/3487664.3487785.
Kiseleva, Julia. 2013. “Context Mining and Integration into Predictive Web Analytics.” In Proceedings of the 22nd International Conference on World Wide Web, 383–88. WWW ’13 Companion. New York, NY, USA: Association for Computing Machinery. https://doi.org/10.1145/2487788.2487947.
Manga, Eirini, Nikitas Karanikolas, Catherine Marinagi, and Christos Skourlas. 2022. “Evaluating Citizen Comments in Public Consultations Using Data Mining: Evaluating Citizen Comments in Public Consultations Using Data Mining: Analyzing Legislation Comments for the Greek General Commercial Registry.” In 25th Pan-Hellenic Conference on Informatics, 430–35. PC 2021. New York, NY, USA: Association for Computing Machinery. https://doi.org/10.1145/3503823.3503902.
Manga, Eirini, and Catherine Marinagi. 2021. “Data Mining in Government Social Media.” In 24th Pan-Hellenic Conference on Informatics, 420–23. PCI 2020. New York, NY, USA: Association for Computing Machinery. https://doi.org/10.1145/3437120.3437354.
Mazón, Jose-Norberto, Jose Jacobo Zubcoff, Irene Garrigós, Roberto Espinosa, and Rolando Rodríguez. 2012. “Open Business Intelligence: On the Importance of Data Quality Awareness in User-Friendly Data Mining.” In Proceedings of the 2012 Joint EDBT/ICDT Workshops, 144–47. EDBT-ICDT ’12. New York, NY, USA: Association for Computing Machinery. https://doi.org/10.1145/2320765.2320812.
Miao, Yuxin. 2021. “Big Data Text Mining Techniques in Journalism and Communication.” In, 256–59. Atlantis Press. https://doi.org/10.2991/assehr.k.210519.050.
Milić, Petar, Nataša Veljković, and Leonid Stoimenov. 2012. “Framework for Open Data Mining in e-Government.” In Proceedings of the Fifth Balkan Conference in Informatics, 255–58. BCI ’12. New York, NY, USA: Association for Computing Machinery. https://doi.org/10.1145/2371316.2371369.
Nagarajan, Meena, Amit Sheth, and Selvam Velmurugan. 2011. “Citizen Sensor Data Mining, Social Media Analytics and Development Centric Web Applications.” In Proceedings of the 20th International Conference Companion on World Wide Web, 289–90. WWW ’11. New York, NY, USA: Association for Computing Machinery. https://doi.org/10.1145/1963192.1963315.
Pascual-Cid, Victor. 2008. “An Information Visualisation System for the Understanding of Web Data.” In 2008 IEEE Symposium on Visual Analytics Science and Technology, 183–84. https://doi.org/10.1109/VAST.2008.4677377.
Riel, Arthur J., Denisa Popescu, and Luisita Guanlao. 2014. “Social Data Mining and Knowledge Flows Between Government and Its Citizenry in Crisis and Normal Situations.” In Proceedings of the 4th International Conference on Web Intelligence, Mining and Semantics (Wims14), 1–5. WIMS ’14. New York, NY, USA: Association for Computing Machinery. https://doi.org/10.1145/2611040.2611090.
Sulova, Snezhana. 2019. “Models for Web Applications Data Analysis.” In Proceedings of the 20th International Conference on Computer Systems and Technologies, 246–50. CompSysTech ’19. New York, NY, USA: Association for Computing Machinery. https://doi.org/10.1145/3345252.3345262.
Weber, Thomas, and Heinrich Hußmann. 2022. “Tooling for Developing Data-Driven Applications: Overview and Outlook.” In Proceedings of Mensch Und Computer 2022, 66–77. MuC ’22. New York, NY, USA: Association for Computing Machinery. https://doi.org/10.1145/3543758.3543779.