IM Projekte Web+Privacy+AI WS21/22
Topic outline
-
*** Fortsetzung des Kurses aus dem Sommersemester ***
Dozent: Ben Fabian (Prof. Dr. rer. pol. habil.), benjamin.fabian@th-wildau.de
Forschungsthemen: https://www.researchgate.net/profile/Benjamin_Fabian
-
- Start
- Statuskurzvorträge
- Pläne
- Open Floor Sprechstunden
- 2 Workshops mit Vorträgen der Teams, wo wieder alle Teams (online) zusammenkommen und den Stand präsentieren.
- Je nach Lage, ev. auch einer davon physisch vor Ort an der TH
- Vortragsdauer: ca. 15 Minuten pro Teammitglied (also z.B. 45 min für 3er-Team): Vortrag + Demo bzw. Einblick in Stand "des Codes", Prototyps oder anderer technischer Fortschritte
-
Workshop 1: 25.11.2021 (online, im Kurszeitfenster)
- Ende des Semesters (TBA): Jedes Projekt gibt einen Bericht und ein Poster ab.
-
Deadline: 07.02. 2022 bis Mitternacht, als editierbares Dokument (z.b. Word), per E-Mail
-
-
A: Mail Tracking Prevention
B: Web Browser Fingerprinting (Prevention)
C: Wer sind die Tracker, Landkarten der Tracker -
Grundidee des Themas: Aufdecken und Verhindern von Tracking im Web und bei E-Mails
- Aktueller Stand der E-Mail Protection Software (Ben Hesseldiek, MA@HU Berlin) dokumentiert hier:
- Die ML-Komponente wurde hauptsächlich von Johannes Haupt (in seiner MA@HU Berlin) entwickelt.
- Eine sehr technische Darstellung des Vergleichs wichtiger Algorithmen (muss man jetzt nicht 1:1 nachvollziehen) findet sich hier:
- Preprint frei verfügbar hier: https://arxiv.org/abs/1806.04033
- Im 3. Teil des Papers auch einige Untersuchungen zur „Vorhersagekraft“ (predictive power) bestimmter Features.
- Ein früheres, eher manuell regelbasiertes Vorgehen findet sich in den Vorarbeiten hier:
- Wir hatten sogar ein kurzes Interview mit der Financial Times: https://www.ft.com/content/9df03caa-089a-11e6-a623-b84d06a39ec2
Phase 1:
- Weiterentwicklung und Testen eines vorhandenen Tools gegen E-Mail Tracking.
- Aktueller Stand dokumentiert hier: https://www.researchgate.net/publication/347674985_Enterprise-Grade_Protection_Against_E-Mail_Tracking
- Code von Ben Hesseldiek (HU, M.Sc. Wirtschaftsinformatik) hier archiviert: https://github.com/ben-fabian/enterprise_email_tracking_prevention
- "Verschlankung" der ML-Komponeten?
- Neue Data Sets?
- Mobile Endgeräte / Browser Plugins?
- Professionalisierung für IT-Sicherheit?
- Browser Fingerprinting: Erkennen, Gegenmaßnahmen, Experimente
Phase 2:
- Weiterentwicklung der eigentlichen Tracking-prevention Software aus Phase 1
- Aufsetzen eines zusätzlichen AI & Analytics Layers
- Entwicklung einer (i) zentralen und dann ev. (ii) crowdbasierten Lösung zur Datensammlung über Tracker
-
Eigene neue Datensammlung zu den Trackern (E-Mail bzw. Web)
- Es gibt bereits einige Projekte und Plugins dazu, die man sich zur Inspiration anschauen oder sogar integrieren kann. Beispiel Visualisierungtools wie Mozilla Lightbeam:
- Aufbau eigener Datenbank + Visualisierung zu den Trackern z.B. mit Neo4j
- Aufdecken und Visualieren von Web-/Email-Tracking Netzwerken (ggf. auch mit Social Network Analysis)
- Wie entwickelt sich Tracking über die Zeit (und über viele Datenpunkte)?
- Feedback für andere Projekttteile: Feinabstimmung und Neutrainieren der AI-Modelle zum Identifizieren von Tracking
-
Most of the time you will need to be in a university network or use a VPN to be able to access articles online. But often you will also find free article versions (PDFs) on the Web (e.g., on ResearchGate).
http://scholar.google.com/
https://www.researchgate.net/
http://portal.acm.org/dl.cfm
http://www.sciencedirect.com/
http://www.computer.org/portal/web/search/advanced
http://link.springer.com
http://www.jstor.org
http://www.emeraldinsight.com
http://search.proquest.com/
http://aisel.aisnet.org
https://www.springerprofessional.deConference Proceedings:
IEEE, ACM ...
ICIS: http://aisel.aisnet.org/icis/
AMCIS: http://aisel.aisnet.org/amcis/
ECIS: http://aisel.aisnet.org/ecis/Springer Lecture Notes in Computer Science (LNCS) (via SpringerLink)
Also many different specialized conferences by ACM, IEEE ... (via ACM / IEEE Digital Libraries)
Wirtschaftsinformatik / BISE
http://www.bise-journal.com
https://www.springerprofessional.de/wirtschaftsinformatik/3421682 -
Grundidee: In diesem Projekt soll eine Software entworfen und implementiert werden, die folgendes leistet:
- Phase 1: Eine web-basierte Platform zum Crawling von ausgewählten Literaturdatenbanken (z.B. AIS, ACM, IEEE, Springer, Elsevier; Google Scholar, Researchgate) soll entworfen und implementiert werden.
- Moderne Frameworks aus dem Bereich Data Science & Webentwicklung sollten dafür sondiert werden.
- Cloud-basierter Grundansatz interessant (VM / Container).
- Die Auswahl verwendeter Technologien sollte jeweils nachvollziehbar begründet sein.
- Vorgehensweise kann in Eigenregie des Teams agil erfolgen, solange die groben Anforderungen und Projektphasen berücksichtig werden.
- Diese Plattform sollte modular sein, so dass Änderungen an den Literaturdatenbanken einfach mit kleinen Updates berücksichtigt und neue hinzugefügt werden können.
- Moderne Frameworks aus dem Bereich Data Science & Webentwicklung sollten dafür sondiert werden.
-
-
- Es soll die Möglichkeit geben, Keywords zu Suche vorzugeben.
- Minimum: Titel, Abstract und Name des Journals bzw. Conference sollten in einer Datenbank gespeichert werden können (ggf. NoSQL DBs interessant auszuprobieren!).
- Weiterer Schritt: wo es möglich ist, sollt der Artikel selbst auch heruntergeladen werden können und in der DB gespeichert.
- Dazu ggf. nötig: Passwort / Login Management für die einzelnen Plattformen.
In dieser Phase sollen auch Andock- und Integrationsmöglichkeiten an andere Projekt wie WILBERT oder Literatursuche mit Mendeley, Zotero etc. geprüft werden.
- Ziel ist es aber vor allem, für jede Suche eine eigene Datenbasis aufbauen zu können, auf der Phase 2 aufsetzt.
-
- Phase 2 (teilweise auch parallel zu Phase 1 möglich): Auf Basis der gesammelten Artikel soll eine automatische Kategorisierung und Zusammenfassung von Texten entworfen, implementiert und evaluiert werden.
- Hierzu soll erstmal ein gründlicher Überblick über relevante Untergebiete von Text Mining und frei verfügbare Tools erstellt werden.
- Möglicherweise interessant, sich z.B. diese Kurse anzusehen:
- Udemy --> NLP-Natural language processing with Python
- Udemy --> Hands-on Natural Language Processing with Python
- Udemy --> Project-based Text Mining with Python
-
- Dann sollen diese Tools mit Test-Datasets (gerne manuell zusammengestellt) zunächst ausprobiert und evaluiert werden werden (z.B. automatische vs. manuelle Klassifikation; Qualität der Summaries).
- Dann soll eine mögliche Gesamt-Architektur (Phase 1 + Phase 2) entworfen werden.
- Diese prototypisch umgesetzt und Software aus Phase 2 mit der Software aus Phase 1 integriert werden.
- Weitere Ausbau- und Evaluierungsrunden.
- Phase 1: Eine web-basierte Platform zum Crawling von ausgewählten Literaturdatenbanken (z.B. AIS, ACM, IEEE, Springer, Elsevier; Google Scholar, Researchgate) soll entworfen und implementiert werden.
-
Vorbemerkung: Wenn man ein nicht "hands-on-technisches" Projekt wählt, wird es nicht unbedingt leichter als in den anderen Themen! Wir wollen wissenschaftlich-methodisch sehr sauber arbeiten, was nach Erfahrung auch einen hohen Aufwand erzeugen wird. :-)
Unterthema A: Wie könnte eine technische Lösung aussehen, die einer AI Ethik beibringt?
- Kann man zum Beispiel ein ANN mit "ethischem Input" trainieren, und dann als Kontrollinstanz einsetzen?
- Was sind Voraussetzungen dafür?
- Können (semantische) Ontologien helfen?
- Ziel: Konzeption, Umsetzung, Evaluierung einer ersten Lösung
Unterthema B: Konzeptionieren und Durchführen von empirischen Umfragen zum Thema AI (mit wissenschaftlicher Methodik)
- Fortführung und Weiterentwicklung unserer aktuellen Umfrage zum Thema.
- Bitte alle teilnehmen, die noch nicht dabei waren (mit Geduld bitte) :-)
- Help us prioritize Ethical aspects for AI! Everyone is invited. :)
- Questionnaire (ENG): https://campus.lamapoll.de/2021-28-01-Test/en/
- Umfrage (DE): https://campus.lamapoll.de/2021-28-01-Test/de/
- Weitere Anwendungsfelder, andere Methoden oder Vertiefungen
-
- Acceptance of Predictive Policing via AI
- Acceptance of AI usage in the job hiring process
- Acceptance of Drones & UAVs ...
-
- Variationen beim Hintergrund der Befragten:
- Data Scientist
- Industrie-Praktiker
- International (Cross-Cultural Aspects)
- Unterthema C: Inspiriert von Harvards "Embedded Ethics" - welche ethischen Fragen ergeben sich bei praktischen Data Science Lösungen?
- Gerne auch als Studie mit Praxispartnern
- Relevanz und operative Umsetzung von AI Ethics in der Praxis
- Wie kann man Praktiker systematisch beraten?