Speeches en debat teksten

Alle Tweede Kamer parlementaire debatten van januari-1995 t/m juni-2019 zijn in een data set verzameld. Dat is het werk van:

Rauh, Christian; Schwalbach, Jan, 2020, Zie hier voor de paper en hier voor de data.

De data was verzameld in een R rds file, deze heb ik in een csv file gezet en gezipped. De zip is te groot om in zijn geheel op GitHub te zetten, dus heb ik de command line tool split gebruikt om 24 Mb chuncks te maken: CorpusTweedeKamera ..... CorpusTweedekamerl. Eenmaal van GitHub gehaald kan je deze losse sets weer concatenaten tot 1 zip en inlezen.

De data set bestaat uit ruim 1.1 mln. regels. Elke regel bevat de naam van de partij, de naam van de spreker, de datum en tekst.

Analyze mogelijkheden

Er zijn tal van analyze mogelijkheden op deze data set:

Metadata analyse
Topic modeling see notebook
Word2Vec
Text Classificatie model (Target is politieke partij)
TF Sentence Embedding
Transformers text generation, see here
en nog andere dingen

Metadata analyse

dagelijkse aantallen

De parlement-speech data beslaat een periode van januari 1995 tot en met juni 2019. Onderstaande grafiek geeft het aantal speeches per dag aan.

Het schommelt rond de 500 per dag in de begin jaren waarna het iets oploopt.

top sprekers

De top sprekers worden weergegeven in de volgende grafiek. Het zijn Rutte, Halsema en Pechthold, gevolgd door anderen.....

gemiddeld aantal woorden per partij

Als we kijken naar het gemiddeld aantal woorden van de speeches per partij zien we de 'gelovige' partijen SGP en GPV er boven uitsteken met 211 en 214 woorden gemiddeld.

Topic modeling

LDA

Met 'klassieke' Latent Dirichlet Allocation kan je een eerste inzicht krijgen in de topics die er zijn in de vele kamer speeches. Een LDA met 25 topics is getraind, zie onderstaande figuur.

Diverse onderwerpen komen naar voren zoals:

Onderwijs,
Gevangenissen,
Belastingdienst toeslagen

Zie hier voor interactieve versie

top2vec

Bij top2vec word eerst een doc2vec model getrained, elk document (of elke speech in de Tweede Kamer) wordt een hoog dimensionale embedding, dan worden deze mebdiings met UMAP naar een laag dimensionale embedding geprojecteerd. Om vervolgens "dichte" gebieden (de topics) te vinden met behulp van hierarchische DBSCAN.

Voor elke "dicht" gebied worden de documenten gevonden die centraal staan in deze gebieden, bijbehorende sleutelwoorden kunnen dan bepaald worden uit de documenten die centraal liggen in de dichte geboeden. Zo kan duiding gegeven worden aan een topic. Zie onderstaande figuur.

Zie hier ook een interactieve 2D umapped doc2vec embeddings deze plotly plot

Name		Name	Last commit message	Last commit date
Latest commit History 93 Commits
data		data
docs		docs
images		images
stemtester		stemtester
.gitignore		.gitignore
README.md		README.md
annoy.ipynb		annoy.ipynb
bokeh_test_corr_plot.ipynb		bokeh_test_corr_plot.ipynb
fasttext_test.ipynb		fasttext_test.ipynb
fse_test.ipynb		fse_test.ipynb
topic_party.pck		topic_party.pck
topic_party.xlsx		topic_party.xlsx
topic_plot_data.pck		topic_plot_data.pck
topics_partijen.pbix		topics_partijen.pbix
topics_partijen.pdf		topics_partijen.pdf
topics_partijen.pptx		topics_partijen.pptx
tweede_kamer_TF_chatbot.ipynb		tweede_kamer_TF_chatbot.ipynb
tweede_kamer_TF_chatbot.py		tweede_kamer_TF_chatbot.py
tweede_kamer_TF_sentence_model.ipynb		tweede_kamer_TF_sentence_model.ipynb
tweede_kamer_Topic_Modeling.ipynb		tweede_kamer_Topic_Modeling.ipynb
tweede_kamer_chatterbot.ipynb		tweede_kamer_chatterbot.ipynb
tweede_kamer_metadata_analyse.ipynb		tweede_kamer_metadata_analyse.ipynb
tweede_kamer_sentence_BERT.ipynb		tweede_kamer_sentence_BERT.ipynb
tweede_kamer_transformers.ipynb		tweede_kamer_transformers.ipynb

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

Speeches en debat teksten

Analyze mogelijkheden

Metadata analyse

dagelijkse aantallen

top sprekers

gemiddeld aantal woorden per partij

Topic modeling

LDA

top2vec

About

Releases

Packages

Languages

longhowlam/kamer_debatten

Folders and files

Latest commit

History

Repository files navigation

Speeches en debat teksten

Analyze mogelijkheden

Metadata analyse

dagelijkse aantallen

top sprekers

gemiddeld aantal woorden per partij

Topic modeling

LDA

top2vec

About

Resources

Stars

Watchers

Forks

Releases

Packages 0

Languages

Packages