JobAd_IE

Classification (Zone Analysis) and Information Extraction From Job Ads

Code for Classification and Information Extraction from job advertisements as part of my Master's Thesis.

1.Classification/Zone-Analysis

Splits JobAds into paragraphs and classifies them into the four classes

company description
job description
applicants profile
formalities

2. Information Extraction

Extract competences from applicants profiles

Die Klassen und weiteren Dateien des Projekts sind in der folgenden Paketstruktur geordnet, welche die jeweilige Funktionalität wiederspiegeln soll:

Sämtliche ausführbaren Klassen liegen als JUnit-Testklassen vor und stellen vollständige Workflows dar.

Mit classifyJobAdsIntoParagraphs kann eine Stellenanzeigen-Datenbank in Paragraphen der oben genannten Klassen klassifiziert werden. Die Ergebnisse werden als Datenbankfiles gespeichert (unter test/resources/classification/output).

SimpleRulebasedExraction verwendet diese als Input zur Kompetenzextraktion und speichert die Ergebnisse ebenfalls als Datenbankfile (test/resources/information_extraction/output).

Mit CreateCompetenceTrainingData, einem interaktiven Workflow zur Annotation von Kompetenzen, kann ein Testkorpus für Evaluationszwecke erstellt werden. (Ein manuell annotiertes Korpus befindet sich bereits im Ordern test/resources/information_extraction/trainingdata)

EvaluateSimpleRulebasedExtraction und EvaluateBootstrapExtraction, führen eine Extraktion mit dem jeweiligen Verfahren durch und evaluieren die Ergebnisse im Anschluss. Ausführliche Evaluationsergebnisse (inklusive aller richtig und falsch extrahieren Entitäten) werden als Text-files gespeichert (test/resources/informationextraction/output/evaluation_files). Bei der Evaluation des Bootstrapping-Ansatzes werden außerdem sämtliche automatisch generierten Patterns hinterlegt (test/resources/information_extraction/output).

Zur Ausführung der JUnit Testklassen müssen folgende Dateien hinzugefügt werden:

In den Ordner information_extraction/data/openNLPmodels: de-sent.bin & de-token.bin (downloadlink: http://opennlp.sourceforge.net/models-1.5/)

In den Ordner information_extraction/data/sentencedata_models: ger-tagger+lemmatizer+morphology+graph-based-3.6+.tgz (downloadlink: https://code.google.com/archive/p/mate-tools/downloads)

1 Bundesinstitut für Berufsbildung

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

README.md

README.md

JobAd_IE

1.Classification/Zone-Analysis

2. Information Extraction

Files

README.md

Latest commit

History

README.md

File metadata and controls

JobAd_IE

1.Classification/Zone-Analysis

2. Information Extraction