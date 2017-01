Bei einem abendlichen Meetup schon einmal die Diskussion gehabt, welches Wort in Java-Code wohl am häufigsten vorkommt? Diese Frage hat den Entwickler Andrei Kashcha wohl nicht mehr losgelassen. Er analysierte 2 TB an Daten aus rund 3 Millionen GitHub-Repositories, um sie zu beantworten.

Für Java sind die drei meist genutzten Wörter import , return und public . import wird vor allem im in import java.util.List; genutzt. Bei return ist es return false; . Und bei public zählt Kashcha am meisten public String toString() { . Seine Ergebnisse hat er auch in einer Visualisierung zusammengestellt. Mit ein paar Klicks lassen sich damit ein paar überraschende Einsichten in Programmiersprachen finden. Zum Beispiel, dass bei Go err sehr oft vorkommt. Wofür es natürlich einen Grund gibt.

Kashchas Daten stammen aus GitHub-Repositories aus der Zeit von Mitte bis Ende 2016. Insgesamt waren es rund drei Millionen mit einer Gesamtmenge von 2 TB. Ein guter Teil des analysierten Codes waren Lizenzbestimmungen. In Java-Code fand er den meisten Text zu Lizenzen. 127 Wörter von 966 kamen aus Lizenzbestimmungen. Aufgrund der schieren Menge an Lizenztext entschloss sich Kashcha dazu diese Texte herauszufiltern.