package org.languagetool.rules.de;

import com.google.common.cache.CacheBuilder;
import com.google.common.cache.CacheLoader;
import com.google.common.cache.LoadingCache;
import com.hankcs.algorithm.AhoCorasickDoubleArrayTrie;
import java.io.IOException;
import java.io.InputStream;
import java.util.ArrayList;
import java.util.Arrays;
import java.util.Collections;
import java.util.HashMap;
import java.util.HashSet;
import java.util.Iterator;
import java.util.LinkedList;
import java.util.List;
import java.util.Map;
import java.util.Objects;
import java.util.ResourceBundle;
import java.util.Set;
import java.util.TreeMap;
import java.util.concurrent.TimeUnit;
import java.util.regex.Pattern;
import org.jetbrains.annotations.NotNull;
import org.jetbrains.annotations.Nullable;
import org.languagetool.AnalyzedSentence;
import org.languagetool.AnalyzedTokenReadings;
import org.languagetool.JLanguageTool;
import org.languagetool.Language;
import org.languagetool.LinguServices;
import org.languagetool.UserConfig;
import org.languagetool.language.GermanyGerman;
import org.languagetool.languagemodel.BaseLanguageModel;
import org.languagetool.languagemodel.LanguageModel;
import org.languagetool.rules.Categories;
import org.languagetool.rules.ConfusionPair;
import org.languagetool.rules.ConfusionSetLoader;
import org.languagetool.rules.ConfusionString;
import org.languagetool.rules.Example;
import org.languagetool.rules.Rule;
import org.languagetool.rules.RuleMatch;
import org.languagetool.rules.SpecificIdRule;
import org.languagetool.tools.StringTools;

/* loaded from: input_file:org/languagetool/rules/de/ProhibitedCompoundRule.class */
public class ProhibitedCompoundRule extends Rule {
    public static final String RULE_ID = "DE_PROHIBITED_COMPOUNDS";
    private static LinguServices linguServices;
    protected AhoCorasickDoubleArrayTrie<String> ahoCorasickDoubleArrayTrie;
    protected Map<String, List<Pair>> pairMap;
    private static final AhoCorasickDoubleArrayTrie<String> prohibitedCompoundRuleSearcher;
    private static final Map<String, List<Pair>> prohibitedCompoundRulePairMap;
    private final BaseLanguageModel lm;
    private final Language language;
    private Pair confusionPair;
    private static final List<Pair> lowercasePairs = Arrays.asList(new Pair("schaf", "Tier", "schaft", "'-schaft' (Element zur Wortbildung, z. B. 'Freundschaft')"), new Pair("schafen", "Dativ Plural von 'Schaf'", "schaften", "'-schaften' (Element zur Wortbildung, z. B. 'Freundschaften')"), new Pair("alpen", "Hochgebirge in Mittel- und Südeuropa", "alben", "Plural von 'Album'"), new Pair("pillen", "Tabletten", "pullen", "Plural von 'Pulle' (Flasche)"), new Pair("tauben", "Vogelart", "trauben", "Obstsorte"), new Pair("panel", "ausgewählte Personengruppe", "paneel", "Platte für Wand- und Deckenverkleidungen"), new Pair("nabe", "Mittelteil eines Rades", "narbe", "verheilende Wunde"), new Pair("first", "höchste Kante an einem geneigten Dach", "frist", "spätester Zeitpunkt"), new Pair("koma", "Zustand tiefer Bewusstlosigkeit", "komma", "Satzzeichen"), new Pair("korn", "Getreide sowie dessen Frucht", "kron", "Vorsilbe z.B. in 'Kronkorken'"), new Pair("bauten", "Form von 'Bau' (Bauwerk, Haus, ...)", "beuten", "Form von 'Beute'"), new Pair("file", "engl. 'Datei'", "filet", "ein Stück Fleisch oder Fisch"), new Pair("zecke", "blutsaugender Parasit", "zwecke", "Dativ von 'Zweck' (Ziel)"), new Pair("frucht", "Teil einer Pflanze; Obst", "furcht", "Angst"), new Pair("rate", "Verhältnis zwischen zwei Größen", "ratte", "Nagetier"), new Pair("posten", "Arbeitsplatz, Wachposten", "posen", "Pose: betonte Körperhaltung"), new Pair("himmel", "Bereich über der Erde", "hummel", "Insekt"), new Pair("server", "Computer", "servier", "zu 'servieren'"), new Pair("ziege", "Tier", "ziegel", "Ziegelstein"), new Pair("robe", "Kleidungsstück", "probe", "Test, Kontrolle"), new Pair("mode", "Kleidung", "monde", "Begleiter eines Planeten"), new Pair("eigen", "'selbst', z.B. 'Eigenzitat'", "eingen", "Möglicher Tippfehler"), new Pair("stümpfe", "Rest eines Körpergliedes", "strümpfe", "Bekleidungsstück für den Fuß"), new Pair("gelände", "Gebiet", "geländer", "Konstruktion zum Festhalten entlang von Treppen"), new Pair("tropen", "feuchtwarme Gebiete am Äquator", "tropfen", "kleine Menge Flüssigkeit"), new Pair("enge", "Mangel an Platz", "menge", "Anzahl an Einheiten"), new Pair("ritt", "Reiten", "tritt", "Aufsetzen eines Fußes"), new Pair("beine", "Körperteil", "biene", "Insekt"), new Pair("rebe", "Weinrebe", "reibe", "Küchenreibe"), new Pair("ass", "Spielkarte", "pass", "Reisepass; Übergang durch ein Gebirge"), new Pair("türmer", "Turmwächter", "türme", "Plural von 'Turm' (Bauwerk)"), new Pair("soge", "ziehende Strömungen", "sorge", "bedrückendes Gefühl"), new Pair("panne", "technischer Defekt", "spanne", "Zeitraum"), new Pair("elfer", "Elfmeter", "helfer", "Person, die hilft"), new Pair("gase", "Plural von 'Gas' (Aggregatzustand)", "gasse", "kleine Straße"), new Pair("ekel", "Abscheu", "enkel", "Kind eines eigenen Kindes"), new Pair("reis", "Nahrungsmittel", "reise", "Ausflug/Fahrt"), new Pair("hüte", "Kopfbedeckungen", "häute", "Plural von 'Haut'"), new Pair("werbereich", null, "erbereich", null), new Pair("lage", "Position", "alge", "im Wasser lebende Organismen"), new Pair("sphäre", "Kugel", "spähreh", null), new Pair("schenke", "Gastwirtschaft (auch: Schänke)", "schenkel", "Ober- und Unterschenkel"), new Pair("mai", "Monat nach April", "mail", "E-Mail"), new Pair("pump", "'auf Pump': umgangssprachlich für 'auf Kredit'", "pumpe", "Gerät zur Beförderung von Flüssigkeiten"), new Pair("mitte", "zentral", "mittel", "Methode, um etwas zu erreichen"), new Pair("fein", "feinkörnig, genau, gut", "feind", "Gegner"), new Pair("traum", "Erleben während des Schlafes", "trauma", "Verletzung"), new Pair("name", "Bezeichnung (z.B. 'Vorname')", "nahme", "zu 'nehmen' (z.B. 'Teilnahme')"), new Pair("bart", "Haarbewuchs im Gesicht", "dart", "Wurfpfeil"), new Pair("hart", "fest", "dart", "Wurfpfeil"), new Pair("speiche", "Verbindung zwischen Nabe und Felge beim Rad", "speicher", "Lagerraum"), new Pair("kart", "Gokart (Fahrzeug)", "karte", "Fahrkarte, Postkarte, Landkarte, ..."), new Pair("karts", "Kart = Gokart (Fahrzeug)", "karte", "Fahrkarte, Postkarte, Landkarte, ..."), new Pair("kiefer", "knöcherner Teil des Schädels", "kiefern", "Kieferngewächse (Baum)"), new Pair("gel", "dickflüssige Masse", "geld", "Zahlungsmittel"), new Pair("kamp", "Flurname für ein Stück Land", "kampf", "Auseinandersetzung"), new Pair("läuse", "Insekt", "läufe", "Bewegungsart"), new Pair("läusen", "Insekt", "läufen", "Bewegungsart"), new Pair("ruck", "plötzliche Bewegung", "druck", "Belastung"), new Pair("brüste", "Plural von Brust", "bürste", "Gerät mit Borsten, z.B. zum Reinigen"), new Pair("attraktion", "Sehenswürdigkeit", "akttaktion", "vermutlicher Tippfehler"), new Pair("turn", "zu 'turnen'", "turm", "hohes Bauwerk"), new Pair("mit", "Präposition", "miet", "zu 'Miete' (Überlassung gegen Bezahlung)"), new Pair("bart", "Behaarung im Gesicht", "brat", "zu 'braten', z.B. 'Bratkartoffel'"), new Pair("uhr", "Instrument zur Zeitmessung", "ur", "ursprünglich"), new Pair("abschluss", "Ende", "abschuss", "Vorgang des Abschießens, z.B. mit einer Waffe"), new Pair("brache", "verlassenes Grundstück", "branche", "Wirtschaftszweig"), new Pair("wieder", "erneut, wiederholt, nochmal (Wiederholung, Wiedervorlage, ...)", "wider", "gegen, entgegen (Widerwille, Widerstand, Widerspruch, ...)"), new Pair("leer", "ohne Inhalt", "lehr", "bezogen auf Ausbildung und Wissen"), new Pair("gewerbe", "wirtschaftliche Tätigkeit", "gewebe", "gewebter Stoff; Verbund ähnlicher Zellen"), new Pair("klima", "langfristige Wetterzustände", "lima", "Hauptstadt von Peru"), new Pair("modell", "vereinfachtes Abbild der Wirklichkeit", "model", "Fotomodell"), new Pair("häufigkeit", "Anzahl von Ereignissen", "häutigkeit", "z.B. in Dunkelhäutigkeit"), new Pair("hin", "in Richtung", "hirn", "Gehirn, Denkapparat"), new Pair("verklärung", "Beschönigung, Darstellung in einem besseren Licht", "erklärung", "Darstellung, Erläuterung"), new Pair("punk", "Jugendkultur", "punkt", "Satzzeichen"), new Pair("haft", "Freiheitsentzug", "schaft", "-schaft (Element zur Wortbildung)"), new Pair("stande", "zu 'Stand'", "stange", "länglicher Gegenstand"));
    private static final Pattern HERRN_FRAU = Pattern.compile("Herrn?|Frau|Dr|Prof|Mag|Hr|Fr|Mr|Mrs|Ms|Fräulein");
    private static final List<String> ignoreWords = Arrays.asList("Die", "De");
    private static final List<String> blacklistRegex = Arrays.asList("Lande(basis|basen|region|gebiets?|gebieten?|regionen|betriebs?|betrieben?|offizieren?|bereichs?|bereichen?|einrichtung|einrichtungen|massen?|plans?|versuchs?|versuchen?)", "Model(vertrags?|verträgen?|erfahrung|erfahrungen|szene|welt)", "(Raum|Surf|Jazz|Herbst|Gymnastik|Normal)schuhen?", "preis", "reisähnlich(e|e[nmrs])?", "neugestartet(e|e[nmrs])?", "reisender", "[a-zöäüß]+sender", "gra(ph|f)ische?", "gra(ph|f)ische[rsnm]", "gra(ph|f)s?$", "gra(ph|f)en", "gra(ph|f)in", "gra(ph|f)ik", "gra(ph|f)ie", "Gra(ph|f)its?", ".+gra(ph|f)its?");
    private static final LoadingCache<String, Set<String>> cache = CacheBuilder.newBuilder().expireAfterAccess(30, TimeUnit.MINUTES).build(new CacheLoader<String, Set<String>>() { // from class: org.languagetool.rules.de.ProhibitedCompoundRule.1
        @NotNull
        public Set<String> load(@NotNull String str) {
            HashSet hashSet = new HashSet();
            for (String str2 : JLanguageTool.getDataBroker().getFromResourceDirAsLines(str)) {
                if (!str2.startsWith("#")) {
                    hashSet.add(str2.replaceFirst("#.*", "").trim());
                }
            }
            return hashSet;
        }
    });

    /* loaded from: input_file:org/languagetool/rules/de/ProhibitedCompoundRule$Pair.class */
    public static class Pair {
        private final String part1;
        private final String part1Desc;
        private final String part2;
        private final String part2Desc;

        public Pair(String str, String str2, String str3, String str4) {
            this.part1 = str;
            this.part1Desc = str2;
            this.part2 = str3;
            this.part2Desc = str4;
        }

        public String toString() {
            return this.part1 + "/" + this.part2;
        }
    }

    /* JADX INFO: Access modifiers changed from: package-private */
    /* loaded from: input_file:org/languagetool/rules/de/ProhibitedCompoundRule$WeightedRuleMatch.class */
    public static class WeightedRuleMatch implements Comparable<WeightedRuleMatch> {
        long weight;
        RuleMatch match;

        WeightedRuleMatch(long j, RuleMatch ruleMatch) {
            this.weight = j;
            this.match = ruleMatch;
        }

        @Override // java.lang.Comparable
        public int compareTo(@NotNull WeightedRuleMatch weightedRuleMatch) {
            return Long.compare(weightedRuleMatch.weight, this.weight);
        }
    }

    private static void addAllCaseVariants(List<Pair> list, Pair pair) {
        list.add(new Pair(pair.part1, pair.part1Desc, pair.part2, pair.part2Desc));
        String uppercaseFirstChar = StringTools.uppercaseFirstChar(pair.part1);
        String uppercaseFirstChar2 = StringTools.uppercaseFirstChar(pair.part2);
        if (pair.part1.equals(uppercaseFirstChar) && pair.part2.equals(uppercaseFirstChar2)) {
            return;
        }
        list.add(new Pair(uppercaseFirstChar, pair.part1Desc, uppercaseFirstChar2, pair.part2Desc));
    }

    private static void addUpperCaseVariants(List<Pair> list) {
        for (Pair pair : lowercasePairs) {
            if (StringTools.startsWithUppercase(pair.part1)) {
                throw new IllegalArgumentException("Use all-lowercase word in " + ProhibitedCompoundRule.class + ": " + pair.part1);
            }
            if (StringTools.startsWithUppercase(pair.part2)) {
                throw new IllegalArgumentException("Use all-lowercase word in " + ProhibitedCompoundRule.class + ": " + pair.part2);
            }
            addAllCaseVariants(list, pair);
        }
    }

    protected static void addItemsFromConfusionSets(List<Pair> list, String str, boolean z) {
        try {
            InputStream fromResourceDirAsStream = JLanguageTool.getDataBroker().getFromResourceDirAsStream(str);
            Throwable th = null;
            try {
                try {
                    Iterator it = new ConfusionSetLoader(GermanyGerman.INSTANCE).loadConfusionPairs(fromResourceDirAsStream).entrySet().iterator();
                    while (it.hasNext()) {
                        for (ConfusionPair confusionPair : (List) ((Map.Entry) it.next()).getValue()) {
                            if (confusionPair.getTerms().stream().allMatch(confusionString -> {
                                return StringTools.startsWithUppercase(confusionString.getString()) && !ignoreWords.contains(confusionString.getString());
                            }) || !z) {
                                List terms = confusionPair.getTerms();
                                if (terms.size() != 2) {
                                    throw new RuntimeException("Got confusion set with != 2 items: " + terms);
                                }
                                Iterator it2 = terms.iterator();
                                ConfusionString confusionString2 = (ConfusionString) it2.next();
                                ConfusionString confusionString3 = (ConfusionString) it2.next();
                                list.add(new Pair(confusionString2.getString(), confusionString2.getDescription(), confusionString3.getString(), confusionString3.getDescription()));
                                if (z) {
                                    list.add(new Pair(StringTools.lowercaseFirstChar(confusionString2.getString()), confusionString2.getDescription(), StringTools.lowercaseFirstChar(confusionString3.getString()), confusionString3.getDescription()));
                                } else {
                                    list.add(new Pair(StringTools.uppercaseFirstChar(confusionString2.getString()), confusionString2.getDescription(), StringTools.uppercaseFirstChar(confusionString3.getString()), confusionString3.getDescription()));
                                }
                            }
                        }
                    }
                    if (fromResourceDirAsStream != null) {
                        if (0 != 0) {
                            try {
                                fromResourceDirAsStream.close();
                            } catch (Throwable th2) {
                                th.addSuppressed(th2);
                            }
                        } else {
                            fromResourceDirAsStream.close();
                        }
                    }
                } finally {
                }
            } finally {
            }
        } catch (IOException e) {
            throw new RuntimeException(e);
        }
    }

    protected static AhoCorasickDoubleArrayTrie<String> setupAhoCorasickSearch(List<Pair> list, Map<String, List<Pair>> map) {
        TreeMap treeMap = new TreeMap();
        for (Pair pair : list) {
            treeMap.put(pair.part1, pair.part1);
            treeMap.put(pair.part2, pair.part2);
            map.putIfAbsent(pair.part1, new LinkedList());
            map.putIfAbsent(pair.part2, new LinkedList());
            map.get(pair.part1).add(pair);
            map.get(pair.part2).add(pair);
        }
        AhoCorasickDoubleArrayTrie<String> ahoCorasickDoubleArrayTrie = new AhoCorasickDoubleArrayTrie<>();
        ahoCorasickDoubleArrayTrie.build(treeMap);
        return ahoCorasickDoubleArrayTrie;
    }

    public ProhibitedCompoundRule(ResourceBundle resourceBundle, LanguageModel languageModel, UserConfig userConfig, Language language) {
        super(resourceBundle);
        this.confusionPair = null;
        this.lm = (BaseLanguageModel) Objects.requireNonNull(languageModel);
        super.setCategory(Categories.TYPOS.getCategory(resourceBundle));
        this.ahoCorasickDoubleArrayTrie = prohibitedCompoundRuleSearcher;
        this.pairMap = prohibitedCompoundRulePairMap;
        this.language = language;
        linguServices = userConfig != null ? userConfig.getLinguServices() : null;
        addExamplePair(Example.wrong("Da steht eine <marker>Lehrzeile</marker> zu viel."), Example.fixed("Da steht eine <marker>Leerzeile</marker> zu viel."));
    }

    public String getId() {
        return RULE_ID;
    }

    public String getDescription() {
        return "Markiert wahrscheinlich falsche Komposita wie 'Lehrzeile', wenn 'Leerzeile' häufiger vorkommt.";
    }

    public RuleMatch[] match(AnalyzedSentence analyzedSentence) throws IOException {
        ArrayList arrayList = new ArrayList();
        AnalyzedTokenReadings analyzedTokenReadings = null;
        for (AnalyzedTokenReadings analyzedTokenReadings2 : analyzedSentence.getTokensWithoutWhitespace()) {
            String token = analyzedTokenReadings2.getToken();
            if ((analyzedTokenReadings == null || !analyzedTokenReadings.hasAnyPartialPosTag(new String[]{"EIG:"}) || !StringTools.startsWithUppercase(token) || (!analyzedTokenReadings2.hasAnyPartialPosTag(new String[]{"EIG:"}) && !analyzedTokenReadings2.isPosTagUnknown())) && (analyzedTokenReadings == null || !HERRN_FRAU.matcher(analyzedTokenReadings.getToken()).matches())) {
                int i = 0;
                Iterator it = new ArrayList(Arrays.asList(token.split("-"))).iterator();
                while (it.hasNext()) {
                    i = getMatches(analyzedSentence, arrayList, analyzedTokenReadings2, i, (String) it.next(), 0);
                }
                String removeHyphensAndAdaptCase = removeHyphensAndAdaptCase(token);
                if (removeHyphensAndAdaptCase != null) {
                    getMatches(analyzedSentence, arrayList, analyzedTokenReadings2, 0, removeHyphensAndAdaptCase, token.length() - removeHyphensAndAdaptCase.length());
                }
                analyzedTokenReadings = analyzedTokenReadings2;
            }
        }
        return toRuleMatchArray(arrayList);
    }

    private static boolean isMisspelled(String str) {
        return linguServices == null ? GermanyGerman.INSTANCE.m3getDefaultSpellingRule().isMisspelled(str) : !linguServices.isCorrectSpell(str, GermanyGerman.INSTANCE);
    }

    private int getMatches(AnalyzedSentence analyzedSentence, List<RuleMatch> list, AnalyzedTokenReadings analyzedTokenReadings, int i, String str, int i2) {
        if ((analyzedTokenReadings.isTagged() && !analyzedTokenReadings.hasPartialPosTag("SUB") && !analyzedTokenReadings.hasPosTagStartingWith("EIG:")) || str.length() <= 6) {
            return i + str.length() + 1;
        }
        ArrayList<Pair> arrayList = new ArrayList();
        if (this.confusionPair == null) {
            Iterator it = this.ahoCorasickDoubleArrayTrie.parseText(str).iterator();
            while (it.hasNext()) {
                List<Pair> list2 = this.pairMap.get(((AhoCorasickDoubleArrayTrie.Hit) it.next()).value);
                if (list2 != null) {
                    arrayList.addAll(list2);
                }
            }
        } else {
            addAllCaseVariants(arrayList, this.confusionPair);
        }
        ArrayList arrayList2 = new ArrayList();
        for (Pair pair : arrayList) {
            String str2 = null;
            if (str.contains(pair.part1)) {
                str2 = str.replaceFirst(pair.part1, pair.part2);
            } else if (str.contains(pair.part2)) {
                str2 = str.replaceFirst(pair.part2, pair.part1);
            }
            if (str2 == null) {
                i += str.length() + 1;
            } else {
                long count = this.lm.getCount(str);
                long count2 = this.lm.getCount(str2);
                Set set = (Set) cache.getUnchecked("/de/compound_exceptions.txt");
                if (count2 > getThreshold() && count == 0 && !set.contains(str) && !isMisspelled(str2) && blacklistRegex.stream().noneMatch(str3 -> {
                    return str.matches(".*" + str3 + ".*");
                })) {
                    String str4 = (pair.part1Desc == null || pair.part2Desc == null) ? "Möglicher Tippfehler: " + pair.part1 + "/" + pair.part2 : "Möglicher Tippfehler. " + StringTools.uppercaseFirstChar(pair.part1) + ": " + pair.part1Desc + ", " + StringTools.uppercaseFirstChar(pair.part2) + ": " + pair.part2Desc;
                    int startPos = analyzedTokenReadings.getStartPos() + i;
                    RuleMatch ruleMatch = new RuleMatch(new SpecificIdRule(StringTools.toId(getId() + "_" + pair.part1 + "_" + pair.part2, this.language), "Markiert wahrscheinlich falsche Komposita mit Teilwort '" + StringTools.uppercaseFirstChar(pair.part1) + "' statt '" + StringTools.uppercaseFirstChar(pair.part2) + "' und umgekehrt", isPremium(), getCategory(), getLocQualityIssueType(), getTags()), analyzedSentence, startPos, startPos + str.length() + i2, str4);
                    ruleMatch.setSuggestedReplacement(str2);
                    arrayList2.add(new WeightedRuleMatch(count2, ruleMatch));
                }
            }
        }
        if (arrayList2.size() > 0) {
            Collections.sort(arrayList2);
            list.add(((WeightedRuleMatch) arrayList2.get(0)).match);
        }
        return i + str.length() + 1;
    }

    int getThreshold() {
        return 0;
    }

    public void setConfusionPair(Pair pair) {
        this.confusionPair = pair;
    }

    @Nullable
    String removeHyphensAndAdaptCase(String str) {
        String[] split = str.split("-");
        if (split.length <= 1) {
            return null;
        }
        StringBuilder sb = new StringBuilder();
        int i = 0;
        for (String str2 : split) {
            if (str2.length() <= 1) {
                return null;
            }
            sb.append(i == 0 ? str2 : StringTools.lowercaseFirstChar(str2));
            i++;
        }
        return sb.toString();
    }

    static {
        ArrayList arrayList = new ArrayList();
        HashMap hashMap = new HashMap();
        addUpperCaseVariants(arrayList);
        addItemsFromConfusionSets(arrayList, "/de/confusion_sets.txt", true);
        prohibitedCompoundRuleSearcher = setupAhoCorasickSearch(arrayList, hashMap);
        prohibitedCompoundRulePairMap = hashMap;
    }
}
