Языковой фильтр «LF-сервис»

Сервис создан для борьбы с нецензурной лексикой (фильтр матов), противоправным контентом вроде порнографии, терроризма и экстремизма, пропаганды нетрадиционных ценностей. Разные типы словарей для разных языков будут постепенно добавляться, в том числе оскорбления, упоминание известных лиц и так далее.

Что значит "LF"?

Простая расшифровка: Language Filter. На английском - потому что доменные имена все еще удобнее на латинице, потому что названия ботов возможны только на латинице. Географически мы расположены в РФ.

Зачем нужен сервис

Отсутствие матов, пропаганды, порнографии, подозрений на террористическую и экстремистскую деятельность снижает внимание уполномоченных органов. К тому же культурная речь, чистота изъяснений, безэмоциональное решение вопросов - то, о чем интернет редко слышит, то, что привлекает умных и платежеспособных людей.

В общем, это не просто правильно, но и выгодно.

В последнее время законодатель вводит дополнительные ограничения, например, об уголовной ответственности за поиск экстремистских материалов. Наш сервис помогает отслеживать намеренный или случайный поиск нежелательного контента вашими пользователями, сотрудниками, а может быть и подопечными, выявляя те или иные фрагменты текста в вводимых или получаемых данных.

Когда сервис полезен

В случае, если вы владелец группы или сообщества, в которых пользователи злоупотребляют нецензурной лексикой, и вас это тревожит, и вы устали тратить время на ручную фильтрацию сообщений.
В случае, если через форму обратной связи вашей организации поступают оскорбления сотрудников, угрозы.
В случае, если у вас интернет-сайт для детей и вы опасаетесь, что какой-то комментарий может травмировать их психику, а заодно потерять лояльность родителей.
В случае, если у вас интернет-форум для широкой публики, и вы хотите избежать обсуждений запрещенных тематик, вроде терроризма, торговли оружием или формирования группы финансовых мошенников.
В случае, если у вас интернет-магазин с отзывами, где есть запрет не только на нецензурную лексику, но нужно отслеживать вуалирование обычных ругательств.
В случае, если у вас поток sms в прямом эфире и вы не успеваете фильтровать текст на то, что разрешено показывать по ТВ.
Если в прямом эфире ТВ ведущий произносит название запрещенной организации, то после параллельной транскрибации и анализа можно автоматически отображать на экране пометку с упоминанием этой организации, а также менять возрастную метку, если упоминаются не детские термины.
В случае, если вы хотите проанализировать текст переведенный из голосового сообщения, голосового помощника или из видеоряда.
...
Во многих случаях, когда нужна помощь компьютера в распознавании опасного, запрещенного, провокационного содержания.

Где использовать

Использовать можно везде, где появляется много текстовой информации, например:

фильтр матов для мессенджеров (Telegram, Discord)
фильтр комментариев и публикаций в соцсетях (VK, OK и т.д.)
сообщения на форумах, досках объявлений
комментарии на видеохостингах (Twitch, Youtube, Trovo)
статьи и комментарии на сайтах, особенно детских
телевизионные передачи с обратной связью онлайн (например, "Что? Где? Когда?" на Первом или "Ответ священника" - на Спасе) - для фильтрации сообщений от зрителей
при написании голосовых помощников, в формах обратной связи, в играх

Применение фильтру найдется масса, а одно из достоинств - вы сами определяете, что делать при обнаружении запрещенного слова. Наша система не удаляет самовольно, но вы можете настроить свой скрипт так, что можно уведомлять модератора, ставить метку на пользователя, отправлять в черновики и прочее.

В чем особенность

Мы работаем над тем, чтобы приблизиться к разнообразию человеческой речи и распознавать завуалированные слова при помощи дублирования букв, написание транслитерацией, заменой букв на символы, вставкой неразрывных пробелов и т.д.

Версия API v1 - первая, простая версия. Ее мы создали в качестве пробника идеи и для сбора обратной связи. API v1 работает при помощи прописанной логики обнаружения, разбором слов.

Следующая версия v1.1-v1.2 будет более гибкой и сможет принимать ваш словарь в обработку, видеть спрятанные, завуалированные слова (на самом деле, это уже готово, но мы работаем над ресурсоемкостью). Версии v2, v3 будут уже с более серьезным подходом, с возможностью видеть фразы, предложения, смыслы.

Пока что LF-сервис работает намного быстрее нейросетей. Кстати, мы также ведем разработку специализированной нейросети, которая поможет противодействовать нежелательному и запрещенному контенту.

Что сервис уже умеет

Разбор слова по составу, что помогает правильно анализировать входные данные, ускорять обработку.
Подключение словарей и методов проверки на выбор и при каждом запросе к сервису. Например, подключив анализ на транслитерацию, система будет анализировать кириллические слова, выискивая в них фрагменты латиницы и/или сравнивая с написанием этих же слов на латинице, искать их аналоги из русскоязычных словарей. Подключив словарь "Защита детства", вы добавите проверку по теме пропаганды лгбт, упоминание алкоголя, курения, наркотиков.
Распознавание цельнословной транслитерации. В этом случае пользователи пишут слово на русском языке, но буквы заменяют на латинские по звучанию. Например: slovo, drug, privet.
Распознавание частичной транслитерации. В этом случае пользователи пишут слово, используя буквы и кириллицы и латиницы, которые схожи по внешнему виду. Например, cлoвo, дpyr, пpивet.
Распознавание замены букв сходными по начертанию символами, что может понять человеческий мозг, но затрудняет обнаружение компьютером. Например, с/\0в0, Pri\/37
Правильное прочтение задублированных букв, что обычно показывает в большей степени эмоциональность, чем намеренное вуалирование. Например, сслоооовввввоооо, дррруууг, привееееетттт.
Комбинация всех вышеуказанных методов.
Глубокая проверка позволит повысить качество нахождения неприемлемых слов, но за счет этого немного повысится шанс найти просто похожее слово.
В личном кабинете пользователь может предлагать свои слова в общий словарь на специальной странице в форме. Все премодерируется.
Простое API, подходящее для любого языка программирования. Оно максимально простое - всего с десяток узлов. Это позволит создавать свои боты, приложения конкретно для ваших целей и зарабатывать на этом.
Есть обезличенная статистика для ваших целей анализа, которая будет доступна из личного кабинета. Тут подразумевается количество проверок по дням, по источникам, расходование средств и другое.

Как внедрить

Наши разработки

Описание наших разработок и как ими воспользоваться можно увидеть в личном кабинете.

Ваш скрипт предпочтительнее

Несмотря на то, что мы создаем свои приложения, чья-то аналогичная разработка может оказаться более успешной, ведь LF-проект ориентирован на программистов, которые будут использовать наши API и самостоятельно создавать приложения для своих сайтов, каналов, групп, компаний и т.д.

Так мы открываем почти безграничное использование проекта по вашим правилам, а также даем возможность зарабатывать на нашей услуге.

С чего начать

Прежде всего нужна регистрация на сайте. Так пользователь получает уникальный main_token (в личном кабинете) и может пользоваться нашими API.

Если используете наши приложения, вроде плагина для WordPress, то необходимо следовать инструкциям из личного кабинета - раздел "Наши разработки".

Если создаете свое приложение, то:

Зарегистрируйтесь.
При помощи API или в личном кабинете создайте источник.
При помощи API настройте источник: отдельный баланс, метки и т.д.
При помощи API отправьте текст на проверку и получите результат.

Для удобства на странице API приведены примеры кода для лучшего понимания и адаптирования под ваш проект.

При первой регистрации автоматически будет пополнен промо-баланс, который можно расходовать так же как и основной.

В личном кабинете вы можете предлагать сервису свои слова для его улучшения и общей пользы.

Демо-форма проверки (18+)

В форме ниже вы можете протестировать наш сервис. Вы можете проверить примеры со своего сайта, канала или даже текст пикабу или лурка.

В данной форме существуют все ограничения, которые приняты в API, в частности, максимальное количество знаков в форме - 1000. Сейчас форма работает с API v1, но в личном кабинете доступен API v1_up_limits.

Ответ будет предоставлен ниже формы примерно в том виде, в каком его получит ваш скрипт в формате JSON. В ответе вас будет интересовать, в первую очередь, ключ check_result. Мы не заявляем, что абсолютно всё будет найдено, но стремимся к этому, в том числе с вашей помощью.

Всего в форме 8 текстов-примеров. Если ни один словарь не выбран, значит выбран по умолчанию - русские маты.
Каждый словарь должен применяться в нужной для этого ситуации чтобы поиск был точный. Нет смысла в одновременном включении транслитерации и английского, во включении экономического словаря для анализа текста про Лас-Вегас, во включении "Защиты детства" для анализа текста на взрослую тематику.
Используйте словари по назначению: не все ругательства являются нецензурными, например, слово "suka" находится не в словаре "русские маты", а в словаре "русские ругательства".
Если вы авторизованы, то проверки через чек-форму будут списывать средства с баланса пользователя (не источника) согласно ценам указанного API.
Если вы не авторизованы, то действуют ограничения на количество проверок в час и в день.

Поехали!

В этой области появится результат