Языковой фильтр «LF-сервис»
Сервис создан для борьбы с нецензурной лексикой (фильтр матов), противоправным контентом вроде порнографии, терроризма, пропаганды. Разные типы словарей для разных языков будут постепенно добавляться, в том числе оскорбления, упоминание известных лиц и так далее.
Что значит "LF"?
Простая расшифровка: Language Filter. На английском - потому что доменные имена все еще удобнее на латинице, потому что названия ботов возможны только на латинице. Географически мы расположены в РФ.
Зачем нужен сервис
Отсутствие матов, пропаганды, порнографии, подозрений на террористическую деятельность снижает внимание уполномоченных органов. К тому же культурная речь, чистота изъяснений, безэмоциональное решение вопросов - то, о чем интернет редко слышит, то, что привлекает умных и платежеспособных людей.
В общем, это не просто правильно, но и выгодно.
Когда сервис полезен
- В случае, если вы владелец группы или сообщества, в которых пользователи злоупотребляют нецензурной лексикой, и вас это тревожит, и вы устали тратить время на ручную фильтрацию сообщений.
- В случае, если через форму обратной связи вашей организации поступают оскорбления сотрудников, угрозы.
- В случае, если у вас интернет-сайт для детей и вы опасаетесь, что какой-то комментарий может травмировать их психику, а заодно потерять лояльность родителей.
- В случае, если у вас интернет-форум для широкой публики, и вы хотите избежать обсуждений запрещенных тематик, вроде терроризма, торговли оружием или формирования группы финансовых мошенников.
- В случае, если у вас интернет-магазин с отзывами, где есть запрет не только на нецензурную лексику, но нужно отслеживать вуалирование обычных ругательств.
- В случае, если у вас поток sms в прямом эфире и вы не успеваете фильтровать текст на то, что разрешено показывать по ТВ.
- Если в прямом эфире ТВ ведущий произносит название запрещенной организации, то после параллельной транскрибации и анализа можно автоматически отображать на экране пометку с упоминанием этой организации, а также менять возрастную метку, если упоминаются не детские термины.
- В случае, если вы хотите проанализировать текст переведенный из голосового сообщения, голосового помощника или из видеоряда.
- ...
- Во многих случаях, когда нужна помощь компьютера в распознавании опасного, запрещенного, провокационного содержания.
Где использовать
Использовать можно везде, где появляется много текстовой информации, например:
- фильтр матов для мессенджеров (Telegram, Discord)
- фильтр комментариев и публикаций в соцсетях (VK, OK и т.д.)
- сообщения на форумах, досках объявлений
- комментарии на видеохостингах (Twitch, Youtube, Trovo)
- статьи и комментарии на сайтах, особенно детских
- телевизионные передачи с обратной связью онлайн (например, "Что? Где? Когда?" на Первом или "Ответ священника" - на Спасе) - для фильтрации сообщений от зрителей
- при написании голосовых помощников, в формах обратной связи, в играх
Применение фильтру найдется масса, а одно из достоинств - вы сами определяете, что делать при обнаружении запрещенного слова. Наша система не удаляет самовольно, но вы можете настроить свой скрипт так, что можно уведомлять модератора, ставить метку на пользователя, отправлять в черновики и прочее.
В чем особенность
Мы работаем над тем, чтобы приблизиться к разнообразию человеческой речи и распознавать завуалированные слова при помощи дублирования букв, написание транслитерацией, заменой букв на символы, вставкой неразрывных пробелов и т.д.
Версия API v1
- первая, простая версия. Ее мы создали в качестве пробника идеи и для сбора обратной связи. API v1
работает при помощи прописанной логики обнаружения, разбором слов.
Следующая версия v1.1-v1.2
будет более гибкой и сможет принимать ваш словарь в обработку, видеть спрятанные, завуалированные слова (на самом деле, это уже готово, но мы работаем над ресурсоемкостью). Версии v2
, v3
будут уже с более серьезным подходом, с возможностью видеть фразы, предложения, смыслы.
Что сервис уже умеет
- Разбор слова по составу, что помогает правильно анализировать входные данные, ускорять обработку.
- Подключение словарей и методов проверки на выбор и при каждом запросе к сервису. Например, подключив анализ на транслитерацию, система будет анализировать кириллические слова, выискивая в них фрагменты латиницы и/или сравнивая с написанием этих же слов на латинице, искать их аналоги из русскоязычных словарей. Подключив словарь "Защита детства", вы добавите проверку по теме пропаганды лгбт, упоминание алкоголя, курения, наркотиков.
- Распознавание цельнословной транслитерации. В этом случае пользователи пишут слово на русском языке, но буквы заменяют на латинские по звучанию. Например: slovo, drug, privet.
- Распознавание частичной транслитерации. В этом случае пользователи пишут слово, используя буквы и кириллицы и латиницы, которые схожи по внешнему виду. Например, cлoвo, дpyr, пpивet.
- Распознавание замены букв сходными по начертанию символами, что может понять человеческий мозг, но затрудняет обнаружение компьютером. Например, с/\0в0, Pri\/37
- Правильное прочтение задублированных букв, что обычно показывает в большей степени эмоциональность, чем намеренное вуалирование. Например, сслоооовввввоооо, дррруууг, привееееетттт.
- Комбинация всех вышеуказанных методов.
- Глубокая проверка позволит повысить качество нахождения неприемлемых слов, но за счет этого немного повысится шанс найти просто похожее слово.
- В личном кабинете пользователь может предлагать свои слова в общий словарь на специальной странице в форме. Все премодерируется.
- Простое API, подходящее для любого языка программирования. Оно максимально простое - всего с десяток узлов. Это позволит создавать свои боты, приложения конкретно для ваших целей и зарабатывать на этом.
- Есть обезличенная статистика для ваших целей анализа, которая будет доступна из личного кабинета. Тут подразумевается количество проверок по дням, по источникам, расходование средств и другое.
Как внедрить
Наши разработки
Описание наших разработок и как ими воспользоваться можно увидеть в личном кабинете.
Ваш скрипт предпочтительнее
Несмотря на то, что мы создаем свои приложения, чья-то аналогичная разработка может оказаться более успешной, ведь LF-проект ориентирован на программистов, которые будут использовать наши API и самостоятельно создавать приложения для своих сайтов, каналов, групп, компаний и т.д.
Так мы открываем почти безграничное использование проекта по вашим правилам, а также даем возможность зарабатывать на нашей услуге.
С чего начать
Прежде всего нужна регистрация на сайте. Так пользователь получает уникальный main_token
(в личном кабинете) и может пользоваться нашими API.
Если используете наши приложения, вроде плагина для WordPress, то необходимо следовать инструкциям из личного кабинета - раздел "Наши разработки".
Если создаете свое приложение, то:
- Зарегистрируйтесь.
- При помощи API или в личном кабинете создайте источник.
- При помощи API настройте источник: отдельный баланс, метки и т.д.
- При помощи API отправьте текст на проверку и получите результат.
Для удобства на странице API приведены примеры кода для лучшего понимания и адаптирования под ваш проект.
При первой регистрации автоматически будет пополнен промо-баланс, который можно расходовать так же как и основной.
В личном кабинете вы можете предлагать сервису свои слова для его улучшения и общей пользы.
Демо-форма проверки (18+)
В форме ниже вы можете протестировать разнообразным способом наш сервис. Вы можете проверить примеры со своего сайта, канала или даже текст пикабу или лурка.
В данной форме существуют все ограничения, которые приняты в API, в частности, максимальное количество знаков в форме - 1000. Сейчас форма работает с API v1
, но в личном кабинете доступен API v1_up_limits.
Ответ будет предоставлен ниже формы примерно в том виде, в каком его получит ваш скрипт в формате JSON. В ответе вас будет интересовать, в первую очередь, ключ check_result
. Мы не заявляем, что абсолютно всё будет найдено, но стремимся к этому, в том числе с вашей помощью.
- Всего в форме 8 текстов-примеров.
- Каждый словарь должен применяться в нужной для этого ситуации чтобы поиск был точный. Нет смысла в одновременном включении транслитерации и английского, во включении экономического словаря для анализа текста про Лас-Вегас, во включении "Защиты детства" для анализа текста на взрослую тематику.
- Если вы авторизованы, то проверки через чек-форму будут списывать средства с баланса пользователя (не источника) согласно ценам указанного API.
- Если вы не авторизованы, то действуют ограничения на количество проверок в час и в день.