Вступление
15 сентября 2018 года состоялось событие DevFest, в рамках которого рассказал историю одного цензор-бота.
Презентация и речь
Время - 25 минут.
Содержимое:
- Вступление
- Представление
- История цензуры
- Русский мат
- Проблема
- Хакатон KoenigHack-2018
- Как работает алгоритм?
- Как наполняли словарь?
- Где уже внедрено?
- Планы на будущее
- Итого
1. Вступление
Технологии стремительно развиваются. Мир становится сложнее. Соцсети уходят в прошлое. Все пользуются мессенджерами. А уже совсем скоро наши карманные компьютеры, которые мы называем телефонами, заговорят.
Создается впечатление, что для создания стоящего продукта необходимо:
быть гением;
вложить массу усилий, денег и времени;
Но это не так... (интрига?)
2. Представление
Привет! Меня зовут Вадим. Я работаю фронтенд-разработчиком в компании РосКомпьютинг, которая занимается разработкой программного обеспечения на заказ, ИТ консалтингом, а также развивает собственную линейку продуктов.
ИТ технологии кардинально изменили и продолжают менять этот мир. Мне очень интересно изучать то, как технологии меняют общество, способы коммуникации и уклад жизни современного человек. Поэтому в свободное время я работаю над социально полезными продуктами.
Сегодняшняя история - это история как раз про социально полезный продукт. История о том, как простая идея и простая реализация приносит большую пользу. Это история цензор-бота.
3. История цензуры
Что такое «цензура»? Это слово в переводе с латинского означает «строгое суждение, суровый разбор, взыскательная критика». В современном мире цензура - это:
- надзор за печатью с целью недопущения распространения вредных с точки зрения правительства произведений печати
- учреждения, которым поручен этот надзор
- неотъемлемая функция любого государства
Точно можно сказать, что цензуры как таковой не существовало, пока не появилась письменность. Далее в хронологическом порядке:
- Письменность массово появляется после Крещения Руси Владимиром в 988 году.
- Первый России список запрещённых к чтению книг вышел в 1073 году: «Изборник 1073 года»
- Первый русский литературный памятник — „Слово о полку Игореве“ — появился в конце XII в. (1185 году)
Парадокс!
Цензура в России развивалась по стопам материковой Европы и была предварительной, как в Европе. Французские законы были базой для российского цензурного законодательства в отношении отечественных изданий, а прообразом правил к иностранным изданиям - Пруссия и Австрия.
16 мая 1917 года в «Вестнике Временного правительства» было обнародовано законодательное распоряжение: «Печать и торговля произведениями печати свободны. Применительно к ним административных взысканий не допускается». В реальности подобная свобода полностью реализована не была.
В современной России цензура запрещена Конституцией Российской Федерации — п. 5 статьи 29
4. Русский мат
Русский мат был элементом языческих культов, связанных с плодородием, например, с заговором скота или призывом дождя.
Одна из распространенных версий – татаро-монголы. Но на самом деле к ним эта лексика никакого отношения не имеет. Русский мат славянского происхождения. Четыре известные каждому русскому человеку корня можно встретить и в македонском, и в словенском, и в других славянских языках.
Древнейшие известные образцы — в берестяных грамотах XII-XIII веков из Новгорода и Старой Руссы. Вот они:
Сейчас использование мата считается неприемлемым в приличном обществе и в литературе, и обычно цензурируется в периодической печати, на телевидении, радио и в других СМИ. Почему?
Потому что церковь и государство в России всегда были тесно связаны. Крещение Руси принесло не только письменность, но и начало активную борьбу с языческими культами, в том числе с матерными словами как одним из проявлений культа. Борьба с русским матом продолжается и сейчас.
5. Проблема
Согласно Кодексам об административных правонарушениях русскоязычных стран, а именно России (статья 20.1[32]), Казахстана (статья 330[33]), Белоруссии (статья 156[34]) и Киргизии (статья 364[35]), публичное употребление мата может расцениваться как мелкое хулиганство, наказываемое штрафом или административным арестом. Статья 20.1 Кодекса об административных правонарушениях Российской Федерации:
«Мелкое хулиганство, то есть нарушение общественного порядка, выражающее явное неуважение к обществу, сопровождающееся нецензурной бранью в общественных местах, оскорбительным приставанием к гражданам, а равно уничтожением или повреждением чужого имущества, — влечёт наложение административного штрафа в размере от пятисот до одной тысячи рублей или административный арест на срок до пятнадцати суток.»
Как бы странно не звучало, но чат - это общественное место! Из определения: общественное место — территория или пространство потенциального местонахождения людей.
В начале 2018 года я заметил, что маты в чатах доставляют боль. Почти в каждом чате присутствует список правил:
⛔️ не материться
⛔️ не спамить
⛔️ не оскорблять других участников
⛔️ не разжигать
Тогда совместно с Машей мы обсудили идею телеграм бота и на ближейшем хакатоне реализовали бота и внедрили в группу GDG Kaliningrad
6. Хакатон KoenigHack-2018
Собственно с этого момента начинается история цензор-бота.
17 февраля 2018 года в 5:35 утра был сделан первый коммит
Почитать про событие можно тут:
7. Как работает алгоритм?
Бот - это на самом деле обычный веб-сервер, который принимает запросы от мессенджера Telegram и обрабатывает их.
А как бот удаляет маты?
Тут схема чуть сложнее. Для каждого сообщения бот выполняет два действия:
Отмечает в сообщении слова, которые однозначно не являются нецензурными
Затем удаляет все нецензурные слова
8. Как наполняли словарь?
После внедрения бота в чат, начался период его совершенствования. Несколько человек (@MISTikus, @imfrombristol, @KlepikovKonstantin и др.) наполняли словарь матами. На сегодняшний день размер словаря составляет 1360 слов. Это почти все нецензурные слова русского языка, с разными окончаниями и разными приставками.
9. Где уже внедрено?
Внедрено в игре Мафия, на моем сайте и в телеграмме. Для бота доступен REST API. Вы можете интегрировать свое приложение с ботом, предварительно получив ключ.
10. Планы на будущее
Недавно прошла тестирование фича антиспам. Цензор-бот также выполняет функцию антиспам в основной группе GDG Kaliningrad.
Чего хотелось бы еще?
- Статистика
Еще пока нет статистики. Кроме уровня загрузки сервера. - Цензура сообщений в бизнес чатах
Цензура сообщений в бизнес переписке значительно повысит стрессоустойчивость сотрудников, которые вынуждены читать все сообщения от всех недовольных клиентов. Клиенту даже необязательно показывать что его сообщение подверглось цензуре. Тут важно то, что бот заботится о психологическом здоровье сотрудника. - Распознавание и предварительная цензура речевых оборотов, которые нарушают законодательство РФПредварительная цензура На текущей момент существует 7 статей УК, по которым могут призвать к ответственности:
- 282 возбуждение ненависти
- 280 экстремизм
- 148 1 2 оскорбление чувств верующих
- 205.2 оправдание терроризма
- 280.1 призывы к сепаратизму
- 354.1 реабилитация нацизма
Тогда можно будет не тратить деньги государства на цензуру и содержание аппарата, а заниматься более полезными делами, например, медициной.
11. Итого
Есть видео:
Ссылки
Вики:Отчет о хакатоне:
Приложение, в которое интегрирован бот:
Персональный сайт, в который интегрирован бот: