Анализатор постов в ЖЖ

Вдохновившись этим примером, я тоже решила запилить что-нибудь для ЖЖ и в итоге написала приложение для анализа постов. Сейчас оно умеет определять языковое разнообразие (насколько разнообразными словами пользуется юзер), среднюю длину поста и самые частые слова. Может, потом добавлю ещё пару функций (а может и нет) :)

Пока писала и тестировала, обнаружила несколько закономерностей (хотя и меньше, чем ожидала).

Во-первых, у хорошего блога совсем не обязательно высокое разнообразие. У нескольких моих любимых блогеров, которых я считаю одними из самых интересных в ЖЖ, показатель разнообразия довольно средний. Я-то думала, чем круче пишет автор, тем разнообразие будет выше! Но это оказалось и близко не так. Высокие показатели разнообразия (24% и выше) часто встречаются у тех, кто пишет о новостях и всяких событиях — это и понятно, ведь события каждый день разные, поэтому в таких блогах встречается очень много разных слов. А вот у тех, кто пишет на какую-то узкоспециализированную тему (техника, медицина, садоводство), показатель разнообразия, наоборот, чаще низкий.

Сравнивать показатели довольно интересно, я для этого специально прикрутила графики с образцами нескольких топ-блогеров. А особенно интересно (ну мне, по крайней мере) смотреть на самые частые слова.
Но есть и довольно много ограничений, и о них ниже.

Приложение сейчас работает только с русскоязычными блогами. Ни английский, ни украинский язык оно не поддерживает, и результаты для блогов на любом языке, кроме русского, будут неправильными.

Ошибки и манера намеренно коверкать слова, к сожалению, повышают разнообразие. Мой алгоритм пока не умеет исправлять ошибки, и неправильно написанное слово считается уникальным. Так что, если условный юзер vasiliy1488 имеет запас слов Эллочки Людоедки, но при этом пишет “деффчонки” и “нихачу”, то показатель разнообразия его блога вполне может оказаться высоким, увы. (Только что придумала этого Василия для примера, но сейчас залезла на всякий случай проверить, а нет ли такого пользователя в ЖЖ на самом деле. Вы не поверите: такой пользователь есть! Точнее, был, он удалил свой журнал. Василий, если вы вдруг это читаете, простите, я не специально!).

ЖЖ даёт доступ только к 25-ти последним постам пользователя, так что выборка, к сожалению, неполная. И чем более длинные у вас посты, тем точнее результат. Если вы пишете в ЖЖ в формате Твиттера или часто постите одни картинки без текста, результат будет неточным.

Встречаются забавные артефакты! Например, тестируя приложение, я наткнулась на блогера, у которого в списке самых распространённых слов было загадочное “ГАЙДАТЬ”. Задумчиво почесав репу и пошевелив губами, я открыла его блог и сразу всё поняла: чувак пишет о кино и в последнее время часто упоминает знаменитого режиссёра Леонида Гайдая! Приложение, встретив незнакомое слово “Гайдай”, определило его как глагол)) Таким же образом получились очаровательные глаголы “ниховать” и “наховать”. Догадаетесь, от каких слов они образовались? :)

В остальном всё вполне предсказуемо. У Тёмы Лебедева в частых словах “пиздец”, “бесить” и “хуйня”. У shakko_kitsune, которая, как известно, пишет об искусстве, — “портрет”, “картина”, “статуя” и тому подобное. У Эволюции — сплошные “короны”, “щипцы” и прочие её словечки. Но нужно помнить, что ЖЖ отдаёт только последние 25 постов, так что эти слова следует воспринимать не как абсолют, а скорее “о чём этот блогер пишет в последнее время”.

Благодарю за помощь советами и бета-тестированием

mozgosteb,

bearinbloodbath и

rheo_tu.

Малиновые десерты

Малиновые лакомства для Вас Фисташковый пудинг с ягодами Творожный самбук с малиной Крем творожный с малиной Крем из шампанского ...

Школа, деньги, таро и не только

Перед вами очередная подборка опросов. Традиционно результаты даю частично, после каждого опроса — ссылка на источник с полными данными. Тематически опросы не объединены, тут всё, ...

Онлайн бронирование номера - экономия времени и денег

Если Вы собрались провести отпуск на берегу Черного моря, не выезжая за границу, чтобы избежать лишних трат на покупки визы или путевки, необходимо решить проблему проживания. Конечно, можно метаться по городу в поисках бабушки, которая сдаст вам комнату или бегать от отеля к отелю в п ...

Носочный охладитель

В Куала-Лумпуре попали в отель, где в номерах нет мини-бара, и охладить белое вино невозможно. Поэтому приходится использовать старый проверенный способ охлаждения -- "носочный". Ознакомлю и вас -- вдруг пригодится. Бутылка с вином закладывается в ...

История свитера Fair isle, или еще раз о "невидимой руке рынка"

История свитеров Fair isle (Фэр-Айл) абсолютно фантастична и удивительна. История свитеров Fair isle абсолютно реальна. История этих свитеров каким-то невероятным и даже гротескным образом повторяет историю Соединенного Королевства - от мощной империи, над которой никогда не ...

Анализатор постов в ЖЖ

Анализатор постов в ЖЖ

Оставить комментарий

Популярные посты: