Как они пишут

топ 100 блогов vladimir10105.02.2010
Как они пишут


Я продолжаю писать программу для всяких функций по анализу текстов. Написал интересный кусок, который позволяет анализировать как велико разнообразие слов в тексте. Немного подробнее...

Часто встречающиеся слова
Можно взять тысячи текстов и посчитать сколько раз встречается то или иное слово. После этого выделить первую сотню наиболее популярных слов. Для английского языка эти сто слов приведены в таблице.

А теперь давайте возьмем какой-либо текст и выкинем эти популярные слова. Останутся более редкие слова. Они уже не такие расхожие, и их количество характеризует стиль автора. Чем больше слов в тексте останется после выкидывания 100 популярных слов, тем более насыщен текст нетривиальными словами.

С помощью моей программы я проделал такие процедуры с некоторыми текстами и оказалось, что после выкидывания остается около 40% текста!

Это же сколько бумаги и компьютерной памяти занимают эти 100 слов!

Не такие расхожие слова
Итак, если мы выкинем из текста 100 популярных слов, то останется меньше половины. Там будут не такие расхожие слова и объем этого текста будет характеризовать воображение писателя, его словарный запас.

А как писатель использует свой словарный запас? Насколько разнообразны его страницы? Нет ли повторений слов в тексте?

Чтобы ответить на этот вопрос надо общее число слов в тексте разделить на число оригинальных слов. Поясню на примере простого текста.

Мама мыла раму, мама мыла Машу.

Общее число слов тут 6, а оригинальных слов тут 4. Слова «мама» и «мыла» повторяются по два раза.


Как они пишут


Джек Лондон и Эрнест Хемингуэй
Когда в Москве я стал изучать английский, то первым делом купил книги на английском языке. Это были «Белый клык» Джека Лондона и «Прощай оружие» Хемингуэя. Роман «Прощай оружие» пролетел, как песня, а вот «Белый клык» заставил меня усомниться,что я когда-либо смогу выучить английский.

Я прогнал через мою программу несколько романов Джека Лондона и Эрнеста Хемингуэя. Оказалось, что в среднем:
у Д. Лондона остается 46% теста после выкидывания 100 популярных слов
а у Э. Хемингуэя в этом случае остается 40%

Д. Лондон использует слова в среднем по 3.5 раза в романах
а Э. Хемингуэй использует слова в среднем по 6.3 раза в романах!
Полученные цифры средние о они весьма стабильные от романа к роману. Так у Хемингуэя в романах эти цифры
Прощай оружие - 40,1% и 6.65
По ком звонит колокол - 39,6% и 5.97

Эти цифры можно поставить на график, что я и сделал. Фотографии стоят вместо точек, я думаю, что так понятно будет. Чем выше фото и чем левее, тем более богатый язык у писателя.

Означает ли это, что писатели с богатым языком более интересны и пишут лучше? Не факт, тут нужно исследовать дальше. А вот мои графики могут помочь в изучении иностранных языков. Можно понять с каких писателей надо начинать, а каких оставить на потом.

Оставить комментарий

Архив записей в блогах:
найди на фото хай бим -high beams фото 60- годов.. ...
Интересная документалка. Одиночное путешествие на каяке.  Парень  конченный романтик. И реально крут. Море, стихии и свобода. Повторять не надо. Но надо искать, что то  своё.  Рекомендую к просмотру. Крутой релакс. Я вообще всем рекомендую, совершать именно ...
Ну вот - звиздец укробандитам из хохлостана. А чё решили, твари, кинуть? Не, не брат ты мне, гнида просязадая, бандерлог. За базар ответишь, за москоляку на гиляку и прочую хрень... Короче, укронацик, бабло гони. Не ты, не понял,Россия богатая, и не такие долги прощали, но не врагам. ...
peresedov тут задается вопросом: "Вернулся в ЖЖ и дважды обжёгся: нормальные, вроде, комментаторы взбрыкивают, когда им говоришь "мужик". Это что значит?" Это же элементарно, Ватсон! Аудитория в твоем блоге такая же, какой и контент. Например если писать в своей уютненькой ...
Фонтанка.ру пишет: Как сообщили "Фонтанке" в управлении ГИБДД, около 06:50 16 июня на 162-м км шоссе Петербург-Псков в аварии погибли трое. Автомобиль "Лада Калина" по неустановленным причинам выехал на полосу встречного движения и столкнулся с "Тойотой Ленд Крузер". Водитель и пассажир ...