Как они пишут

топ 100 блогов vladimir10105.02.2010
Как они пишут


Я продолжаю писать программу для всяких функций по анализу текстов. Написал интересный кусок, который позволяет анализировать как велико разнообразие слов в тексте. Немного подробнее...

Часто встречающиеся слова
Можно взять тысячи текстов и посчитать сколько раз встречается то или иное слово. После этого выделить первую сотню наиболее популярных слов. Для английского языка эти сто слов приведены в таблице.

А теперь давайте возьмем какой-либо текст и выкинем эти популярные слова. Останутся более редкие слова. Они уже не такие расхожие, и их количество характеризует стиль автора. Чем больше слов в тексте останется после выкидывания 100 популярных слов, тем более насыщен текст нетривиальными словами.

С помощью моей программы я проделал такие процедуры с некоторыми текстами и оказалось, что после выкидывания остается около 40% текста!

Это же сколько бумаги и компьютерной памяти занимают эти 100 слов!

Не такие расхожие слова
Итак, если мы выкинем из текста 100 популярных слов, то останется меньше половины. Там будут не такие расхожие слова и объем этого текста будет характеризовать воображение писателя, его словарный запас.

А как писатель использует свой словарный запас? Насколько разнообразны его страницы? Нет ли повторений слов в тексте?

Чтобы ответить на этот вопрос надо общее число слов в тексте разделить на число оригинальных слов. Поясню на примере простого текста.

Мама мыла раму, мама мыла Машу.

Общее число слов тут 6, а оригинальных слов тут 4. Слова «мама» и «мыла» повторяются по два раза.


Как они пишут


Джек Лондон и Эрнест Хемингуэй
Когда в Москве я стал изучать английский, то первым делом купил книги на английском языке. Это были «Белый клык» Джека Лондона и «Прощай оружие» Хемингуэя. Роман «Прощай оружие» пролетел, как песня, а вот «Белый клык» заставил меня усомниться,что я когда-либо смогу выучить английский.

Я прогнал через мою программу несколько романов Джека Лондона и Эрнеста Хемингуэя. Оказалось, что в среднем:
у Д. Лондона остается 46% теста после выкидывания 100 популярных слов
а у Э. Хемингуэя в этом случае остается 40%

Д. Лондон использует слова в среднем по 3.5 раза в романах
а Э. Хемингуэй использует слова в среднем по 6.3 раза в романах!
Полученные цифры средние о они весьма стабильные от романа к роману. Так у Хемингуэя в романах эти цифры
Прощай оружие - 40,1% и 6.65
По ком звонит колокол - 39,6% и 5.97

Эти цифры можно поставить на график, что я и сделал. Фотографии стоят вместо точек, я думаю, что так понятно будет. Чем выше фото и чем левее, тем более богатый язык у писателя.

Означает ли это, что писатели с богатым языком более интересны и пишут лучше? Не факт, тут нужно исследовать дальше. А вот мои графики могут помочь в изучении иностранных языков. Можно понять с каких писателей надо начинать, а каких оставить на потом.

Оставить комментарий

Архив записей в блогах:
И оставила меня без проводного интернета. Вчера весь вечер пыталась листать ленту через мобильный интернет, но такого и врагу не пожелаешь... Комментировать - это вообще - АДЪ... Вот и сейчас пишу и надеюсь, что пост опубликуется, а не зависнет на ...
Кто такой взрослый человек? Это человек, не только достигший определенного возраста, но и способный брать на себя всю полноту ответственности за свои решения и поступки, включая ошибки и провалы. А если человек, доживший до седых волос так и не научился этого делать, то ему нельзя ...
Сегодня расскажу еще об одном особенном минском архитекторе  — Александре Петровиче Воинове. В отличие от Лангбарда, который всю жизнь занимался именно проектированием, участвовал в различных конкурсах и всячески творчески реализовывался, Воинов стоял двумя ногами на земле.  ...
...
К месту погрузки подошли ранним утром, затемно. Свирь, участок с односторонним движением. Довольно сильное течение. К причалу, за пределами судового хода, ведет короткий извилистый фарватер. На Атласе этот участок отображен довольно схематично. Связываюсь по рации с погрузочным ...