Как они пишут

топ 100 блогов vladimir10105.02.2010
Как они пишут


Я продолжаю писать программу для всяких функций по анализу текстов. Написал интересный кусок, который позволяет анализировать как велико разнообразие слов в тексте. Немного подробнее...

Часто встречающиеся слова
Можно взять тысячи текстов и посчитать сколько раз встречается то или иное слово. После этого выделить первую сотню наиболее популярных слов. Для английского языка эти сто слов приведены в таблице.

А теперь давайте возьмем какой-либо текст и выкинем эти популярные слова. Останутся более редкие слова. Они уже не такие расхожие, и их количество характеризует стиль автора. Чем больше слов в тексте останется после выкидывания 100 популярных слов, тем более насыщен текст нетривиальными словами.

С помощью моей программы я проделал такие процедуры с некоторыми текстами и оказалось, что после выкидывания остается около 40% текста!

Это же сколько бумаги и компьютерной памяти занимают эти 100 слов!

Не такие расхожие слова
Итак, если мы выкинем из текста 100 популярных слов, то останется меньше половины. Там будут не такие расхожие слова и объем этого текста будет характеризовать воображение писателя, его словарный запас.

А как писатель использует свой словарный запас? Насколько разнообразны его страницы? Нет ли повторений слов в тексте?

Чтобы ответить на этот вопрос надо общее число слов в тексте разделить на число оригинальных слов. Поясню на примере простого текста.

Мама мыла раму, мама мыла Машу.

Общее число слов тут 6, а оригинальных слов тут 4. Слова «мама» и «мыла» повторяются по два раза.


Как они пишут


Джек Лондон и Эрнест Хемингуэй
Когда в Москве я стал изучать английский, то первым делом купил книги на английском языке. Это были «Белый клык» Джека Лондона и «Прощай оружие» Хемингуэя. Роман «Прощай оружие» пролетел, как песня, а вот «Белый клык» заставил меня усомниться,что я когда-либо смогу выучить английский.

Я прогнал через мою программу несколько романов Джека Лондона и Эрнеста Хемингуэя. Оказалось, что в среднем:
у Д. Лондона остается 46% теста после выкидывания 100 популярных слов
а у Э. Хемингуэя в этом случае остается 40%

Д. Лондон использует слова в среднем по 3.5 раза в романах
а Э. Хемингуэй использует слова в среднем по 6.3 раза в романах!
Полученные цифры средние о они весьма стабильные от романа к роману. Так у Хемингуэя в романах эти цифры
Прощай оружие - 40,1% и 6.65
По ком звонит колокол - 39,6% и 5.97

Эти цифры можно поставить на график, что я и сделал. Фотографии стоят вместо точек, я думаю, что так понятно будет. Чем выше фото и чем левее, тем более богатый язык у писателя.

Означает ли это, что писатели с богатым языком более интересны и пишут лучше? Не факт, тут нужно исследовать дальше. А вот мои графики могут помочь в изучении иностранных языков. Можно понять с каких писателей надо начинать, а каких оставить на потом.

Оставить комментарий

Архив записей в блогах:
«СЛИЛ - ПОХВАЛИЛ» второй раз в моем жж. Теперь мы скооперировались с достопочтенным godfather_niro (вот его пост ). Напоминаю, что суть проекта заключается в том, чтобы получить два фильма от оппонента, посмотреть их, а потом один похвалить, а другой ...
http://istmat.info/node/51093 В.В. Лебедев. Проблема выхода из войны и кризис самодержавия (конец 1916 - начало 1917 г.) // 1917 год в судьбах России и мира. Февральская революция: От новых источников к новому осмыслению: Материалы междунар. науч. конф., 4-5 февр. 1997 г. М., ...
Доступ к безграничной энергии — едва ли не самая востребованная идея человечества. Недаром новые разработки, которые навсегда избавили бы население Земли от нехватки энергии, то и дело появляются в научных корпоративных и университетских лабораториях. Генератор из турникетов, ...
Модернизация достигла самых отсталых слоев общества, то есть меня. Я докурила запас традиционных сигарет, сделанный еще в ноябре, и с прошлой недели перешла полностью на электронные. У нас в райцентре в большом супермаркете прямо в центральном проходе появился магазинчик, где можно ...
Urban Cowboy B&B ...