Как они пишут

топ 100 блогов vladimir10105.02.2010
Как они пишут


Я продолжаю писать программу для всяких функций по анализу текстов. Написал интересный кусок, который позволяет анализировать как велико разнообразие слов в тексте. Немного подробнее...

Часто встречающиеся слова
Можно взять тысячи текстов и посчитать сколько раз встречается то или иное слово. После этого выделить первую сотню наиболее популярных слов. Для английского языка эти сто слов приведены в таблице.

А теперь давайте возьмем какой-либо текст и выкинем эти популярные слова. Останутся более редкие слова. Они уже не такие расхожие, и их количество характеризует стиль автора. Чем больше слов в тексте останется после выкидывания 100 популярных слов, тем более насыщен текст нетривиальными словами.

С помощью моей программы я проделал такие процедуры с некоторыми текстами и оказалось, что после выкидывания остается около 40% текста!

Это же сколько бумаги и компьютерной памяти занимают эти 100 слов!

Не такие расхожие слова
Итак, если мы выкинем из текста 100 популярных слов, то останется меньше половины. Там будут не такие расхожие слова и объем этого текста будет характеризовать воображение писателя, его словарный запас.

А как писатель использует свой словарный запас? Насколько разнообразны его страницы? Нет ли повторений слов в тексте?

Чтобы ответить на этот вопрос надо общее число слов в тексте разделить на число оригинальных слов. Поясню на примере простого текста.

Мама мыла раму, мама мыла Машу.

Общее число слов тут 6, а оригинальных слов тут 4. Слова «мама» и «мыла» повторяются по два раза.


Как они пишут


Джек Лондон и Эрнест Хемингуэй
Когда в Москве я стал изучать английский, то первым делом купил книги на английском языке. Это были «Белый клык» Джека Лондона и «Прощай оружие» Хемингуэя. Роман «Прощай оружие» пролетел, как песня, а вот «Белый клык» заставил меня усомниться,что я когда-либо смогу выучить английский.

Я прогнал через мою программу несколько романов Джека Лондона и Эрнеста Хемингуэя. Оказалось, что в среднем:
у Д. Лондона остается 46% теста после выкидывания 100 популярных слов
а у Э. Хемингуэя в этом случае остается 40%

Д. Лондон использует слова в среднем по 3.5 раза в романах
а Э. Хемингуэй использует слова в среднем по 6.3 раза в романах!
Полученные цифры средние о они весьма стабильные от романа к роману. Так у Хемингуэя в романах эти цифры
Прощай оружие - 40,1% и 6.65
По ком звонит колокол - 39,6% и 5.97

Эти цифры можно поставить на график, что я и сделал. Фотографии стоят вместо точек, я думаю, что так понятно будет. Чем выше фото и чем левее, тем более богатый язык у писателя.

Означает ли это, что писатели с богатым языком более интересны и пишут лучше? Не факт, тут нужно исследовать дальше. А вот мои графики могут помочь в изучении иностранных языков. Можно понять с каких писателей надо начинать, а каких оставить на потом.

Оставить комментарий

Архив записей в блогах:
Однажды я задумался на тему, как пресечь воровство. А потом, будучи физиком в душе, понял, что возрождаться будут любые формы существования, которые в то время и при конкретных условиях окажутся энергетически более выгодны. Если принципиально проще будет украсть, чем заработать или ...
Солнечный свет Лестница Окно Красиво жили ...
Временно (надеюсь, что временно) из жэжэ выпал. Не до него пока. Делов полно. А вы чего там как? ...
На днях я сделала «тонкий намёк на толстые обстоятельства» в отношении того, о чём мы будем говорить в очередном выпуске «Летней лИСтКУССТВенницы». Да, если считать культовыми те фильмы, которые в народе растащили на цитаты, то «Республика ШКИД» , снятая режиссёром Геннадием Полокой ...
"Снежная капля, робкое дитя Зимы, Пробуждается к жизни со слезами; Она распространяет вокруг себя мягкий аромат, И там, где не цветут никакие другие цветы, Среди голого и леденящего мрака, Появляется прекрасный драгоценный камень!..." Из романа Мэри Робинсон 'Walsingham', 1797 год ...