Как они пишут
vladimir101 — 05.02.2010Я продолжаю писать программу для всяких функций по анализу текстов. Написал интересный кусок, который позволяет анализировать как велико разнообразие слов в тексте. Немного подробнее...
Часто встречающиеся слова
Можно взять тысячи текстов и посчитать сколько раз встречается то или иное слово. После этого выделить первую сотню наиболее популярных слов. Для английского языка эти сто слов приведены в таблице.
А теперь давайте возьмем какой-либо текст и выкинем эти популярные слова. Останутся более редкие слова. Они уже не такие расхожие, и их количество характеризует стиль автора. Чем больше слов в тексте останется после выкидывания 100 популярных слов, тем более насыщен текст нетривиальными словами.
С помощью моей программы я проделал такие процедуры с некоторыми текстами и оказалось, что после выкидывания остается около 40% текста!
Это же сколько бумаги и компьютерной памяти занимают эти 100 слов!
Не такие расхожие слова
Итак, если мы выкинем из текста 100 популярных слов, то останется меньше половины. Там будут не такие расхожие слова и объем этого текста будет характеризовать воображение писателя, его словарный запас.
А как писатель использует свой словарный запас? Насколько разнообразны его страницы? Нет ли повторений слов в тексте?
Чтобы ответить на этот вопрос надо общее число слов в тексте разделить на число оригинальных слов. Поясню на примере простого текста.
Мама мыла раму, мама мыла Машу.
Общее число слов тут 6, а оригинальных слов тут 4. Слова «мама» и «мыла» повторяются по два раза.
Джек Лондон и Эрнест Хемингуэй
Когда в Москве я стал изучать английский, то первым делом купил книги на английском языке. Это были «Белый клык» Джека Лондона и «Прощай оружие» Хемингуэя. Роман «Прощай оружие» пролетел, как песня, а вот «Белый клык» заставил меня усомниться,что я когда-либо смогу выучить английский.
Я прогнал через мою программу несколько романов Джека Лондона и Эрнеста Хемингуэя. Оказалось, что в среднем:
у Д. Лондона остается 46% теста после выкидывания 100 популярных слов
а у Э. Хемингуэя в этом случае остается 40%
Д. Лондон использует слова в среднем по 3.5 раза в романах
а Э. Хемингуэй использует слова в среднем по 6.3 раза в романах!
Полученные цифры средние о они весьма стабильные от романа к роману. Так у Хемингуэя в романах эти цифры
Прощай оружие - 40,1% и 6.65
По ком звонит колокол - 39,6% и 5.97
Эти цифры можно поставить на график, что я и сделал. Фотографии стоят вместо точек, я думаю, что так понятно будет. Чем выше фото и чем левее, тем более богатый язык у писателя.
Означает ли это, что писатели с богатым языком более интересны и пишут лучше? Не факт, тут нужно исследовать дальше. А вот мои графики могут помочь в изучении иностранных языков. Можно понять с каких писателей надо начинать, а каких оставить на потом.