А что с базой делать дальше? (GPT o3)
iosfixed — 06.05.2025
// Я подумал, что отчасти и освещу технику выжимания информации из GPT. C GPT-4o бесполезно, она весьма глупая. А вот o3 в нашем деле полезен.
А прикрепляем как файл и пишем
> Выдели из events.csv события, которые относятся к
категориям 1. Пожары, катастрофы, стихийные бедствия. 2. Войны,
вооруженные конфликты, 3. Национально-освободительная борьба 4.
Эпидемии. 0. Ни одно из вышеперечисленных.
>Так же для каждого типа события подбери машстаб - от 1 лёгкий,
до 5 экстремальный.
Начинает писать код для тупого поиска по ключевым
словам, без всякого интеллекта. Останавливаю.
> Эу. Сделай классификацию при помощи себя. Ты вполне
можешь проглотить этот текст в несколько приёмов. Событие ->
класс (0-4), масштаб (None, 1-5)
> Спасибо, конечно. Но ты маешься дурью. Сними с них эмбеддинги,
посмотри как они откликаются на запрашиваемые категории. Будет
быстрее и лучше в тысячу раз.
Как я его не уговаривал, он всё-равно скатывался к
поиску по ключевым словам.

> Тогда хотя бы лемматизируй текст сперва. Ищи по
токенам а не по тупому поиску по словам.
Лемматизировать — это значит разбить текст на частички
(слова, знаки препинания, части сложных слов) и привести их к
нормальной форме — к первому лицу в единственном числе. Лёгкие
библиотеки типа nastasha работает даже на русском; А nltk — на
английском так вообще песня.
С третьей попытки запускает nltk и делает
анализ текста. Раньше приходилось править эти ошибки
самостоятельно, на что могло уходить несколько вечеров.
Код, который он сгенерировал и который у него
запустился.
Результат: events_classified_tokens.csv
Теперь у нас есть база событий, где можно фильтровать событие по
дате и по типу.
|
|
</> |
Жалюзийные двери или сплошные полотна: что выбрать для вашего интерьера
Владимиров И.А., Продразверстка (реквизиция).
Высокие переговоры глав церквей
Полупустые полки магазина. Фото
Про пьяного факира
Как начать высыпаться и вовремя вставать
Мир не желает содержать европейскую зелёную энергетику...
Парк "Горка"

