Google, ШІ та датасети
Раніше в матеріалі про статичні та темпоральні канали, я вже розказувала про «цифровий слід» та важливість використання ЗМІ для його формування
Коротко нагадаю – ЗМІ зберігають контент та тримають його відкритим до індексації. Просунуті редактори навіть використовують SEO-підходи для покращення текстів своїх новин та статей. Таким чином, цей контент легко шукається через пошукові системи та пасивно доготривало «працює» на зацікавлену (а значить – теплу) аудиторію, що здійснює пошук за релевантними запитами.
Іншими словами, ваш пост у стрічці FB аудиторія зможе бачити кілька днів, далі відкритий доступ до нього буде ускладнений. Але вашу новину в ЗМІ зможуть бачити роками в пошуковій видачі Google, якщо зроблять релевантний запит.
Таким чином, за посередництва Google, ми маємо змогу формувати в Інтернеті (а значить – у відкритому доступі) певний архів/профайл/бекграунд нашої компанії і її діяльності.
Та часи змінюються.
З появою LLM (великі мовні моделі – GPT, Claude та багато інших) люди почали використовувати їх як альтернативу пошуковим системам. В першу чергу, це стосується просунутих користувачів LLM та, звісно, мόлоді. GPT як гуглом чи вікіпедією користуються навіть при тому, що існує спеціальний пошуковий ШІ Perplexity, до якого можна «підключити» той же GPT чи Claude. І щось мені підказує, що така практика буде ширитись. Особливо з появою голосових інтерфейсів взаємодії з ШІ, як в новому GPT.
Але як LLM знають про масу речей на світі, якщо в них відсутній доступ до Інтернету? Відразу скажу – штучний інтелект НЕ гуглить відповідь на ваше питання. Він її «знає». Винятки становлять деякі версії ШІ, що можуть, за потреби, погуглити інфу, якщо вона відсутня в їх базі знань, що буває вкрай рідко.
Отже, як формуються знання ШІ. Інженери готують пошуковий алгоритм. Цей алгоритм збирає великий об’єм різноманітної інформації з усіх доступних джерел – так званий датасет. Ці датасети завантажуються в ШІ для процесу навчання. ШІ навчається і отримує певні знання. Далі ці дані він використовує в своїй роботі. Зрозуміло що ці знання постійно «застарівають», тому датасети регулярно оновлюються. Дату актуального датасету можна дізнатись ввівши в ШІ такий промпт – замість AI MODEL вставте версію ШІ яким ви користуєтесь:
# Fetch latest AI MODEL version details
INFO: version, update_date [day/month/year], knowledge_cutoff_date [day/month/year]
LANG: uk-UA
Тобто, якщо датасет зібраний до січня 2022 року, як в GPT 3.5, то на запит «Що сталось в Україні в Лютому 2022 року?» ШІ не дасть відповідь про повномасштабне вторгнення росії. А от GPT 4 вже дасть, тому що його датасет обмежується груднем 2023 року.
Таким чином ми отримали ще один головний біль одну можливість формувати профайл для аудиторії, яка користується іншим інструментом для пошуку інформації.
Це потрібно враховувати в своїй роботі, адже ми знаємо – якщо дурень ШІ щось не дочув знає, то допридумує. Про це я писала раніше коли розповідала про «галюцинування» та «критичні забування» ШІ.
При цьому тримаємо в голові, що алгоритм, який збирає датасети, бере приблизно 60% інформації зі ЗМІ і 40% інформації з соцмереж. Що саме він бере з соцмереж важко дослідити, адже вони значно менш дружні до індексації, крім цього існує маса внутрішніх обмежень ШІ щодо збору та використання даних з соцмереж з причин порушення приватності.
Я не стверджую, що Google став менш корисним і що існує якась відчутна міграція запитів з пошуковиків до LLM, проте, ми, комунікаційники, повинні постійно дивитись вперед і враховувати нові тенденції в своїй роботі. Адже наша професія знаходиться на грані інформаційних технологій. В будь-яку епоху.
- Що очікувати українцям із прийняттям Закону про основні засади житлової політики Сергій Комнатний 14:53
- Як масова міграція з України змінила польський ринок праці за останні 10 років Сильвія Красонь-Копаніаж 10:15
- Відмова від спадщини на тимчасово окупованій території Євген Осичнюк вчора о 16:17
- Реформа, на яку чекали десятиліттями: 7 головних новацій нового Трудового кодексу Олексій Шевчук вчора о 12:23
- Сакральне мистецтво війни Наталія Сидоренко 12.01.2026 17:55
- Фінансовий мінімалізм: чому "достатньо" має стати новою особистою стратегією Інна Бєлянська 12.01.2026 16:12
- CRS як рентген капіталу: чому бізнесу час забути про офшори Ростислав Никітенко 12.01.2026 09:31
- Ілюзія відпочинку. Чому ви відчуваєте втому, навіть коли нічого не робите Олександр Висоцький 10.01.2026 17:14
- Невизначеність поняття "розшук" у законі про мобілізацію та військовий облік Сергій Рябоконь 10.01.2026 16:15
- Акцизний податок – баланс між доходами та споживання Мирослав Лаба 09.01.2026 17:40
- Як перетворити порожні не житлові будівлі на доступне житло, європейський досвід Сергій Комнатний 09.01.2026 17:06
- Порушення правил військового обліку: підстави відповідальності та правові наслідки Сергій Рябоконь 09.01.2026 15:55
- Година в потязі з іноземцем: легкі фрази, які допоможуть підтримати розмову Інна Лукайчук 08.01.2026 20:57
- Зміни в трудовому законодавстві 2025 року: бронювання військовозобов’язаних працівників Сергій Рябоконь 08.01.2026 15:52
- Малий розріз – великі очікування: чесно про ендоскопічну підтяжку Дмитро Березовський 08.01.2026 15:48
- Економіка під тиском війни: чому Київщина стала одним із драйверів зростання у 2025 році 659
- Реформа, на яку чекали десятиліттями: 7 головних новацій нового Трудового кодексу 652
- Фінансовий мінімалізм: чому "достатньо" має стати новою особистою стратегією 617
- Підтримка молоді під час війни: чому ми не маємо права втратити "золоту ДНК" нації 232
- Невизначеність поняття "розшук" у законі про мобілізацію та військовий облік 82
-
Олії по коліно. Що насправді загрожує Україні після знищення Олейни та портових резервуарів
Бізнес 14092
-
Honda змінила культовий логотип – нова "H" з’явиться з 2027 року
Технології 4498
-
Аналітики запропонували інший поріг ПДВ для ФОП – 6 млн грн замість 1 млн
Фінанси 4297
-
Життя при -30 °C без батарей: як традиційні системи опалення знову стають актуальними
Життя 2770
-
Як відключення світла "б’є" по психіці: чому "накриває" так сильно і як уберегти себе й дітей
Життя 2064
