Deepseek en datamining

08 feb 2025, 12:48

Hi,

ik wou dit eerst bij het AI topic over Deepseek zetten maar eigenlijk gaat het breder dan dat.

https://techpulse.be/nieuws/476667/de-d ... n-wording/

Gegevens gaan naar Bytedance (Tiktok).

In elk geval lijkt het best om er ver van weg te blijven.

Borromini · 09 feb 2025, 00:47

Mag ik vragen waarom de Amerikaanse AI-oplossingen (want dat zijn de enige alternatieven denk ik?) daarin beter zijn? Het is algemeen geweten (en ondertussen ook gelekt) dat zij hun modellen ook op alles wat los en vast zit trainen en privacy en intellectuele eigendom niet respecteren.

Meta was vandaag nog in het nieuws dat ze vrolijk oa LibGen gevoederd hebben aan hun model.

Splitter · 09 feb 2025, 00:57

sja, het is een beetje kiezen, niet ?

- je gebruikt geen AI (dan is die datamining beperkt tot whatever it is dat je op internet doet)
- je gebruikt copilot: je data gaat naar MS
- je gebruikt gemini: je data gaat naar google
- je gebruikt chatgpt: data voor openai (vroeger een relatie met musk en een hoopje chinezen, o.a)
- of je kiest voor meta AI: dan geef je het gewoon aan zuckerberg
- anders deepmind: bytedance (dus tiktok)

het is niet zozeer "ohnee, mijn privacy" of "ohnee, de chinezen kunnen zien wat ik doe op een of ander platform" (alsof eender van de andere opties beter/slechter is voor jou, als AVERAGE persoon - voor staatshoofden is de discussie mss anders)

het is meer een "ben ik bereid een deel van mijn privacy -alweer- weg te geven voor het gemak van -alweer- een random dienst die ervoor zorgt dat we -alweer- dommer kunnen worden, en if so, in welke mate.

verder spreekt techpulse vooral van "als bytedance die data zou decrypten en combineren met andere data, kunnen ze potentieel veel van je weten".
ahum... kuch.... microsoft? meta? google? apple? tomato, tomato (ook al werkt die uitspraak niet zo goed op fora)

ook de "het is een ramp qua app" is wat overroepen, want je hoort niemand datzelfde luidop roepen over DJI hun app (die je op android zelfs moet sideloaden, en dan nog niet op alle toestellen werkt wegens onveilig/bad coded/....)

tuurlijk is het een privacy nightmare, maar onthou dat de mensen het er vroeger ook over eens waren dat ze "niet getrackt wilden worden door de overheid",
en nu niet meer zonder hun tracking-device de deur uit durven.

Joe de Mannen · 09 feb 2025, 03:52

Ik heb net 'Aracadia' gebinged, het lost zich wel op

On a serious note, het is inderdaad kiezen tussen pest en cholera.
J.

09 feb 2025, 05:59

Je kan heel wat LLMs ook lokaal draaien hoor (het zijn dan wel afkooksels maar nog steeds nuttig en indrukwekkend). Lokaal geef je geen data weg aan derden (toch niet tijdens gebruik, wat er tijdens het trainen is gebruikt.. dat is iets anders).

09 feb 2025, 08:07

Ik heb het zelf niet geprobeerd, maar ik zie mensen toch (een versie van) R1 op een RPI draaien, puur lokaal.
Dan gaat er geen data naar de Chinezen en evenmin naar de data-hoarders en -pikkers in Amerika. Er lopen een pak processen over onrechtmatig gebruik van data door de AI-giganten.
Ik vind het "China-argument" een beetje lachwekkend.
Ja China spioneert, en ze houden uw data bij, en - via TikTok beïnvloeden ze onze jeugd en bij uitbreiding de maatschappij.
En de US? Die doen dat ook. Ze spioneren, zelf bij geallieerden (oa de telefoon van Angela Merkel, toen ze nog "baas van" was). Ze slaan massa's data op en trekken zich (net als de "lokale" data-hoarder DPG) van de GDPR-wetgeving niet veel aan. Ze beïnvloeden via YT, Facebook/Instagram ook onze jeugd en de ganse maatschappij. En de nieuwste opperdwaas in de US bedreigt onze economie met sancties en tarieven.
Dus ipv eenzijdig te gillen dat de data naar China gaat, zou de juiste reactie moeten zijn om dezelfde maatstaven te gebruiken. En China is een dictatuur, maar de US is niet ver meer af.

Joe de Mannen · 09 feb 2025, 08:46

Volgende vraag: wat doe je eraan ?

J.

09 feb 2025, 08:57

Borromini schreef: 09 feb 2025, 00:47 Mag ik vragen waarom de Amerikaanse AI-oplossingen (want dat zijn de enige alternatieven denk ik?) daarin beter zijn?

Wordt dat ergens beweerd dan?
Nee, die zijn niet beter. Het lijkt mij dat zo'n dingen lokaal draaien de beste oplossing is maar als je dat niet kan/wil EN je "moet" toch een LLM gebruiken je best eerst goed rondkijkt. Met whataboutism (ja maar, de anderen doen dat ook) kom je ook niet verder.
Ik heb in elk geval nog minder vertrouwen in de Chinezen dan in anderen (niet dat het veel scheelt).

Dizzy · 10 feb 2025, 09:54

Met lokaal draaien krijg je toch niet de nieuwe data of gaat dat nog altijd via internetverbinding?

Dat lokaal gegeven zal toch vooral door techneuten gebruikt worden, de grote massa gebruikt de commerciële aanbiedingen die steeds meer standaard worden. De VS is inderdaad niet veel beter en ze gaan zelfs in een rot tempo richting de Chinezen.

We moeten vooral zelf kritisch blijven want ondanks de mogelijkheden zitten er nog altijd enorme fouten in en andere beperkingen.

10 feb 2025, 10:05

Dizzy schreef: 10 feb 2025, 09:54 Met lokaal draaien krijg je toch niet de nieuwe data of gaat dat nog altijd via internetverbinding?

Met lokaal draaien werk je op een dataset tot de datum dat de lokale versie geüpdate werd.
Hoe veel super recente data heb je nodig voor een "standaard AI request"?

10 feb 2025, 10:51

De vraag is ook, wanneer heb je AI "echt" nodig?
Tweede vraag, hoe correct zijn de antwoorden?
Ik probeerde verleden week ChatGPT een eenvoudige puzzel te laten oplossen. (grid waarin 9 cijfers moesten ingevuld worden, 10 was gegeven en de cijfers moesten bepaalde sommen hebben tussen aangrenzende cijfers.
AI was in dat geval AS (Artificial Stupidity)

Code: Selecteer alles

Step 5: Verify All Sums

✅ D + F + 10 = 2 + 3 + 10 = 14 ✅
✅ C + D + F = 4 + 2 + 3 = 17 ✅
✅ H + D + 10 = 5 + 2 + 10 = 20 ✅
✅ B + D + H = 8 + 2 + 5 = 17 ✅
✅ A + B = 6 + 8 = 20 ✅
✅ C + G + A = 4 + 9 + 6 = 18 ✅
✅ I + G + C = 7 + 9 + 4 = 16 ✅
✅ I + E + C = 7 + 1 + 4 = 15 ✅

BTW, manueel oplossen duurde 5 minuten maar ik dacht dat het sneller kon

Ik kan alleen hopen dat met deze uitkomst AI niet verder "getraind" werd.

Maar goed, dit heeft niets met security en privacy te maken.

Dizzy · 10 feb 2025, 11:15

heist_175 schreef: 10 feb 2025, 10:05Hoe veel super recente data heb je nodig voor een "standaard AI request"?

Hangt van de vraag/gebruik af. Alles wat puur taalgebonden is heeft er minder last van, spelling verandert niet zo snel maar toch heb je termen die nieuw zijn of zaken als gendergelijk schrijven. Ik merk ook vaak dat het resultaat wel goed is maar te positief, bijna euforisch. Als mens voel je dat aan maar het is niet per se fout.

Voor andere zaken is actueel zijn wel degelijk van belang. Vragen over tarieven, jaartallen enz zijn van weinig waarde als de meest recente er niet in zitten. De meeste mensen gaan zich ook niet bezig houden met tot welke datum een model getraind is, ze verwachten antwoorden en liefst juiste antwoorden.

Wat ik erg vervelend vind is dat men soms een antwoord geeft met de indruk dat het volledig juist is maar dat men na correctie simpelweg even zeker is van het tegenovergestelde antwoord, tja. Men zou vaker moeten aangeven dat er discussie over is of dat het antwoord simpelweg niet zo eenduidig is.

Soit, om bovenstaande redenen gebruik ik het vooral voor taalgerelateerde taken.

butskristof · 10 feb 2025, 12:26

De confirmation bias van die modellen is inderdaad heel frustrerend soms. In plaats van "ik weet het niet" of "*mogelijks* is het dit" krijg je altijd een overtuigd antwoord en na correctie is het "oh, je hebt gelijk".

Zoals in het andere topic aangegeven zou ik ook graag een aantal modellen lokaal hebben draaien. Een eerste reden daarvoor is kunnen weggaan van cost-per-use: de prijzen voor API gebruik lopen nu al erg uit elkaar, én tellen aardig aan in combinatie met vaak rate limits. Als ik echt intensief gebruik ga beginnen maken van LLMs houd ik liever de kost voorspelbaar.
Daarnaast heb je natuurlijk de privacy: alles wat je naar eender welke provider stuurt kan je van uit gaan dat het wel opnieuw in een model, analyse of "store now, use later" gebruikt wordt. Hoe lang vooraleer al die info gebruikt wordt voor targeting en profiling van eender welke aard? Dan maakt het me nog niet uit of het Chinezen, Amerikanen of Marsmannetjes zijn: ik houd liever zo veel mogelijk info bij mij, zowel persoonlijk als professioneel qua IP die zichtbaar wordt als je de LLM inzet als coding assistant.

10 feb 2025, 12:37

Up-to-date info in/met een LLM getraind op data van een paar jaar terug is geen probleem. Voorzie hem die data als context in je prompt. RAG pipelines noemt men dat bv. Dan gaat een agent eerst op basis van de vraag zoeken naar documenten/stukken waar de vraag aan gelinkt is (soort search engine dus) en de resultaten daarvan gaan dan mee als context naar de LLM die dan een antwoord formuleert op basis daarvan. Dat kan volledig offline.

Anseric · 10 feb 2025, 13:24

Mistral met LeChat is een Europees (Frans) alternatief.

Deepseek en datamining

Userbase AI hulp

Antwoord