Hi,
ik wou dit eerst bij het AI topic over Deepseek zetten maar eigenlijk gaat het breder dan dat.
https://techpulse.be/nieuws/476667/de-d ... n-wording/
Gegevens gaan naar Bytedance (Tiktok).
In elk geval lijkt het best om er ver van weg te blijven.
Deepseek en datamining
-
- Pro Member
- Berichten: 266
- Lid geworden op: 13 feb 2018, 08:36
- Uitgedeelde bedankjes: 336 keer
- Bedankt: 29 keer
Mag ik vragen waarom de Amerikaanse AI-oplossingen (want dat zijn de enige alternatieven denk ik?) daarin beter zijn? Het is algemeen geweten (en ondertussen ook gelekt) dat zij hun modellen ook op alles wat los en vast zit trainen en privacy en intellectuele eigendom niet respecteren.
Meta was vandaag nog in het nieuws dat ze vrolijk oa LibGen gevoederd hebben aan hun model.
Meta was vandaag nog in het nieuws dat ze vrolijk oa LibGen gevoederd hebben aan hun model.
EDPnet Fiber XS 150/50 .:. Hardware: (OpenWrt 24.10 HEAD): MikroTik RB5009UG+S+IN ◌ ZyXEL GS1900-10HP PoE+ ◌ TP-Link EAP615-Wall (802.11ax) ◌ Netgear WAX202 (802.11ax) ◌ Netgear GS108T v3
- Splitter
- Elite Poster
- Berichten: 5866
- Lid geworden op: 10 maa 2010, 12:30
- Uitgedeelde bedankjes: 68 keer
- Bedankt: 598 keer
sja, het is een beetje kiezen, niet ?
- je gebruikt geen AI (dan is die datamining beperkt tot whatever it is dat je op internet doet)
- je gebruikt copilot: je data gaat naar MS
- je gebruikt gemini: je data gaat naar google
- je gebruikt chatgpt: data voor openai (vroeger een relatie met musk en een hoopje chinezen, o.a)
- of je kiest voor meta AI: dan geef je het gewoon aan zuckerberg
- anders deepmind: bytedance (dus tiktok)
het is niet zozeer "ohnee, mijn privacy" of "ohnee, de chinezen kunnen zien wat ik doe op een of ander platform" (alsof eender van de andere opties beter/slechter is voor jou, als AVERAGE persoon - voor staatshoofden is de discussie mss anders)
het is meer een "ben ik bereid een deel van mijn privacy -alweer- weg te geven voor het gemak van -alweer- een random dienst die ervoor zorgt dat we -alweer- dommer kunnen worden, en if so, in welke mate.
verder spreekt techpulse vooral van "als bytedance die data zou decrypten en combineren met andere data, kunnen ze potentieel veel van je weten".
ahum... kuch.... microsoft? meta? google? apple? tomato, tomato (ook al werkt die uitspraak niet zo goed op fora)
ook de "het is een ramp qua app" is wat overroepen, want je hoort niemand datzelfde luidop roepen over DJI hun app (die je op android zelfs moet sideloaden, en dan nog niet op alle toestellen werkt wegens onveilig/bad coded/....)
tuurlijk is het een privacy nightmare, maar onthou dat de mensen het er vroeger ook over eens waren dat ze "niet getrackt wilden worden door de overheid",
en nu niet meer zonder hun tracking-device de deur uit durven.
- je gebruikt geen AI (dan is die datamining beperkt tot whatever it is dat je op internet doet)
- je gebruikt copilot: je data gaat naar MS
- je gebruikt gemini: je data gaat naar google
- je gebruikt chatgpt: data voor openai (vroeger een relatie met musk en een hoopje chinezen, o.a)
- of je kiest voor meta AI: dan geef je het gewoon aan zuckerberg
- anders deepmind: bytedance (dus tiktok)
het is niet zozeer "ohnee, mijn privacy" of "ohnee, de chinezen kunnen zien wat ik doe op een of ander platform" (alsof eender van de andere opties beter/slechter is voor jou, als AVERAGE persoon - voor staatshoofden is de discussie mss anders)
het is meer een "ben ik bereid een deel van mijn privacy -alweer- weg te geven voor het gemak van -alweer- een random dienst die ervoor zorgt dat we -alweer- dommer kunnen worden, en if so, in welke mate.
verder spreekt techpulse vooral van "als bytedance die data zou decrypten en combineren met andere data, kunnen ze potentieel veel van je weten".
ahum... kuch.... microsoft? meta? google? apple? tomato, tomato (ook al werkt die uitspraak niet zo goed op fora)
ook de "het is een ramp qua app" is wat overroepen, want je hoort niemand datzelfde luidop roepen over DJI hun app (die je op android zelfs moet sideloaden, en dan nog niet op alle toestellen werkt wegens onveilig/bad coded/....)
tuurlijk is het een privacy nightmare, maar onthou dat de mensen het er vroeger ook over eens waren dat ze "niet getrackt wilden worden door de overheid",
en nu niet meer zonder hun tracking-device de deur uit durven.
- Joe de Mannen
- Elite Poster
- Berichten: 6919
- Lid geworden op: 22 feb 2005, 12:46
- Uitgedeelde bedankjes: 523 keer
- Bedankt: 673 keer
Ik heb net 'Aracadia' gebinged, het lost zich wel op 
On a serious note, het is inderdaad kiezen tussen pest en cholera.
J.

On a serious note, het is inderdaad kiezen tussen pest en cholera.
J.
Ik ben alleen verantwoordelijk voor mij eigen uitspraken, niet voor wat anderen ervan maken of aan toevoegen...
- NuKeM
- Administrator
- Berichten: 5660
- Lid geworden op: 10 nov 2002, 00:55
- Uitgedeelde bedankjes: 125 keer
- Bedankt: 261 keer
Je kan heel wat LLMs ook lokaal draaien hoor (het zijn dan wel afkooksels maar nog steeds nuttig en indrukwekkend). Lokaal geef je geen data weg aan derden (toch niet tijdens gebruik, wat er tijdens het trainen is gebruikt.. dat is iets anders).
- heist_175
- Moderator
- Berichten: 16261
- Lid geworden op: 07 okt 2010, 09:35
- Locatie: Kempen
- Uitgedeelde bedankjes: 518 keer
- Bedankt: 1176 keer
- Recent bedankt: 5 keer
Ik heb het zelf niet geprobeerd, maar ik zie mensen toch (een versie van) R1 op een RPI draaien, puur lokaal.
Dan gaat er geen data naar de Chinezen en evenmin naar de data-hoarders en -pikkers in Amerika. Er lopen een pak processen over onrechtmatig gebruik van data door de AI-giganten.
Ik vind het "China-argument" een beetje lachwekkend.
Ja China spioneert, en ze houden uw data bij, en - via TikTok beïnvloeden ze onze jeugd en bij uitbreiding de maatschappij.
En de US? Die doen dat ook. Ze spioneren, zelf bij geallieerden (oa de telefoon van Angela Merkel, toen ze nog "baas van" was). Ze slaan massa's data op en trekken zich (net als de "lokale" data-hoarder DPG) van de GDPR-wetgeving niet veel aan. Ze beïnvloeden via YT, Facebook/Instagram ook onze jeugd en de ganse maatschappij. En de nieuwste opperdwaas in de US bedreigt onze economie met sancties en tarieven.
Dus ipv eenzijdig te gillen dat de data naar China gaat, zou de juiste reactie moeten zijn om dezelfde maatstaven te gebruiken. En China is een dictatuur, maar de US is niet ver meer af.
Dan gaat er geen data naar de Chinezen en evenmin naar de data-hoarders en -pikkers in Amerika. Er lopen een pak processen over onrechtmatig gebruik van data door de AI-giganten.
Ik vind het "China-argument" een beetje lachwekkend.
Ja China spioneert, en ze houden uw data bij, en - via TikTok beïnvloeden ze onze jeugd en bij uitbreiding de maatschappij.
En de US? Die doen dat ook. Ze spioneren, zelf bij geallieerden (oa de telefoon van Angela Merkel, toen ze nog "baas van" was). Ze slaan massa's data op en trekken zich (net als de "lokale" data-hoarder DPG) van de GDPR-wetgeving niet veel aan. Ze beïnvloeden via YT, Facebook/Instagram ook onze jeugd en de ganse maatschappij. En de nieuwste opperdwaas in de US bedreigt onze economie met sancties en tarieven.
Dus ipv eenzijdig te gillen dat de data naar China gaat, zou de juiste reactie moeten zijn om dezelfde maatstaven te gebruiken. En China is een dictatuur, maar de US is niet ver meer af.
- Joe de Mannen
- Elite Poster
- Berichten: 6919
- Lid geworden op: 22 feb 2005, 12:46
- Uitgedeelde bedankjes: 523 keer
- Bedankt: 673 keer
Volgende vraag: wat doe je eraan ?
J.
J.
Ik ben alleen verantwoordelijk voor mij eigen uitspraken, niet voor wat anderen ervan maken of aan toevoegen...
- on4bam
- Moderator
- Berichten: 6415
- Lid geworden op: 05 mei 2006, 16:05
- Locatie: 127.0.0.1 of elders
- Uitgedeelde bedankjes: 304 keer
- Bedankt: 631 keer
- Recent bedankt: 8 keer
Wordt dat ergens beweerd dan?Borromini schreef: 4 maanden geleden Mag ik vragen waarom de Amerikaanse AI-oplossingen (want dat zijn de enige alternatieven denk ik?) daarin beter zijn?
Nee, die zijn niet beter. Het lijkt mij dat zo'n dingen lokaal draaien de beste oplossing is maar als je dat niet kan/wil EN je "moet" toch een LLM gebruiken je best eerst goed rondkijkt. Met whataboutism (ja maar, de anderen doen dat ook) kom je ook niet verder.
Ik heb in elk geval nog minder vertrouwen in de Chinezen dan in anderen (niet dat het veel scheelt).
Bye, Maurice
https://on4bam.com
https://on4bam.com
- Dizzy
- Elite Poster
- Berichten: 12316
- Lid geworden op: 06 dec 2009, 13:28
- Locatie: Hier ter plaatse
- Uitgedeelde bedankjes: 571 keer
- Bedankt: 709 keer
- Recent bedankt: 7 keer
Met lokaal draaien krijg je toch niet de nieuwe data of gaat dat nog altijd via internetverbinding?
Dat lokaal gegeven zal toch vooral door techneuten gebruikt worden, de grote massa gebruikt de commerciële aanbiedingen die steeds meer standaard worden. De VS is inderdaad niet veel beter en ze gaan zelfs in een rot tempo richting de Chinezen.
We moeten vooral zelf kritisch blijven want ondanks de mogelijkheden zitten er nog altijd enorme fouten in en andere beperkingen.
Dat lokaal gegeven zal toch vooral door techneuten gebruikt worden, de grote massa gebruikt de commerciële aanbiedingen die steeds meer standaard worden. De VS is inderdaad niet veel beter en ze gaan zelfs in een rot tempo richting de Chinezen.
We moeten vooral zelf kritisch blijven want ondanks de mogelijkheden zitten er nog altijd enorme fouten in en andere beperkingen.
Wil je iemand kwaad maken, vertel hem dan leugens. Wil je iemand razend maken, vertel hem dan de waarheid.
- heist_175
- Moderator
- Berichten: 16261
- Lid geworden op: 07 okt 2010, 09:35
- Locatie: Kempen
- Uitgedeelde bedankjes: 518 keer
- Bedankt: 1176 keer
- Recent bedankt: 5 keer
Met lokaal draaien werk je op een dataset tot de datum dat de lokale versie geüpdate werd.Dizzy schreef: 4 maanden geleden Met lokaal draaien krijg je toch niet de nieuwe data of gaat dat nog altijd via internetverbinding?
Hoe veel super recente data heb je nodig voor een "standaard AI request"?
- on4bam
- Moderator
- Berichten: 6415
- Lid geworden op: 05 mei 2006, 16:05
- Locatie: 127.0.0.1 of elders
- Uitgedeelde bedankjes: 304 keer
- Bedankt: 631 keer
- Recent bedankt: 8 keer
De vraag is ook, wanneer heb je AI "echt" nodig?
Tweede vraag, hoe correct zijn de antwoorden?
Ik probeerde verleden week ChatGPT een eenvoudige puzzel te laten oplossen. (grid waarin 9 cijfers moesten ingevuld worden, 10 was gegeven en de cijfers moesten bepaalde sommen hebben tussen aangrenzende cijfers.
AI was in dat geval AS (Artificial Stupidity)
BTW, manueel oplossen duurde 5 minuten maar ik dacht dat het sneller kon
Ik kan alleen hopen dat met deze uitkomst AI niet verder "getraind" werd.
Maar goed, dit heeft niets met security en privacy te maken.
Tweede vraag, hoe correct zijn de antwoorden?
Ik probeerde verleden week ChatGPT een eenvoudige puzzel te laten oplossen. (grid waarin 9 cijfers moesten ingevuld worden, 10 was gegeven en de cijfers moesten bepaalde sommen hebben tussen aangrenzende cijfers.
AI was in dat geval AS (Artificial Stupidity)
Code: Selecteer alles
Step 5: Verify All Sums
✅ D + F + 10 = 2 + 3 + 10 = 14 ✅
✅ C + D + F = 4 + 2 + 3 = 17 ✅
✅ H + D + 10 = 5 + 2 + 10 = 20 ✅
✅ B + D + H = 8 + 2 + 5 = 17 ✅
✅ A + B = 6 + 8 = 20 ✅
✅ C + G + A = 4 + 9 + 6 = 18 ✅
✅ I + G + C = 7 + 9 + 4 = 16 ✅
✅ I + E + C = 7 + 1 + 4 = 15 ✅

Ik kan alleen hopen dat met deze uitkomst AI niet verder "getraind" werd.
Maar goed, dit heeft niets met security en privacy te maken.
Bye, Maurice
https://on4bam.com
https://on4bam.com
- Dizzy
- Elite Poster
- Berichten: 12316
- Lid geworden op: 06 dec 2009, 13:28
- Locatie: Hier ter plaatse
- Uitgedeelde bedankjes: 571 keer
- Bedankt: 709 keer
- Recent bedankt: 7 keer
Hangt van de vraag/gebruik af. Alles wat puur taalgebonden is heeft er minder last van, spelling verandert niet zo snel maar toch heb je termen die nieuw zijn of zaken als gendergelijk schrijven. Ik merk ook vaak dat het resultaat wel goed is maar te positief, bijna euforisch. Als mens voel je dat aan maar het is niet per se fout.heist_175 schreef: 4 maanden geledenHoe veel super recente data heb je nodig voor een "standaard AI request"?
Voor andere zaken is actueel zijn wel degelijk van belang. Vragen over tarieven, jaartallen enz zijn van weinig waarde als de meest recente er niet in zitten. De meeste mensen gaan zich ook niet bezig houden met tot welke datum een model getraind is, ze verwachten antwoorden en liefst juiste antwoorden.
Wat ik erg vervelend vind is dat men soms een antwoord geeft met de indruk dat het volledig juist is maar dat men na correctie simpelweg even zeker is van het tegenovergestelde antwoord, tja. Men zou vaker moeten aangeven dat er discussie over is of dat het antwoord simpelweg niet zo eenduidig is.
Soit, om bovenstaande redenen gebruik ik het vooral voor taalgerelateerde taken.
Wil je iemand kwaad maken, vertel hem dan leugens. Wil je iemand razend maken, vertel hem dan de waarheid.
-
- Elite Poster
- Berichten: 1548
- Lid geworden op: 19 dec 2011, 18:42
- Locatie: Heist-op-den-Berg
- Uitgedeelde bedankjes: 480 keer
- Bedankt: 114 keer
De confirmation bias van die modellen is inderdaad heel frustrerend soms. In plaats van "ik weet het niet" of "*mogelijks* is het dit" krijg je altijd een overtuigd antwoord en na correctie is het "oh, je hebt gelijk".
Zoals in het andere topic aangegeven zou ik ook graag een aantal modellen lokaal hebben draaien. Een eerste reden daarvoor is kunnen weggaan van cost-per-use: de prijzen voor API gebruik lopen nu al erg uit elkaar, én tellen aardig aan in combinatie met vaak rate limits. Als ik echt intensief gebruik ga beginnen maken van LLMs houd ik liever de kost voorspelbaar.
Daarnaast heb je natuurlijk de privacy: alles wat je naar eender welke provider stuurt kan je van uit gaan dat het wel opnieuw in een model, analyse of "store now, use later" gebruikt wordt. Hoe lang vooraleer al die info gebruikt wordt voor targeting en profiling van eender welke aard? Dan maakt het me nog niet uit of het Chinezen, Amerikanen of Marsmannetjes zijn: ik houd liever zo veel mogelijk info bij mij, zowel persoonlijk als professioneel qua IP die zichtbaar wordt als je de LLM inzet als coding assistant.
Zoals in het andere topic aangegeven zou ik ook graag een aantal modellen lokaal hebben draaien. Een eerste reden daarvoor is kunnen weggaan van cost-per-use: de prijzen voor API gebruik lopen nu al erg uit elkaar, én tellen aardig aan in combinatie met vaak rate limits. Als ik echt intensief gebruik ga beginnen maken van LLMs houd ik liever de kost voorspelbaar.
Daarnaast heb je natuurlijk de privacy: alles wat je naar eender welke provider stuurt kan je van uit gaan dat het wel opnieuw in een model, analyse of "store now, use later" gebruikt wordt. Hoe lang vooraleer al die info gebruikt wordt voor targeting en profiling van eender welke aard? Dan maakt het me nog niet uit of het Chinezen, Amerikanen of Marsmannetjes zijn: ik houd liever zo veel mogelijk info bij mij, zowel persoonlijk als professioneel qua IP die zichtbaar wordt als je de LLM inzet als coding assistant.
- NuKeM
- Administrator
- Berichten: 5660
- Lid geworden op: 10 nov 2002, 00:55
- Uitgedeelde bedankjes: 125 keer
- Bedankt: 261 keer
Up-to-date info in/met een LLM getraind op data van een paar jaar terug is geen probleem. Voorzie hem die data als context in je prompt. RAG pipelines noemt men dat bv. Dan gaat een agent eerst op basis van de vraag zoeken naar documenten/stukken waar de vraag aan gelinkt is (soort search engine dus) en de resultaten daarvan gaan dan mee als context naar de LLM die dan een antwoord formuleert op basis daarvan. Dat kan volledig offline.