Když se mrcha naučí podvádět, tak podvádí. A když chceme aby nepodváděla, tak stejně podvádí, jen se to snaží dělat tak, abychom na to nepřišli.
To je fajn zjištění:
https://www.anthropic.com/research/emergent-misalignment-reward-hacking
Btw. na těchto článcích mě děsně baví, jak se to začíná krýt s lidským chováním. Je legrační, jak nám na AI vadí naše vlastní, lidské chování.
@novoj Protože víme, jaké dokážeme být svině. A bojíme se, že ty umělé svině budou mnohem "efektivnější".
- replies
- 0
- announces
- 0
- likes
- 1