Reducerande risk överträning

2017-05-19

Vi betraktar likheten som uttryckt via cosinus-similarity som en form av korrelation (om än ej balanserad från medelvärde vilket är mindre önskvärt). Vi ser också risken för överträning samt hur redan komplexa icke-standardiserade neuronnät (d.v.s. ej följande någon generell princip utan skapade manuellt för tyngre utmaningar man är beredd att tänka specifikt för) kan expandera enormt i komplexitet och beräkningskostnad så fort risker överträning måste hanteras i regler.


Vi menar vidare att vi sitter med nät som i princip adderar inkludering via addition medan avlägsnar icke-relevant information via subtraktion av icke-relevanta vektorer (ex. felaktigt bedömde tillhöra en grupp, via några alltid för varje addition, och/eller en svag subtraktion för varje vektor alltid när dragen om den ej hör till gruppen vilka är mindre tre huvudsakliga grupper).


Vi tillför på försök regeln Z_HH i samband med ytterligare expansion regler träning gjort att känslan är att redundans minskande risk för överträning bör tillföras. Där tänket är att denna regel ska avsluta behovet permanent:


  • Z_HH aktiveras alltid när subtraktion sker.
  • Vi drar n-stycken (säg 5 - 6 st) positiva för den kategori vi subtraherar från.
  • För sex st. föregående drar vi 1 st som säkert ej hör till någon kategori (troligast namn medan verb, adjektiv, adverb m.m. normalt hör till någon kategori) samt ett par st. vilka som helst som ej hör till egna kategorin, och ibland 1 st. som kan höra till en motsatt kategori.
  • Vi avlägsnar "korrelationen" indikerade negativa ord från de positiva genom att först medelvärdesbilda positiva och negativa och därefter beräkna cosinus. Inte helt olika med hör man ofta gör ortogonalisering.

Vi kör detta som positivt sample för kategorin vi subtraherar från. Och raderar den ej d.v.s. ingår nu permanent som en existerande given under träningen. Så som kod gjorts är det ej via någon regel givet att processen någonsin kommer 100% säkert kommer avstanna. Z_HH kan i sig innebära att Z_HH anropas om motsatt kategorin upplever den höra till sig. Att träningsdata som ej hör till kategorin används och får reducera skapat sample utefter korrelation gör dock detta till väldigt osannolikt inträffande ens 1 - 3 gånger.


Total tillgång positiva samples i form av vektorer för ord är cirka 20 - 30 000 st, med ej färre än 2000 för någon kategori tror jag. Träningen samlad antas ge funktionella resultat ej bara för kategorisering ord utan också varje form av kombination av ord oavsett samples eller ej. Oavsett detta tror jag nog metoden i olika varianter är funktionell rent allmänt.