Appendix A: Allports ena arbete resp. sökande textigenkänning för bokformat resp. PDF-filer med bilder av texter

2015-05-07

Rörande Allports arbete får jag ev. återkomma om det visar sig att jag blandar samman vad jag avser med Allport (jag kan förövrigt ta och dela min extraktion av det när jag gjort om den: 70% av värdena jag fick ut från resp. bild till PDF resp. bild blev skräp för mig så jag behöver göra om det. Citatet beskrivande arbetet i Wikipedia tycks indikera antingen sammanblandning eller troligare att skribenterna i Wikipedia utnyttjat en källa beskrivande det hela som ej korrekt beskrev arbetena. Vi har förvissa fyra huvud-kategorier - av totalt 15 inkl. varianter - men kategoriserade enligt dessa och sedan mätta för respons-vikter på personer är totalt ej 3000 st utan några hundra nedanför (säg 2600) samt uppföljande om jag minns rätt ett par år senare antagligen de ca 4300 Wikipedia refererar till men ej riktigt som beskrivit utan följande resp. kolumn samt fler. Det är lätt hänt genom att original-arbetena idag är mer eller mindre bortglömt i senare referensböcker och dessutom notoriskt svåra att få tag på elektroniskt (och därmed också att de svårligen träffas på när man allmänt söker arbeten i områden snarare än besökande bibliotek för att kopiera ut ett arbete man vet finns - vilket jag förövrigt aldrig ser som ekonomiskt försvarbart i tid och knappast numera normaliserat effekt kan vara vad det för någon annan heller oavsett doktorand eller kommersiellt arbetande med ett fåtal undantag).


"Similar to the earlier work of M. L. Perkins, they used Webster's New International Dictionary as their source. From this list of approximately 400,000 words, Allport and Odbert identified 17,953 unique terms used to describe personality or behavior.

This is one of the most influential psycholexical studies in the history of trait psychology.[4] Not only was it the longest, most exhaustive list of personality-descriptive words at the time,[4] it was also one of the earliest attempts at classifying English-language terms with the use of psychological principles. Using their list of nearly 18,000 terms, Allport and Odbert separated these into four categories or "columns":

Column I: This group contains 4,504 terms that describe or are related to personality traits. Being the most important of the four columns to Allport and Odbert and future psychologists,[4] its terms most closely relate to those used by modern personality psychologists (e.g., aggressive, introverted, sociable). Allport and Odbert suggested that this column represented a minimum rather than final list of trait terms. Because of this, they recommended that other researchers consult the remaining three columns in their studies.

Column II: In contrast with the more stable dispositions described by terms in Column I, this group includes terms describing present states, attitudes, emotions, and moods (e.g., rejoicing, frantic). Reflecting this focus on temporary states, present participles represent the majority of the 4,541 terms in Column II.

Column III: The largest of the four groups, Column III contains 5,226 words related to social evaluations of an individual's character (e.g., worthy, insignificant). Unlike the previous two columns, this group does not refer to internal psychological attributes of a person. As such, Allport and Odbert acknowledged that Column III did not meet their definition of trait-related terms. Predating the person-situation debate by over 30 years,[15] Allport and Odbert included this group to appease researchers in social psychology, sociology, and ethics.[14]

Column IV: The last of Allport and Odbert's four columns contained 3,682 words. Called the "miscellaneous column" by the authors, Column IV contains important personality-descriptive terms that did not fit into the other three columns. Allport and Odbert offered potential subgroups for terms describing behaviors (e.g., pampered, crazed), physical qualities associated with psychological traits (e.g., lean, roly-poly), and talents or abilities (e.g., gifted, prolific). However, they noted that these subdivisions were not necessarily accurate, as: (i) innumerable subgroups were possible, (ii) these subgroups would not incorporate all of the miscellaneous terms, and (iii) further editing might reveal that these terms do fit into the other three columns.

Allport and Odbert did not present these four columns as representing orthogonal concepts. Many of their nearly 18,000 terms could have been differently classified or placed into multiple categories, particularly those in Columns I and II. Although the authors attempted to remedy this with the aid of three outside editors, the average level of agreement between these independent reviewers was approximately 47%. Noting that each outside judge seemed to have a preferred column, the authors decided to present the classifications performed by Odbert. Rather than try to rationalize this decision, Allport and Odbert presented the results of their study as somewhat arbitrary and unfinished."

Rörande basdatat "presenterades" de faktiskt i mening att datat gjordes tillgängligt och om man har en fet mängd rådata av allt inom forskning publicerats går att hitta även om det i alla fall för mig när jag sökte runt dessa med Google och andra sökfunktioner för sådant här är döfött att hitta. Dessa saknar dock viktvärden till sig med är bättre manuellt kategoriserade än artikel-publicerat i övrigt vill få en att tro. Möjligen kanske det kan vara så att de gjordes mer exakt följande för att förbereda något annat utnyttjande mer personal men att detta i sig aldrig slutfördes som publicerat öppet förrän långt senare när "deklassifierat" efter att också via andra personer fortsättande tagande några år inom militärt finansierade projekt. Om så var det inte samma personer som gjorde den mer exakta kategoriseringen (jag har svårt att stabilt avgöra vilket för detta data resp. exakt vilket år de presenterades).


Det minsta ca 2600 grupperade men ej mätt rörande något relevant idag (vilket ej gäller det större som är kompletterande hela gruppen mätta viktvärden för just adjektiv finns nedan). Som jag förstår copyright-regler ska publiceringen vara korrekt. Om ej så rekommenderar jag ägare att strunta i att bry sig i det i övrigt varande ett allmänt viktigt område samtidigt som jag faktiskt hör till aktörer som har tillgång till journal-artiklar i elektroniskt format i jämförbar mängd som journal-husen för åren fram till 1970-talet (stor andel av det corpus jag samlade under ett antal månader färre än 12 månader totalt inför förra årets version av stabila grund-vikter för koncept) - och bra mycket därefter också - slut vilket bör ses som möjliga balans-skapande dimensioner om man mer än klagande agerar inhumant eller mänskligt destruktivt som jag känslomässigt tolkar saker (även om jag inte säkert komprimerar ner det på hårddiskar och skickar det till några aktörer i Kina, Ryssland och ett par i USA publicerande allt de får tag på som ex. böcker och journal-artiklar i elektroniskt format vilket jag ej arg helt säkert skulle se som inkorrekt och ej göra vandrande URL:er och organisationer publicerande allt de får fatt i - oavsett om i grundtillstånd irriterad redan sedan cirka tio år för flera aktörer publicerande journaler inkl. särskilt APA och Elsevier - och nästan 100% säkert inte ödslande en massa privat tid på att förklara SEO inom forskningssegmentet för dem oavsett om inte fullt 100% direkt innan om jag blir förbannad nog tror jag i alla fall - det har väl inte hänt allt för ofta att Elsevier tappat därför att man irriterade sig på dem som säkert fem - sex år sedan sist och säkert utan betydelse för dem ekonomiskt tråkigt nog - Faktiskt numera sedan ett år ännu mer små-sur konstant på APA jag hoppas - vilket tråkigt nog bl.a. p.g.a. DSM är otroligt - får väsentliga problem i sina grundaffärer och förtvinar bort från världens publikations-träd: Riktigt otrevlig dum-girig små-destruktiv aktör): Men vet aldrig med personer som är så här osäkra i sin självbild att vi behöver göra lite Cold War power show-off innan de delar ett dokument från 1936: Som välkänt är är rädda hundar dom farligaste (eller om jag är lite som Fantomen: Hård mot det hårda vilket jag likt han mer känner kommande rätt regelmässigt och mjuk mot dom mjuka eller i alla fall socialt intressanta kvinnor - Eller om det är förstärkande svag självbild igen med den jämförelsen) . 77 - 78 år i ålder ska väl dock räcka har jag fått för mig?PDF-representationen ovan för artikeln har jag inte försökt konvertera till text än. Tråkigt nog är min erfarenhet att för ursprungsålder på dokument gäller för aktörer andra än amerikanska militären (via Dtic.mil) och normalt andra väsentliga lager från amerikanska staten att PDF-representationer av gamla artiklar man "kopierat-" / "scannat-" in ej trivialt konvertrar från PDF till text för mig utnyttjande färdiga verktyg och bibliotek (medan amerikanska staten tycks skapat något generiskt för detta som såväl får med "noise" och "färg-fläckar" inskannade såväl som texten på sådant sätt att texten trivialt av verktyg förstås att konverteras eller manuellt markeras i PDF-läsare för kopiering.


Vanligen brukar ju det amerikanskt statliga om ej inköpt publicera sådant här fritt om så marknadsför det bättre så får ni ju själva mer tillbaka naturligt av satsningar när fler använder det och er databehandling av andras PDF-dokument blir snabbare sparande flera steg. Ovan tror jag vi är inte riktigt sämsta företeelsen - test markerande text i PDF-läsare gav att det var möjligt men ej klarade att följa eller få med tabellerna rätt - men heller inte bättre än att väsentliga manuella steg krävs i processen.


Verktygen jag normalt använder är kommando-prompts program hittade via Ubuntu-rekommenderar (ex. pdftotext) resp. fria utbyggnader till Perl: Allt fungerande ofta utmärkt nog för något gratis men för gammalt inskannat ofta ej klarande saker eftersom meningarna upp till i värsta fall bara är stora bilder.


Givet att jag redan när jag läste mönsterigenkänning på Teknisk fysik ett fåtal år innan 1999 gjorde laboration i textigenkänning ska idag just bra standardiserade lösningar för detta finnas (motsvarande vad jag antar att amerikanska staten standardiserat sig tekniskt på att använda för inskannade dokument). Så tips på lösning tas gärna emot (gärna just vad amerikanska staten använder eftersom jag vet att det är bra) särskilt som jag misstänker formatet DjVu såväl som vissa bokformat generellt utnyttjande bild-representationer och detta är format vanliga när det kommer till böcker (d.v.s. viktigt byggande nästa års bok-corpus i år).