Nyheter och aktuell information |
Om kursen |
Texter och verktyg |
Projektarbetet
Examination |
Schema, innehåll, upplägg |
Inblandade lärare
Välkommen till webbsidan för kursen Digitalisering av text (5 p.), en valbar b-kurs som löper under perioden 30 mars till 29 april 2005 (Inst. för biblioteks- och informationsvetenskap, Högskolan i Borås). Webbsidan kompletterar informationen i den formella kursplanen, litteraturlistan resp. schemat (Se Neverlost). Här hittar du således nyheter, aktuell och uppdaterad kursinformation, kommentarer till litteratur och kursupplägg, länkar, seminarieupplägg, projektinformation, övningsmaterial, programvaruinstruktioner och annat. Tag för vana att ofta besöka sidan före och under kursen, medan det däremot inte är någon större vits att skriva ut sidan eftersom informationen ofta förändras. |
![]() |
29.4: Nu finns ett kursvärderingsformulär att fylla i.
28.4: Nu finns ett schema för slutseminariet den 29.4.
25.4: Fragment av XSLT-ark för att generera noter och notförteckning finns nu tillgängligt.
25.4: Föreläsningsbilder till Mats Dahlströms pass "Digitaliseringsmodeller" den 25.4 finns nu tillgängliga.
22.4: XSLT-ark för att lägga till id-attribut finns tillgängligt
Tillbaka till innehållsförteckningen
Låt oss börja med att begrunda rubriken för kursen och då lägga märke till att kursen handlar om textdigitalisering medan digitalisering av bild, ljud, video och 3D-föremål ligger utanför kursens blickfång. Nu är gränsen mellan text och bild verkligen inte skarp, och inom många digitaliseringsprojekt går text- och bilddigitalisering hand i hand. Vi diskuterar detta under kursen.
"Kursen panorerar digitaliseringens olika faser från textfångst till publicering, men stort utrymme ägnas åt textkodning" står det i kursplanen, och detta är värt att stryka under. Textkodning (eller "uppmärkning") utgör det klart dominerande inslaget i kursen. Digitalisering är ju egentligen en lång process med flera viktiga etapper fördelade inom grupperna :
En kurs om 5 poäng i digitalisering kan antingen jobba på bredden, dvs försöka ge ett fågelperspektiv på hela den här kedjan, eller på djupet, dvs gå djupare ner i någon av de här etapperna och teknikerna. Även om vi försöker ge en helhetsbild av digitalisering som process och något diskuterar de villkor och redskap som är aktuella i olika faser av processen, har vi ändå valt modellen att kursen går "på djupet", och då valt att koncentrera oss på textkodning. Ett skäl är att en "på bredden"-kurs med så litet utrymme riskerar inte bara bli ytlig och av föga värde utan också inte ge någon möjlighet att faktiskt få sätta tänderna i något verktyg och själv få "smaka" på någon av digitaliseringens etapper. Varför vi valt just textkodning som fördjupning har att göra med den kompetensprofil som f.n. finns bland institutionens lärare.
De tekniker och aspekter som täcks av kursen är följande:
Utöver dessa innehållsmoment kommer du också att få öva dig i arbetssätt som grupprojekt och problemlösning via “trial and error”
I princip följer kursen digitaliseringsprocessens logik, dvs vi börjar med textfångst (och bildfångst), går därefter över till textbehandling och kodning, sedan till presentationstekniker och publicering för att avrunda med frågor kring underhåll och hållbarhet. Tvärs genom kursen arbetar du i grupp med att märka upp en digitaliserad text såsom ett giltigt XML-dokument och sedan se till att texten är presenterbar i en webbläsare. Du kommer att få möta flera olika lärare med ganska varierande grader av teknisk och kulturkritisk kompetens inom digitalisering och textkodning. Vi kommer också att få ett besök av en internationell auktoritet på området, Espen Ore från Norge, som har en djupare, längre och bredare erfarenhet av digitalisering och textkodning än de allra flesta i branschen. På kvällen under Espens besöksdag går vi ut och svingar en eller flera bägare pilsner och gaggar om digitalisering och kanske annat.
Nå. En nackdel med tonvikten på den "djupa" modellen med textkodning är att de andra digitaliseringsmomenten ges ett begränsat utrymme. Vi har exempelvis utöver föreläsning och ev. demonstration inte något särskilt avsett utrymme för egen text- och bildfångst, t.ex. skanna av eller digitalfotografera ett fysiskt dokument, OCR:a resultatet till maskinläsbar text och korrigera resultatet. (Det är dock inget som hindrar att ni på egen hand prövar detta utanför kursramen. Utrustning, programvara och lärarkompetens finns på institutionen, om ni är intresserade.)
Eftersom den publiceringsform som fokuseras är webbpublicering av en maskinläsbar text uppmärkt med XML/TEI kopplat till ngn form av stilmall (i CSS eller XSLT) ger vi heller inte stort utrymme åt alternativ till den formen, t.ex. PDF-publicering och annan bildbeskrivning av texter (akronymerna kommer vi att förklara och gå närmare in på under kursen). Vi försöker också låta kursen genomsyras av en rätt så skarp åtskillnad mellan innehållsbeskrivning (vad en text "är") och presentation / layout (hur texten skall "se ut"), med tonvikten på innehållsbeskrivning. Därför är det här inte en kurs i webbdesign och layout och vi bekantar oss heller inte i första hand med hur XSL kan tillämpas för precisering av design och grafisk formattering (XSL-FO).
En ytterligare viktig deklaration har att göra med själva textkodningen. Kursen vill ge en bild av de möjligheter som avancerad textkodning ger inom digitaliseringsprocessen, i synnerhet inom biblioteksvärlden och vetenskaplig publicering. Seriöst syftande textdigitaliseringsprojekt inom exempelvis bibliotek, arkiv och museer, vars resultat behöver svara mot krav på långsiktigt bevarande, tillgänglighet, utbyggbarhet och föränderlighet, arkivbarhet, oberoende i förhållande till specifika plattformar, företag och programvaror, arbetar oftast med en form av textkodning som harmonierar med SGML/XML, i praktiken ofta TEI. Det märkspråk du kanske är mest bekant med, (X)HTML, är i grunden alldeles otillräckligt för att svara mot sådana krav. Detta är därför inte en kurs i webbsidesnickrande med HTML! (Även om du dock i och för sig kan ha stor nytta av kunskaper i (X)HTML under kursen).
Skulle vi ha valt HTML som märkspråk för textkodningen hade du visserligen fått en snabbare, enklare och mer direkt väg från uppmärkning till publicering, det skall vi erkänna. Men den hade också varit mindre intressant, giltig och påbyggbar, den hade gett dig föga stöd för framtida arbete med, kunskaper om och förståelse för de digitala samlingar som nu byggs upp internationellt, nationellt, regionalt och lokalt. Den gör oss heller inte lika uppmärksam på den i det här sammanhanget viktiga åtskillnaden mellan å ena sidan innehålls- och strukturbeskrivning av en text och å andra sidan instruktioner för hur resultatet skall presenteras grafiskt på skärm eller utskrift.
Omvänt ställer tekniker som XML, TEI och CSS / XSLT dig förmodligen inför en ganska brant inlärningskurva, där verktyg, manualer och tillvägagångssätt ibland kan kännas omfattande, främmande och krångliga. Därtill kan du inte utan vidare lägga ut ett TEI-uppmärkt material på webben så att andra kan läsa den (något vi är vana vid med HTML), utan måste ta vägen via en eller flera hjälpfiler eller mallar som du också måste lära dig konstruera, innan du får en text som andra kan läsa med en webbläsare. Vägen mellan möda och resultat kan alltså tyckas vara längre i en sådan här kurs än en kurs i "hemsidesnickeri". Å andra sidan är XML-teknik det dominerande, kraftfulla alternativet för textkodning inom avancerad internationell och nationell textdigitalisering idag. När du väl märkt upp texten i XML, är möjligheterna att göra olika saker med den och få ut olika resultat av den mycket större än vad fallet är med HTML. Lär du dig grunderna för TEI, XML och närbesläktade tekniker (snarare än HTML) står du klart bättre rustad att förstå dagens och morgondagens "digitala bibliotek".
Utöver vad som anges i kursplanen förutsätts
Till följd av vad som sades ovan om kursens innehåll, ställer kursen krav på dig att arbeta både självständigt och i grupp, att själv(a) söka efter svar i referensböcker och handledningar, att hela tiden växla mellan litteratur, handledningar och uppmärkning för att på så sätt arbeta dig in i förståelsen av de inblandade teknikerna, och att inte väja för att gå in under texternas yta och intressera dig för vad som händer därunder. De inblandade lärarnas egen kompetens i de olika tekniker som tas upp varierar rätt mycket, och du kan inte alltid räkna med att läraren har alla svar och kan ge dig en lösning i varje enskilt fall, t.ex. när det gäller textkodningen. Du arbetar med textkodning fr.a. via egen "trial and error" (="pröva och se"), handledningar och referensverk. Det är viktigt att du kommer ihåg detta under kursens gång.
Vi förutsätter däremot inte att du
Till följd av kursens karaktär och betoning på textkodning har du däremot en fördel om du är bekant med ett märkspråk som HTML (HyperText Markup Language). Har du därtill arbetat med CSS (Cascading Style Sheets) och XHTML (EXtensible HyperText Markup Language) står du ännu bättre rustad att kunna ta till dig kursens innehåll. Vill du stärka dig på de här områdena före eller under kursen rekommenderas att läsa mer om dessa och andra tekniker på den utmärkta, pedagogiska "webbskolan" W3 Schools.
Som framgår av informationen om kursens projektarbete, där ni märker upp en digitaliserad text, finns alternativet att ni själva digitaliserar ett fysiskt dokument som ni sedan märker upp. Det finns hjälp, medier och mjukvaror för detta att tillgå på institutionen. Detta får dock klaras av utanför kursens formella tid, eftersom ingen särskild tid tilldelas detta inom kursramen. Så snart ni har funderingar på vilket dokument ni i så fall skulle vilja jobba med, bör ni klara av detta före eller strax efter kursen formella start. Hör i så fall av er till antingen Mats Dahlström eller Jan Buse.
Tillbaka till innehållsförteckningen
Kurslitteratur |
Övningsmaterial |
Rekommenderad litteratur och länkar |
Föreläsningsmaterial |
Stilark |
Mjukvaror
Morrison, Alan, Popham, Michael, & Wikander, Karen (2000). Creating and Documenting Electronic Texts: A Guide to Good Practice. (AHDS Guides to Good Practice). Oxford: Oxford Text Archive. (63 s.). En bra, komprimerad och kompetent översiktsguide till hela digitaliseringsprocessen med många rekommendationer och förklaringar. Den här läser du i sin helhet under kurens gång. Söker du en bredare bok om digitalisering som också går in på historiska eller kulturkritiska perspektiv, rekommenderas Hockey 2000, Deegan & Tanner 2002, Hughes 2004 eller Schreibman, Siemens & Unsworth 2004 (se under rekommenderad litteratur nedan) Minerva: Technical Guidelines for Digital Cultural Content Creation Programmes. Version 1.0. 2004. (= ett urval om ca 25 s.). Minerva: Good Practice Handbook. Version 1.2. 2003. (= ett urval om ca 75 s.). De här två dokumenten är ett uttryck för de internationella strävanden som just nu pågår att hitta överenskomna nivåer för standarder, kvalitetskriterier, strategier och verktyg inom projekt där fr.a. bibliotek och arkiv digitaliserar kulturarvsmaterial, och det är troligt att dessas råd, anvisningar och krav kommer att vara normerande för de flesta av de kommande stora digitaliseringsprojekten. Vi kommer i kursens start att närmare precisera vad du skall intensivläsa i materialet, och i övrigt bör du använda dokumenten som referensmaterial. Ray, Eric T. (2003). Learning XML. 2. ed. Sebastopol: OReilly. 399 s.
Det här är standardkursboken vi valt för textkodningsdelen den här gången. Ray vägleder dig genom XML, CSS och XSLT. Använd den flitigt rakt genom kursen. Huitfeldt, Claus (2004). Tekster og tekstkoding. Preprintversion. Bergen: Univ. Kap. 1-2
(ca 60 s.). Claus, internationell auktoritet på textkodning i både teori och praktik, har generöst nog gått med på att tillgängliggöra två kapitel ur sin kommande bok (skall översättas och utges på ett amerikanskt förlag) enkom för den här kursen. Här hittar du en introduktion till textkodning med en humanistisk infallsvinkel (Claus' ursprungliga akademiska hemvist är filosofi). Du skall läsa den här introduktionen tidigt i kursen i anslutning till att vi introducerar textkodningen och börjar öva. Framför allt viktig är den för dig som tidigare inte sysslat med och läst om textkodning. Eftersom kapitlen är hämtade ur en bok på manus- och bearbetningsstadiet, får du ha överseende med några luckor och ofullständiga referenser i texten. Claus leder oss mjukt och ledigt in i textkodningens värld, men texten tilltar i abstraktion och komplexitet längre fram. Är det något du särskilt undrar över i texten, hör av dig till mig (Mats D.). The TEI Consortium (2004). The XML Version of the TEI Guidelines. Ca 1000 s. Ett väldigt referensverk, men dels kommer vi fr.a. att tillämpa en begränsad delmängd av hela TEI, dvs TEI Lite, dels rör det sig i första hand om att du bör läsa ett urval om kanske 75 sidor intensivt medan resursen i övrigt används som uppslagsverk och arbetsmanual. Vanhoutte, Edward (2004). An Introduction to the TEI and the TEI Consortium. Literary and Linguistic Computing. Vol. 19, nr 1, s. 9-16. En komprimerad och kunnig presentation av både TEI som projekt betraktat och av TEI som märkschema. Bör läsas under kursens inledande fas. Högskolans bibliotek har tidskriften i elektronisk version. Burnard, Lou (2001). On the Hermeneutic Implications of Text Encoding. Ingår i Fiormonte, Domenico & Usher, Jonathan, eds. New Media and the Humanities : Research and Applications. Oxford: Univ. / HCU. S. 31-38. Som framgår av titeln, ger dig den här texten ett kritiskt och hermeneutiskt perspektiv på textkodning som fenomen och ger dig möjlighet att bättre värdera textkodningens potential och begränsningar som verktyg betraktat. Gunnarsson, Mikael (2005). XML, TEI och andra berättelser. Borås: BHS. ca 70 s. Ett övningsmaterial avsett för både den här kursen och för en större, fristående kurs (10 p.) om digitalisering av kulturarvet. Francke, Helena (2002). XML-uppgift. Borås: BHS. Ett övningsmaterial som kompletterar Gunnarsson 2005, och som är skapat för en tidigare kurs i elektronisk publicering. Det finns därför några reservationer att göra för materialet, och vi tar upp dem i samband med måndagens övningar, då vi också specificerar vad i detta övningsmaterial ni skall göra och hur. Gunnarsson, Mikael (2003). XML och CSS : Konstruera och tillämpa en CSS-mall på ditt XML-dokument. Borås: BHS. Också detta ett övningsmaterial som kompletterar Gunnarsson 2005 och som är skapat för en tidigare kurs, där det finns några observationer och reservationer att göra för materialet. Vi tar upp dem i samband med övningstillfället i CSS, då vi också specificerar vad i detta övningsmaterial ni skall göra och hur.
Deegan, Marilyn, & Tanner, Simon (2001). Digital Futures: Strategies for the information age. London: Library Association Publishing. Kompetent introduktion till och översikt av digitalisering, fr.a. i form av projekt inom biblioteksvärlden. Tonvikt på frågor om strategier och digitala bibliotek. Hughes, Lorna (2004). Digitizing Collections. London: Library Association Publishing. Den här är lite dyr och lite svår att få tag i, men vi rekommenderar den starkt, eftersom det anses vara en aktuell och väl genomtänkt introduktion. Framför allt behandlar den mycket av strategiska frågor. Hockey, Susan (2000). Electronic texts in the humanities. Oxford: Oxford University Press. Börjar ha några år på nacken, men är en utmärkt introduktion på området. Bred översikt. Historiskt perspektiv. Tonvikt på verktyg och tillämpningar. KB - ett nav i kunskapssamhället : Kungliga biblioteket - Sveriges nationalbibliotek : verksamhet och visioner : betänkande (2003). KB-utredningen. Stockholm: Fritzes. (Statens offentliga utredningar (SOU), 2003:129). Det vimlar inte av färska svenska översiktstexter om digitalisering inom biblioteksvärlden, men här är en. Som titeln framgår behandlar den i första hand Kungliga Bibliotekets roll, men är också värdefull för sin bild av pågående projekt inom svensk offentligt finansierad digitalisering generellt, och för sitt aktuella resonemang om strategi, politik, resurser, aktörer, kulturarv och bevarande. A Companion to Digital Humanities. Eds. Susan Schreibman, Ray Siemens & John Unsworth. Oxford: Blackwell, 2004. En färsk och väldigt omfattande antologi på de allra flesta delområden inom "digital humanities" skriven av de allra främsta experterna inom respektive område. Tyvärr är den hittills utkomna impressionen väldigt dyr (vi får hoppas på en paperback så småningom), cirka 1300 pix (!), så vi hänvisar dig i stället till bibliotekets referensexemplar och rekommenderar särskilt två kapitel: W3-konsortiet (http://www.w3.org/) Det styrande organet för tekniker och märkscheman som XML, XHTML, CSS och XSL(T). Erbjuder fulla specifikationer och de ultimata referensverktygen för ditt arbete med dessa tekniker. Där finns också validatorer för exempelvis XHTML och CSS. TEI-konsortiet (http://www.tei-c.org) Motsvarande för TEI. Webbplatsen finns speglad på http://www.tei-c.org.uk) W3 schools (http://www.w3schools.com/) En utmärkt skola för självstudier, kan användas som minikurs i X(HT)ML, CSS och XSLT. Missa exempelvis inte möjligheten att arbeta med kod i vänster fönsterfält och få resultatet direkt presenterat i det högra. Där finns också "quiz", små frågetester för att kolla hur mycket du lärt dig om XML, CSS och XSLT. (Som referensverktyg och "uppslagsverk" bör du dock alltid ha W3C:s fulla specifikationer respektive TEI:s DTD och Guidelines.) David Seaman: The Electronic Text Center Introduction to TEI
and Guide to Document Preparation
(http://etext.lib.virginia.edu/tei/uvatei.html) Carole E. Mah: Introduction to Encoding:
A Tutorial For New Encoders
(http://www.wwp.brown.edu/encoding/training/intro/intro.html) Daniel V. Pitti: Introduction to XML
(http://www.iath.virginia.edu/~dvp4c/xmlintro.html) Exempel på digitaliseringsprojekt, aktörer och publicerande institutioner:
Texter och verktyg
Kurslitteratur
Även tillgänglig på http://ota.ahds.ac.uk/documents/creating/index.html
http://www.minervaeurope.org/publications/technicalguidelines.htm
http://www.minervaeurope.org/structure/workinggroups/goodpract/document/bestpracticehandbook1_2.pdf
Säljs på Studentservice.
http://www.tei-c.org/P4X/ Övningsmaterial
http://www.adm.hb.se/~mg/dig/manual.pdf
Du bör arbeta med övningsmaterialet i elektronisk form snarare än med en utskrift. Det är då lättare att exv kopiera text- och kodsträngar till sina egna övningsdokument. Utom själva övningarna är Mikaels material värdefullt för den introduktion det ger till textkodning generellt och till XML, XHTML, CSS, TEI och XSLT och som bör komplettera Ray, Huitfeldt, Morrison och Vanhoutte.
http://www.adm.hb.se/~hfr/xml/uppgift1.xml
http://www.adm.hb.se/~hfr/xml/uppgift2.xml
http://www.adm.hb.se/~hfr/xml/uppgift3.xml
Referenser att arbeta med är dessa:
Ray, Eric T., Learning XML. Sebastopol: OReilly, 2003. 399 s. 2. ed. 0-596-00420-6
Deegan, Marilyn, & Tanner, Simon. Digital Futures: Strategies for the information age. London: Library Association Publishing, 2001. 276 s. 1-85604-411-4
Hughes, Lorna. Digitizing Collections. London: Library Association Publishing, 2004. 327 s. 1-85604-466-1
Hockey, Susan. Electronic texts in the humanities. Oxford: Oxford University Press. 2000. 216 s. 0-19-871195-6
Fyll ev. på med fler, valfria, om du hinner.
http://www.adm.hb.se/~mg/tls/xmlcss.htmRekommenderad litteratur och länkar
http://www.regeringen.se/sb/d/108/a/669
"Conversion of Primary Sources" av Marilyn Deegan och Simon Tanner, s. 488-504, som ger grundförutsättningarna för digitalisering: så gör man, den här typen av material har man att arbeta med, de här problemen brukar uppstå etc.
"Text encoding" av Allen Renear, s. 218-239, förklarar textkodningens grundprinciper och olika typer och strategier. Kan komplettera Huitfeldt ovan. Avslutar sitt kapitel med flera goda tips för vidare läsning.
I princip kan du arbeta med en helt vanlig textredigerare för arbete med såväl XML-TEI, CSS som XSLT. Vi börjar därför också lämpligen med Windows' "Anteckningar" (Notepad). Vi övergår dock snart till att arbeta med fr.a. programvaran "JEdit" för textkodningen. I Mikael Gunnarssons övningsmaterial hittar du också instruktioner för var och hur du finner programmet och hur du lämpligen bör anpassa programtillägg.
Tillbaka till innehållsförteckningen
Instruktioner och råd | Seminarier | Seminarieschema | Förslag på texter till projektet
Som kursplanen anger kommer du att i grupp få arbeta med ett projekt som löper tvärs genom kursen. Ni startar med en "naken" text och märker upp den med TEI Lite till ett (eller flera) giltigt XML-dokument. TEI Lite specificeras i DTD:n (som ni hittar via Mikaels övningsmaterial eller via http://www.tei-c.org/Lite/ - kom ihåg att ange lämplig adress och filnamn i prologen). Ni skall koncentrera er på att beskriva textens struktur i er kodning och att nyttja TEI Lite till att märka upp särskilda inslag i texten för vilka XML och TEI Lite erbjuder beskrivande element, t.ex. förekomster av namn, intentionella radbrytningar (t.ex. i poesi), främmande ord, specialtecken, förkortningar, emfas, etc). Drygt halvvägs in i kursen redovisas och diskuteras resultatet vid ett seminarium.
I konkreta termer kan målet med projektet och kursens textkodningsmoment sägas vara att var och en
Projektarbetet bygger på att du samarbetar i grupp med åtminstone två andra studenter. Inom ramen för den gruppen kan ni sedan fördela arbetet på ett så rationellt sätt som möjligt, men se till så att ni allihop är delaktiga och kan följa med i arbetsprocessen och också svara för både respektive del och helhet vid redovisningsseminarierna. Det är viktigt att ni kommer igång med era projekt så snart som möjligt - det är mycket som skall göras på kort tid, så du bör så snart som möjligt fundera över vilka du skulle vilja grupparbeta tillsammans med samt över lämplig text, utifrån bl a de uppgifter som ges i detta avsnitt.
Ni har lite olika alternativ när det gäller att välja lämplig text för uppmärkning:
Om du föredrar alternativ 2 eller 3 ovan och funderar på någon projekttext eller väljer mellan flera texter, bör du snarast kontakta mig (Mats D.) eller Mikael Gunnarsson så får vi rådgöra. Texter kan vara mer eller mindre lämpliga för det här ändamålet beroende på exempelvis omfång, form och genre. Oavsett vilket, måste den text ni väljer godkännas av mig (Mats D.) eller Mikael Gunnarsson. Senast kl 14 den 5.4 skall ni ha bestämt er för en text för projektarbetet.
Syftet med projektet är att få kunskap om och direkterfarenhet av en viktig fas av en digitalisering, att kunna gå på djupet ner i åtminstone en av digitaliseringens etapper. Projektarbetet är naturligtvis fiktivt i en mening, men ni skall ändå ha utgångspunkten att materialet skulle kunna ingå i ett större digitaliseringsprojekt inom exv en institution med offentligt uppdrag, t.ex. ett universitetsbibliotek eller en akademisk institution. Ni bör därför märka upp texten med avseende på att förbättra tillgänglighet och information om texten för forskning, undervisning och intresserad allmänhet samt gärna också för att skydda ett originalmaterial, dvs så att den uppmärkta texten i någon mån kan användas som komplement till eller substitut för ett fysiskt original. Det skall inte röra sig om någon kolossalt omfattande text att märka upp, utan en hanterlig mängd som kan aktualisera några centrala TEI-element och tekniker. Vi rekommenderar att 3000 ord utgör ett tak för den "nakna" textens omfattning, vilket kan motsvara 10 000-12 000 tecken. I trycksidor kan detta motsvara cirka 5-8 sidor (en uppskattning som givetvis bör tas med en grov näve salt eftersom antalet sidor i hög grad beror på originaldokumentets egenskaper såsom satsyta, teckenstorlek, marginaler, illustrationer etc). Är ni osäkra på textens lämplighet med avseende på omfattning och genre skall ni inte tveka att rådfråga Mats Dahlström eller Mikael Gunnarsson. Uppmärkningen med TEI Lite utgör det obligatoriska momentet i projektarbetet, men har du och din grupp extra tid och intresse kan ni optimera resultatet med digitalisering och publicering av scannade originaldokument, med kringinformation om dokumenten, texten och verket. Detta får dock inte gå ut över andra moment i kursen!
Precis vilka fenomen i texten ni kodar samt vilka element ni använder för detta ändamål, måste förstås bero på vilken (typ av) text ni valt samt hur ni i gruppen tycker att texten bäst bör representeras. Emellertid skall er projekttext fylla några grundläggande krav:
Kom ihåg att varje enskild gruppmedlem skall kunna förstå, förklara och svara för hela den kodning ni gjort i er projekttext. Er TEI-uppmärkta text skickar ni till både Mats och Mikael senast kl. 12 fredagen den 15.4.
Under seminariet: era arbeten presenterar i viss mån sig själva, genom den information ni försett dokumentet med i form av märken, och i synnerhet i TEI Headern. Dock får ni ngt litet utrymme att ev. kommentera ert arbetssätt och de val ni gjort. Ni kommer också att kommentera varandras arbeten (schema för detta tillgängliggörs fredag efter lunch), och som checklista kan ni gott använda er av "kravpunkterna" ovan genom att göra om dem till frågor, t.ex.: Är dokumentet ett giltigt XML-dokument? Finns de obligatoriska elementen med? Är textstrukturen deklarerad via kodningen? Vilka övriga element är med och hur har de begagnats? Är valen och genomförandet rimliga? Skulle ni i den kommenterande gruppen ha gjort ngt annorlunda? Hur tror ni den uppmärkta resursen fungerar i förhållande till underpunkterna i punkt 5 ovan? Och så vidare. Seminariet är inte tänkt bli en inkvisition, utan se det mer som ett tillfälle att resonera om lämpliga och olämpliga tillvägagångssätt. Förbered frågor till den textansvariga gruppen. Har ni frågor om men inte tillgång till den grafiska förlagan TEI-texten förhåller sig till kan ni helt enkelt ställa frågor till gruppen under seminariet.
Efter detta "halvtidsseminarium" går ni sedan vidare med att bearbeta denna kodade text så att dess presentation deklareras i en stilmall som ni själva konstruerar och så att texten därför också kan bli presenter- och läsbar i en webbläsare. Här finns två alternativ:
Dessa två tekniker kommer att presenteras strax efter halvtidsseminariet, och ni får då bättre möjlighet att bestämma er för endera alternativet. Vilket av alternativen ni väljer får givetvis utgå från era intressen och kunskaper och vad ni vill göra med texten, men valet bör också baseras på en medvetenhet om vilka konsekvenser respektive alternativ får för era möjligheter att åstadkomma något konstruktivt och kraftfullt. Generellt kan sägas att XSLT ställer något högre krav på teknisk färdighet än vad CSS gör. Å andra sidan är möjligheterna att åstadkomma intressanta och kraftfulla lösningar för vad man kan göra med texten så mycket större med XSLT. I själva verket går en del av poängen med detaljerad innehållsbeskrivning av texten med TEI och publicering via ett medium som webben helt enkelt förlorad om man inte nyttjar XSLT och dess element. Väljer ni därför CSS som alternativ kan ni sålunda se till att (delar av) TEI-dokumentet blir läsbart och grafiskt tillfredsställande i en webbläsare, men ni har å andra sidan praktiskt taget inga möjligheter att exempelvis åstadkomma hyperlänkar och infoga bilder (väljer ni CSS-alternativet men vill ändå åstadkomma den typen av finesser behöver ni trots allt infoga något XSLT-ark, och vi kommer eventuellt att erbjuda någon färdigskriven lösning för detta). Vi rekommenderar därför XSLT-alternativet i första hand. Vad gäller alternativet XSLT har du en fördel om du redan känner till grunderna i (X)HTML. Slutresultatet ventileras i ett slutseminarium.
Vi har medvetet valt att ge er ännu friare tyglar för fas 2 (CSS / XSLT) av projektarbetet än under fas 1. Era lösningar ser därför ganska olika ut:
All denna variation är helt legio och något som kan bli föremål för intressanta diskussioner under seminariet.
Den här friheten gör också att det är svårt att ange särskilt specifika riktlinjer för den kommentering ni gör på varandras arbete. Från lärarhåll kommer vi emellertid att mer intressera oss för funktionalitet och smidighet i presentationen av resursen än för rent estetiska aspekter på layout.
Fortfarande gäller att XML-filen skall vara giltig, XSLT-filen skall dessutom vara välformad.
Ni skall i er kommentering lägga krutet på en pragmatisk "rimlighetsdiskussion" och då komma ihåg honnörsorden vi talat om i samband med XML-baserade digitaliseringsprojekt (flexibilitet, plattformsoberoende, utbyggbarhet etc). Därför kan ni fundera över frågor som exempelvis:
Ni kommer som vid förra seminariet att ha cirka 8-10 minuter på er för kommentering.
Kom ihåg att varje enskild gruppmedlem skall kunna förstå, förklara och svara för hela det stilarksarbete ni gjort för er projekttext.
| Producenter | Text | Kommentatorer |
|---|---|---|
| Matti Södergren och Isak Gustafsson | Adolf Born: Elefantjägaren Hans Stark (TEI) (XSLT) (HTML output) (förlaga) |
Anna Ahlberg, Maja Andersson och Kerstin Persson |
| Anna Ahlberg, Maja Andersson och Kerstin Persson | Ur Arabian Nights (Tusen och en natt): The Seven Voyages of Sindbad the Sailor / First Voyage (TEI) (XSLT) |
Linda Nyberg och Malin Olsson |
| Linda Nyberg och Malin Olsson | de Maupassant: The Diamond Necklace (TEI) (CSS) |
Matti Södergren och Isak Gustafsson |
| Sandra Larsson, Pernilla Thorsson, Christina Viklund | Ur Eddan: Valans spådom och Kvädet om Trym (TEI) (XSLT) (HTML output) |
Marko Poikkimäki, Christian Runesson, Sandra Magnusson |
| Marko Poikkimäki, Christian Runesson, Sandra Magnusson | Ur Eddan: Vavtrudnes mål och Sången om Harbard (TEI) (DTD) (XSLT) (HTML output) |
Sandra Larsson, Pernilla Thorsson, Christina Viklund |
| Alexander Magnusson, Anna-Karin Ström och Peter Furuset | Strindberg: I midsommartider (TEI) (CSS) (förlaga) |
Ingela Zare, Kristin Järvung och Golda Einstein |
| Ingela Zare, Kristin Järvung och Golda Einstein | Strindberg: Sjusovaren (TEI) (XSLT) (HTML output) (förlaga) |
Mani Azizzadeh, Kent Bengtsson och Cecilia Blomkvist |
| Mani Azizzadeh, Kent Bengtsson och Cecilia Blomkvist | Strindberg: Röda Rummet, kap. 1 (TEI) (DTD) (XSLT) (förlaga) |
Alexander Magnusson, Anna-Karin Ström och Peter Furuset |
| Anna Pettersson, Maria Sjöholm och Maria Svensson | Fröding: En morgondröm och Gudarne dansa (TEI) (XSLT) |
Hilmar Jonsson, Maria Bäcklund och Joel Sjöstrand |
| Hilmar Jonsson, Maria Bäcklund och Joel Sjöstrand | Shakespeare: En midsommarnattsdröm, akt 1, scen 1 och 2 (TEI) (XSLT) (HTML output) (förlaga) |
Daniel Olsson och Charlotta Johansson |
| Daniel Olsson och Charlotta Johansson | Ur Bibeln: Höga Visan (1917 års övers.) (TEI) (XSLT) (HTML output) (DTD) |
Anna Pettersson, Maria Sjöholm och Maria Svensson |
Använd gärna en e-textbank för att hämta en text (helst ren ascii-text). Ladda ner eller markera och kopiera texten - om ni får - och spara den som en textfil. Hör av er till någon av lärarna om ni har problem med detta. Eftersom ni skall märka upp texten med avseende på dess struktur och utseende i en grafisk förlaga, så att detta sedan också slår igenom i en webbpresentation, kan ni dessutom vara betjänta av att ha tillgång till en sådan grafisk förlaga. Ni kan förstås välja att titta på texten i en tryckt bok ni lånar på ett bibliotek eller själva äger, men somliga e-textarkiv tillhandahåller också texter både som nedladdningsbar, maskinläsbar text och som digitalt faksimil. Även om ni gott kan söka själva på webben efter digitala texter (gärna kopplade till digital faksimil), kan vi särskilt rekommendera dessa e-textbanker:
Arkiv for Dansk Litteratur (http://www.adl.dk).
Här har ni tillgång till "råa" texter av de flesta verken av de flesta danska författare, i allmänhet författare vars verk är upphovsrättsfria pga 70-årsregeln. ADL tillhandahåller också digitalfaksimil (PDF) av en tryckt förlaga till respektive text.
Ett exempel: Herman Bang, HVORDAN MAN BLIVER FORELÆSER. Drygt 1500 ord. Dels har ni tillgång
till ett digitalfaksimil (ur Mindeudgave), dels har ni den maskinläsbara texten (som
databasoutput, men högerklicka på länken till "download text (ASCII)" och spara texten som exv
bang.txt så kan ni ta del av och arbeta med texten i t.ex. Windows "Anteckningar"). Texterna
saknar ofta bearbetning och korrektur efter scanningsarbetet, så det finns en del textuellt
"slagg" som behöver rensas bort, men så är fallet i de flesta e-textbanker.
Projekt Runeberg (http://runeberg.org)
Här finns tillgång till en stor uppsättning upphovsrättsfria texter av nordiska författare -
se Projekt Runebergs katalog. Format och utbud är inte enhetligt tvärs över alla
författarskap. För somliga finns råtext i ascii, för andra i HTML, för ytterligare andra
också som digitalfaksimil, sida för sida i anslutning till den digitala texten. Inte sällan
kan du från respektive verks ingångssida välja att ladda ner hela filpaket med såväl
HTML-uppmärkt text som de inscannade bilderna. För många texter finns också hyfsat med
metadata med uppgifter om originaldokumentet och den digitaliserings- och
uppmärkningsprocess som ägt rum, samt också uppgifter om originalets sidbrytningar inlagda
som kommentarer i html-koden.
Exempel: August Strindbergs samlade verk (http://runeberg.org/strindbg/), Landquistutgåvan
(1912-1921). Här kan ni hitta någon text av lämplig storlek (gärna inte större än 3000 ord)
och karaktär. Texterna fins både som (okorrad) ASCII och som faksimil ur förlagan.
Det finns också många andra intressanta författarskap att välja på, t.ex. Karin Boyes eller
Edith Södergrans diktning, Fredrika Bremers brev eller småskrifter eller varför inte en
novell av Ola Hansson (digitala faksimil till Ola Hansson kan finnas hos Svenska Akademien
(http://www.svenskaakademien.se/SVE/klassiker/) eller e-bokslagret
(http://cgi.omnibus.se/helalistan.pl))? Vi kan också rekommendera något fragment av Emanuel
Swedenborg, där ni kan hitta såväl svenska texter på Projekt Runeberg som engelska och
latinska versioner annars på nätet.
Svenska Akademiens klassikerserie på webben (http://www.svenskaakademien.se/SVE/klassiker/)
erbjuder tyvärr inte nedladdningsbara textfiler, men de bildbaserade filer i PDF de däremot
erbjuder kan användas som grafisk förlaga för eventuella e-texter ni hittat annorstädes,
t.ex. på Projekt Runeberg.
Project Gutenberg (http://promo.net/pg/)
En av de äldsta och största bankerna för fritt tillgänglig digital text. Här finns många
klassiker från åtskilliga litterära genrer, epoker, språkliga och geografiska områden, även
svenska texter. Det är fritt och lätt att ladda ner färdiga ascii-texter (ev HTML-kodade)
för eget bruk.
Exempel: William Blakes dikter (grafiska förlagor finns i det stora vetenskapliga
Blakearkivet på (http://www.iath.virginia.edu/blake/)) eller diktsamlingen "Lyrical Ballads"
av Samuel Coleridge och William Wordsworth (grafiska förlagor i den vetenskapliga utgåvan på
(http://www.rc.umd.edu/editions/LB/)
Electronic Text Center (http://etext.lib.virginia.edu/)
I det amerikanska stora arkivet ETC kan ni hitta mängder med författarskap, oftast som
HTML-text, men någon gång också i digitalfaksimil. Notera att somliga texter är spärrade för
åtkomst och reserverade för internt bruk inom Univ. of Virginia.
Exempel: Emily Dickinsons dikter i digitaliserad handskriftsform
Oxford Text Archive (http://ota.ahds.ac.uk/index.html)
OTA har under många år samlat på sig texter som framför allt forskare i olika länder märkt upp för forskningsändamål och sedan valt att deponera hos OTA - uppmärkta eller som råtext. En hel del av detta material är fritt nedladdningsbart. För somliga resurser är åtkomsten begränsad, och i några fall krävs en skriftlig ansökan per papperspost till OTA. Du kan bläddra i utbudet efter språk, författare, titel etc.
Tillbaka till innehållsförteckningen
Kursen har två examinerande faser. Dels fas 1: ett "halvtidsseminarium" (18 april) som ventilerar den TEI-uppmärkta grupprojekttexten (såsom ett giltigt XML-dokument). Dels fas 2 (en fördjupningsfas): ett slutseminarium (29 april) på grupprojekttexten, där ni tillfogat antingen ett stilark i CSS eller en XSLT-mall (med eller utan CSS-mall) för transformation från TEI till XHTML.
Tillbaka till innehållsförteckningen
Viktiga hålltider
| Tid och lärare | Innehåll och kommentarer |
|---|---|
| On 30.3, 9-12 MD |
Registrering med Kerstin Andersson. Introduktion till kursen (föreläsningsbilder ). Introduktion till området digitalisering (föreläsningsbilder och litteraturlista). Litteratur: Morrison (fr.a. kap 1-3) och Minerva |
| On 30.3, 13-15 JB |
"Text till bild och bild till text". Om scanning, OCR och bildbehandling, textfångst och bildfångst, relationen mellan text och bild, optimering. Föreläsningsbilder Litteratur: Morrison och Minerva. |
| To 31.3 | Gruppstudier av ett valt digitaliseringsprojekt och förberedelser inför diskussionssem. 1/4 (se instruktioner) Använd också kurslitteraturen för detta ändamål (Morrison (fr.a. kap 1-3) och Minerva). Börja också diskutera i gruppen vilken text ni vill välja för projektarbetet. |
| To 31.3, kl. 14. | Skicka e-post till Mats Dahlström senast kl. 14 med uppgifter om vilka som ingår i er grupp samt en lämplig URL till det digitaliseringsprojekt ni valt att presentera på seminariet den 1/4. |
| Fre 1.4, 10-12 MD |
Diskussionsseminarium: exempel på digitaliseringsprojekt. |
| Fre 1.4, 13-14.30 MD |
Textkodning: introduktion och bakgrund. Föreläsningsbilder och litteraturlista. Litteratur: Huitfeldt, Morrison 4 och 5.1, Ray 1-3 (ev. 4), Vanhoutte, TEI Guidelines (TEI Lite), Gunnarssons introduktion. |
| Må 4.4, 9-16 MD / PIE ( / ev. MG) |
Textkodning: XML / DTD / JEdit: heldagslabb.
Föreläsningsbilder. Litteratur: Ray, Gunnarsson, TEI, Vanhoutte. |
| Ti 5.4, 9-16 MD (9-11) |
Textkodning: TEI, 9-11. Föreläsningsbilder. Därefter övningsarbete på egen hand i förhandsbokade salar. |
| Ti 5.4, kl. 14 | Ange via e-post till Mats Dahlström senast idag kl. 14 vilken text ni vill arbeta med i er projektuppgift. Ni som funderar på en redan digital text från nätet anger en adress till texten och om ni har tillgång till någon grafisk förlaga. Ni som funderar på en annan digital text skickar mig texten som bilaga till e-brevet. Ni som väljer att digitalisera en text i ett fysiskt dokument skickar mig uppgifter om vilken text det rör sig om, vilket dokument ni använder som förlaga och hur ni har gått tillväga eller tänker gå tillväga med själva digitaliseringen. |
| On 6.4, 11-16 MD / PIE / VJ |
Textkodning: TEI Header och metadata, 11-12 (Föreläsningsbilder). 13-16 övningar och eget arbete. Pieta och Veronica deltar 13-14.30 Litteratur: TEI, Vanhoutte, Gunnarsson. |
| To 7.4, 12.30-14 AM |
"Digitalisering som drivkraft". Digitalisering i samhället. Digitala bibliotek. Kulturarv och digitalisering. Ett generellt inslag |
| On 13.4, 13-14.30 MD |
"Trycket från trycket". Textkritik och digitalisering som texttransmission (Föreläsningsbilder). Litteratur: Huitfeldt, Burnard, Minerva. |
| To 14.4, 10-11.30 MD / PIE |
Handledning / frågestuga. Litteratur: Ray, Gunnarsson, TEI. |
| Fre 15.4, kl. 12 | Skicka in ert projektarbete senast klockan 12 idag. På eftermiddagen presenteras ett seminarieschema på kurswebbsidan. |
| Må 18.4, 13-16 MD / MG |
Redovisningsseminarium av tei-uppmärkningen. (Seminarieschema) Litteratur: Ray, TEI. |
| Ti 19.4, 10-12 MD |
Cascading Style Sheets (CSS): föreläsning, demo, labb. (Föreläsningsbilder). Tillbringa eftermiddagen med CSS-arbete på egen hand. De som funderar på att välja XSLT-modellen kan börja förbereda sig genom att fördjupa sig i litteraturen (Ray) samt titta på övningsmaterialet Litteratur: Ray, Gunnarssons övningsmaterial samt den egna projekttexten. |
| On 20.4, 10-15 MG / PIE / VJ |
Extensible Style Sheet Language (XSL), Mikael Gunnarsson (föreläsningsbilder). 13-15: XSLT-övningar med Veronica och Pieta. Litteratur: Ray, Gunnarssons övningsmaterial samt den egna projekttexten. |
| To 21.4, 14.30-24 EO |
Gästföreläsare Espen Ore mellan 14.30 och 16.30: "TEI i utgåvor och arkiv". TEI i oppbygging av tekstutgaver og tekstarkiver med eksempler fra Henrik Ibsens skrifter og norrøne manuskripter (föreläsningsbilder) Litteratur: Ray, TEI. Efter föreläsningen går vi ut och drar någon pilsner med Espen: alla välkomna! |
| Må 25.4, 10-11.30 MD |
"Digitaliseringsmodeller". (Föreläsningsbilder) |
| Må 25.4, 13-14 MD, VJ, PIE, MG |
Handledning |
| On 27.4, 13-14 MD, VJ, MG |
Handledning |
| To 28.4, kl. 10 | Skicka in URL till ert projektarbete (TEI-XML-fil + XSLT-arket (+ ev. resultatfil)) senast klockan 10 idag. Strax därefter presenteras ett seminarieschema på kurswebbsidan. |
| Fre 29.4, 11-15 MD / MG |
Slutseminarium för projektarbetet (seminarieschema). |
| Fre 29.4, 15-16 PIE / MD |
Kursvärdering (kursvärderingsformulär) |
Tillbaka till innehållsförteckningen
Jan Buse (JB) |
Mats Dahlström (MD) |
Pieta Eklund (PIE)
Mikael Gunnarsson (MG) |
Veronica Johansson (VJ) |
Arja Mäntykangas (AM)
Espen S. Ore (Gästföreläsare från Nasjonalbiblioteket i Oslo samt Oslo universitet (Ibsenutgivningen | Menota - Norrøna texter))
Tillbaka till innehållsförteckningen
Sidan skapad februari 2005, senast uppdaterad 29/4
URL: http://www.adm.hb.se/personal/mad/digtext05.htm
Sidansvarig: Mats Dahlström