Logo GenDocs.ru

Поиск по сайту:  


Загрузка...

Программa - tokenizer, putzer, htmlEnt2Char инструменты для корпусной лингвитики - файл torture_de_l1.txt


Программa - tokenizer, putzer, htmlEnt2Char инструменты для корпусной лингвитики
скачать (2711.4 kb.)

Доступные файлы (73):

en.lolita.utf8.txt652kb.15.10.2011 20:23скачать
en.lolita.utf8.txt.tok
example.sh
ru.lolita.utf8.txt1276kb.15.10.2011 20:40скачать
ru.lolita.utf8.txt.tok
README.txt9kb.26.10.2011 02:24скачать
aclocal.m4
config.h
config.h.in
config.log
config.status
configure
configure.ac
COPYING
depcomp
htmlEnt2Char.Po
putzer.Po
TokenizeDeL1.Po
TokenizeDeU8.Po
TokenizeDeWin.Po
TokenizeEnL1.Po
TokenizeEnU8.Po
TokenizeEnWin.Po
tokenizer.Po
TokenizeRuI5.Po
TokenizeRuU8.Po
TokenizeRuWin.Po
htmlEnt2Char.c
htmlEnt2Char.l
INSTALL
install-sh
LC_ascii.h
LC_cp1251.h
LC_cp1252.h
LC_ISOcyrillic5.h
LC_ISOlatin1.h
LIESMICH
Makefile
Makefile.am
Makefile.in
missing
mkinstalldirs
putzer.c
putzer.l
README
stamp-h1
TokenizeDe.l
TokenizeDeL1.c
TokenizeDeL1.l
TokenizeDeU8.c
TokenizeDeU8.l
TokenizeDeWin.c
TokenizeDeWin.l
TokenizeEn.l
TokenizeEnL1.c
TokenizeEnL1.l
TokenizeEnU8.c
TokenizeEnU8.l
TokenizeEnWin.c
TokenizeEnWin.l
tokenizer.c
Tokenizer.h
TokenizerLang.h
TokenizerLexer.h
TokenizeRuI5.c
TokenizeRuI5.l
TokenizeRu.l
TokenizeRuU8.c
TokenizeRuU8.l
TokenizeRuWin.c
TokenizeRuWin.l
torture_de_l1.txt3kb.04.05.2007 11:14скачать
ylwrap

Загрузка...

torture_de_l1.txt

Реклама MarketGid:
Загрузка...
### test-battery for a German (latin-1) ### * tokenizer ### * sentence segmenter ### testing re-combining of hyphenated words (option -c): Ein ge- trenn- tes Wort; hier eins mit Leer- zeichen hinter dem Trennstrich am Zeilenende. ### but some hyphenated words keep the hyphen (e.g. ABC-Waffen) Hier wieder ein paar Trennungen aber mit Bindestrichw�rtern eingestreut: rot- gr�ne Koalisations- ver- ein- barungen bzgl. Gesetzes- initiativen der EU- Kommission. ABC-Waffen sind Bindestrichw�rter und als solche nur ein Token. Am Zeilenende (z.B. GAT- Abkommen) sind sie aber kaum als solche zu erkennen. Leer- und Kranken- st�nde sind ebenso problematisch, wie die Lach- und Schie�gesellschaft. ### soft-hyphen (U+00AD) Hier ein Soft�hyphen. ### non-breaking spaces (U+00A0) Ein�Satz�mit�Non-Breaking-Spaces. ### URLs and email-adresses: URLs und Email-Adressen sollten als ein Token behandelt werden: (http://www.daehne.de, http://www.messe.de/cb98/prog/t22/980324_d.html, http://rzaix340.rz.uni-leipzig.de/~wir95hji/hindex.htm bzw. ultrasde@hotmail.com) ### tests for end-of-sentence detection Satz. Dort? Hier! 19. August 1972. 12.8.1983. 12. 8. 1983. 12. viii. 1993. Er sprach: "Ein Satz in Anf�hrungszeichen." (Und in Klammern.) (Bzw. a - (b + c).) Z.B. Herr M�ller, Dr. Max Hadersbeck, Hr. Sch�fer, Prof. Dr. med. em. F. Schulz, Prof. Guenthner. Mr. G. W. Spencer schl�ft. Hier beginnt ein Satz. Die R�mer eroberten im Jahre 83 n. Chr. Regensburg, was nicht stimmt. ### but sometimes an abbreviation point is an EOS-point, too: Die R�mer eroberten Regensburg im Jahre 83 n. Chr. Und hier beginnt ein Satz. Das Buch kostet 87 DM inkl. Damit ist es teuer. In der Oettingenstr. 67 stehen Computer etc. In der Kaiser-Friedrich-Str. 100 nicht. ### typical and frequent words which are indicators for a begin-of-sentence are: ### capitalized articles, prepositions and conjunctions, etc. not homonymous to proper nouns ### short inserts in parenthesis are/should not treated as separate sentences Ein Satz mit einem (Das ist ein dt. Einschub.) Einschub in runden Klammern. ### there are various options how paragraphs should be handled ### * as indicators for EOS (-n and -N) ### * and in output (-p) Das ist ein Absatz. Das nicht. Oder zumindest nicht allein. Eine �berschrift ohne Punkt Roman von Sebastian Nagel Es war einmal ein Tokenizer.


Скачать файл (2711.4 kb.)

Поиск по сайту:  

© gendocs.ru
При копировании укажите ссылку.
обратиться к администрации
Рейтинг@Mail.ru