Os limites da palavra e da sentença no processamento automático de textos

Tatiana Cavalcanti; Aline Silveira; Elvis de Souza; Cláudia Freitas

Autores/as

Tatiana Cavalcanti PUC-Rio https://orcid.org/0000-0002-4378-5851
Aline Silveira PUC-Rio https://orcid.org/0000-0002-4742-3014
Elvis de Souza PUC-Rio https://orcid.org/0000-0001-9373-7412
Cláudia Freitas PUC-Rio http://orcid.org/0000-0001-6807-8558

Palabras clave:

Procesamiento del Lenguaje Natural, Lingüística computacional, Preprocesamiento, Tokenización, Segmentación

Resumen

Este trabajo tiene como objetivo presentar los principales desafíos lingüísticos involucrados en la etapa de preprocesamiento de un corpus compuesto por tesis y disertaciones en el área de petróleo y gas. Como resultado, además de plantear cuestiones específicas relacionadas con este dominio y con textos científicos, determinamos en qué medida el tratamiento de estas mismas cuestiones dificulta el procesamiento automático. Creamos un corpus estándar de oro de tokenización y segmentación que comprende varios casos difíciles, y que ahora están disponibles para la comunidad de PLN de lengua portuguesa. Este corpus se puede utilizar para evaluar los métodos de tokenización automática, así como para mejorar la calidad de los pasos posteriores del procesamiento.

Descargas

Los datos de descargas todavía no están disponibles.

Citas

BIDERMAN, Maria Tereza Camargo. Teoria lingüística: teoria lexical e lingüística computacional. Martins Fontes, 2001.

DE SOUZA, Elvis; FREITAS, Cláudia. ET: uma Estação de Trabalho para revisão, edição e avaliação de corpora anotados morfossintaticamente. In: VI Workshop de Iniciação Científica em Tecnologia da Informação e da Linguagem Humana (TILic 2019). TILic 2019, Salvador, BA, Brazil, Outubro, 15-18, 2019.

EUROPE PMC CONSORTIUM. Europe PMC: a full-text literature database for the life sciences and platform for innovation. Nucleic acids research, v. 43, n. D1, p. D1042-D1048, 2015.

FREITAS, Cláudia; AFONSO, Susana. Bíblia Florestal: Um manual lingüístico da Floresta Sintá (c) tica. 2007. Disponível em: <http://www.linguateca.pt/Floresta/BibliaFlorestal/>. Acesso em: 14 jul. 2020.

GREFENSTETTE, Gregory; TAPANAINEN, Pasi. What is a Word, What is Sentence? Problems of Tokenization, Grenoble: Rank Xerox Research Centre. 1994.

HEARST, Marti. Untangling text data mining. in: Proceedings of the 37th Annual meeting of the Association for Computational Linguistics. 1999. p. 3-10.

KAZAMA, Jun'ichi; MIYAO, Yusuke; TSUJII, Jun’ichi. A maximum entropy tagger with unsupervised hidden markov models. In: Proc. of the 6th NLPRS. 2001. p. 333-340.

LOPES, Lucelene; VIEIRA, Renata. Building domain specific parsed corpora in portuguese language. in: Proceedings of ENIAC 2013, 2013, Brasil., 2013.

MANNING, Christopher.; SCHÜTZE, Hinrich. Foundations of statistical natural language processing. MIT press, 1999.

ROCHA, Luísa; FREITAS, Cláudia; SANTOS, Diana. Preparação para Leitura Distante em português: diálogos entre PLN e Humanidades Digitais. In: VI Workshop de Iniciação Científica em Tecnologia da Informação e da Linguagem Humana (TILic 2019). TILic 2019, Salvador, BA, Brazil, Outubro, 15-18, 2019.

SAMPSON, Geoffrey. Empirical Linguistics. London: Continuum, 2001.

SANCHEZ, George. Sentence boundary detection in legal text. In: Proceedings of the Natural Legal Language Processing Workshop 2019. 2019. p. 31-38.

SANTOS, Diana; BICK, Eckhard; AFONSO, Susana. Floresta Sintá(c)tica: apresentação e história do projecto. 2007. Disponível em https://www.linguateca.pt/Diana/download/SantosBickAfonsoFlorestaSet2007.pdf. Acesso em: 12 ago. 2020

SANTOS, Diana; FREITAS, Cláudia; BICK, Eckhard. OBras: a fully annotated and partially human-revised corpus of Brazilian literary works in public domain. In: CorLex, 24 de setembro de 2018.

SILVEIRA, Aline; DE SOUZA, Elvis; CAVALCANTI, Tatiana; FREITAS, Cláudia. Do PDF ao TXT: Desafios na extração de informação em textos técnico-científicos. In: VI Workshop de Iniciação Científica em Tecnologia da Informação e da Linguagem Humana (TILic 2019). TILic 2019, Salvador, BA, Brazil, Outubro, 15-18, 2019.

STRAKA, Milan; HAJIC, Jan; STRAKOVÁ, Jana. UDPipe: Trainable Pipeline for Processing CoNLL-U Files Performing Tokenization, Morphological Analysis, POS Tagging and Parsing. In: LREC. 2016.

THOMPSON, Paul; ANANIADOU, Sophia; TSUJII, Jun’ichi. The GENIA Corpus: Annotation Levels and Applications. In: Handbook of Linguistic Annotation. Springer, Dordrecht, 2017. p. 1395-1432.