一、1.1.1信息组织
目的:信息组织是以用户需求为导向
定义:信息组织是以用户需求为导向,依据信息体自身的属性特征,信息工作者或用户按照一定的原则,方法和技术,将乱无章的信息整理成为有序的信息集合的活动和过程。
结果:是形成各种方便用户利用的有序化的信息检索系统。
信息组织是信息检索与利用的基础。是为信息检索服务。
基本原理:将处于自然状态的无序信息资料按照其某种属性特征排列成一个序列,并且需要使用信息资料的用户能将自己的信息需求转化成相应的信息资料属性特征。并在排列后的信息资料序列中找到自己所需要的信息资料则称这些信息资料是有序的。按照信息属性特征排列信息的工作称为信息整序。
替代记录反映了原信息载体的主要外部属性特征和内部属性特征,但在形式上却比原始信息载体要简洁的多。
1.1.2信息组织是由哪两个工作环节组成的
信息著录标引(信息描述揭示)和信息序化。
信息著录定义:实际上是对原始信息的外部属性特征(题名,著录,出处等)和内部属性特征进行描述的过程。
信息标引 定义:是给出信息内容标识的揭示过程。
著录标引的结果:是将原始信息制成他的替代记录-二次信息(元数据)。
信息序化定义:是将所有替代信息按照其某种外部特征和内容标识进行有规律的组织排列,从而构成某种序列,各种序列制作成并储存以后,就形成了比较完整的检索系统。
1.1.3信息组织的内容:
1信息筛选,2信息分析,3信息描述与揭示,4.信息整序与储存。
1.2信息组织的类型:
按信息的加工程度划分:一次信息组织,二次信息组织,三次信息组织。
按信息的认识层次划分:语法信息组织,语义信息组织,语用信息组织
1.3信息组织的作用
一控制整序作用。二提升品质作用。三传播利用作用。四节约成本作用。
1.4信息组织的未来发展趋势
一、以需求为导向的信息组织方法和技术不断加强。
二、信息组织工作的标准化与合作化。
三、信息系统的互操作和信息组织大众化。
四、信息组织的智能化和语义网络化。
近代信息组织特点
1.信息产品进一步丰富,信息组织与管理作为相对独立的职业得以发展。
2.用户需求成为信息组织关注的问题,“用户中心论”得到认同与贯彻。
3.文献分类法的建立和完善。
4信息组织技术与方法逐步完善
5.主题组织法和机械化信息组织手段的发展。
6.信息描述与揭示的内容日臻完善,存取系统的检索途径增多。
二、
2.1本体论
定义:它是研究存在的本质的哲学问题。是描述概念及概念之间关系的模型或详细说明,通过概念之间的关系来描述概念的语义。
本体论四种类型:领域,通用,应用和表示。
在网络信息组织中的应用
1.基于本体的网络信息组织便于计算机理解和处理,可进一步提供智能服务,表达概念及其含义更加清晰和准确。
2.本体为实现分布式共享提供了相应的引入机制,可降低信息组织建立、维护与管理的成本,促进网络知识的共享与交流。
3.本体采用了易为计算机所接受和处理的体现描述逻辑的知识表现和信息组织方式,概念及其间的关系形成了一个多维的语义网络,有利于关系的描述与揭示。
4.推理能力,更能满足用户进行语义检索,特别是智能检索。
2.2检索语言的类型
(1)分类语言
定义:用分类号表示概念及其在系统中的位置,将各种概念按其所属的学科性质进行分类和排列,是一种按照学科范畴划分而构成的语言体系。
包括:体系式分类语言、分面组配式分类语言和等级—组配式分类语言。
(2)主题语言
定义:主题语言用词语来表达各种概念,将各种概念按字顺排列的检索语言。
包括:标题词语言、单元词语言、叙词语言和关键词语言。
标题词语言是一种先组式的、按标题字顺排列的检索语言。
单元词语言是一种后组式的检索语言。
叙词语言以概念组配为基础,能更好地适应计算机检索系统。
关键词语言是非规范化的主题语言
(3)代码语言
一般只就事物的某一方面特征,用某种代码系统来加以标引和排列事物概念,从而提供检索的信息描述。比较适用于某一专业的检索。
2.3
(1)概念的内涵与外延
内涵是指所有组成该概念的事物的本质属性,外延是指具有这种本质属性的所有事物的总和。
(2)概念之间的关系:
相容关系是指至少有一部分外延相同的概念之间的关系,包括同一关系、包含关系、交叉关系等。
不相容关系是指不存在共有外延的概念之间的关系,可分为并列关系、反对关系和矛盾关系。
概念的划分
(3)划分构成: 母项、子项和划分根据三个部分
划分的方法
一次划分:只对母项进行一次划分,后面不再划分。
连续划分:进行一次划分后,再把子项当成母项继续进行划分。
划分的规则
①划分必须是相应相称的
②划分出的子项必须是相互排斥的
③每次划分必须按同一标准进行
《中国图书馆分类法》“五分法”马列、毛泽东思想、邓小平理论.哲学.社会科学.自然科学.综合性图书
3.1信息描述
目的是为了信息检索的需要,因此传统的信息描述语言也称为检索语引语言。
信息描述包括对信息外部特征的描述和对信息内容特征的标引,从而形成不的索标识以提供多途径的信息检索服务。
信息特征是信息所固有的、可借以确认某一或某些信息并将其从信息资源集合中识别来的特征,包括信息外部特征和信息内容特征
信息外部特征包括题名、著者、出版者、出版时间、出处、报告号、专利号等
信息内容特征标引是对信息所论述的主题、观点、见解、结论等进行示,并用专门的语词或符号表示,以提供内容检索途径。
信息检索目的为了查找到特定内容的信息。
情报检索语言是根据信息检索的需要而创制的人工语言,专门用于各种手工和计算机化的信息检索系统,表达信息的主题概念和用户检索需求的主题概念。
⊙ 语言标识是否经过人工规范,传统信息描述语言可分为规范语言和自然语言两种类型。
3.2.1规范语言的定义:规范语言是从自然语言出发,根据信息描述与信息检索的需要,从自然语言中筛选出特定的词汇来网罗和指示概念,并依据一定的规则对自然语言进行事先规范而形成的人工语言,是符号化的概念表示系统。
→为信息加工者与检索者提供一种共同语言。
→能有效避免漏检、误检
⊙ 规范语言,也称为标引语言或索引语言称为检索语言或情报检索语言。
3.2.2规范语言 组成词汇和语法。
①词汇是指登录在分类表、叙词表、代码表中的全部标识
②语法是指如何创造和运用这些标识来正确表达信息内容和信息需要,以有效实现信息检索的一整套规则,分为词法和句法两部分。
→规范语言是人工控制的语言系统,词汇控制和句法控制是其核心所在
规范语言的功能:标引功能、揭示功能、整序功能、比较功能
3.2.3规范语言的词汇控制
(1)词汇选择
使用频率高并能汇集一定量文献的名词和名词性词组,考虑学科或专业领域的现状及发展
选用的语词应概念明确,一词一义,符合科学性、通用性的特点。
词汇选择应考虑其组配性能,尽量收录核心词和具有构词功能的词;注意适度原则,既能发挥组配的优越性,又能兼顾词汇的专指性,适当的选用词组。
(2)词形的控制
词形的控制是对词汇不同的书面表达形式及同义词的控制,以实现每个语词的词义和词形的唯一性
(3)词义的控制
词汇与概念一一对应。加限定词,同形异义词和多义词。加注释,对语词进行注释说明
(4)词间关系的控制
受控越强,结构化程度越高
分类法是一种按照类目之间关系组织起来,并配有一定标识符号的分类信息资源的工具,
3.2.4规范语言的类型—结构原理分
(1)分类语言
分类语言用分类号来表达各种概念,将各种概念按学科属性进行分类和系统排列,是一种按照学科范畴划分而构成的语言体系。分类语言集中反映了学科的系统性。
如:文献分类法、商品分类法、专类分类法
分类语言包括等级体系式分类语言,分面组配式分类语言,等级—组配式分类语言
2)主题语言
主题语言用语词来表达各种概念,并揭示语词或概念之间的等同、等级、相关关系。
包括标题法,单元词法,序词法,关键词法
3)代码语言
代码语言是指对事物的某方面特征,用某种代码系统来表示和排列,从而提供检索的信息描述,如化合物分子式、专利号、档案号等。
规范语言的类型—标识的组合使用分
(1)先组式语言
先组式语言是指语词标识在编表时就固定组配好,用户只能用这种固定好的语词词组形式去描述信息内容或信息需求的一种规范语言。
→较好的直接性和专指性,灵活度差。
→如标题词语言
2)后组式语言
后组式语言是指在检索实施前未事先组配好的一种检索语言,在检索时将它们临时组配起来,表达一定的概念来完成检索。
→提供了灵活的组配方式。
→提高查全率和查准率;
标引难度大、速度慢、词汇更新滞后
自然语言区别于规范语言的特点
摆脱规范语言繁复的分析转换过程,降低标引负担和成本达到足够的专指度,不存在类目或词汇更新滞后的问题符合检索者的习惯,简便易行
具有通用性,不存在规范语言的统一兼容问题.便于计算机自动处理
自然语言标引;自由标引、自动标引(自动抽词标引、自动赋词标引、自动赋号标引、自动聚类)、不标引或全标引。
3.3信息资源分类
定义 是指根据信息资源的内容属性和其他特征,将其进行分门别类地、系统地组织和揭示的方法。
信息资源分类是以知识分类或学科分类为基础,结合信息资源各种载体的实际编制的类目体系。信息资源的分类是一种从主题内容角度组织和揭示信息资源的方法
信息资源分类特征
①按照内容特征的相互关系对信息资源进行组织
②从一定角度出发组织和揭示信息资源
③采用一定的标记符号作为排序工具
④通过类目索引提供从字顺角度查找类目的途径
信息资源分类作用
1进行资源组织、2建立分类检索工具、3分类统计、4兼容工具。
3.4分类法的类型
1)等级列举分类法 定义:是一种传统的分类类型,将所有的类目组织成一个等级系统,并且采用尽量列举的方法编制的分类法。又名:体系分类法、穷举式分类法、枚举式分类法
优点:1.类目体系结构显示直观。易掌握和使用。2.类目体系展开比较系统。3.标记简单明了。
不足:1无法充分揭示信息资源中大量的细小专深主题。2类目体系相对固定。3类表篇幅较大。
2)分面组配分类法
定义:根据概念的分析与综合原理,将概括信息资源内容与事物的主题概念组成“分面-亚面-类目”的结构体系,通过各分面内类目之间的组配来表达信息资源主题的一种信息资源分类法。
又名:组配分类法、分析-综合分类法
代表:《冒号分类法》
⊙放弃了详细列举类目体系的做法,采用以简单概念组成复合类目的方式
优点:a类表组配能力强,标引结果专指性高,可以通过基本概念的组配,充分揭示信息资源中的复合主题;b标记表达性强,便于根据不同需要调整组配次序,实行轮排,从不同角度提供检索途径;c可以满足不断产生的新主题及复杂主题的需要,与科学的发展保持同步;d类表的篇幅小,便于管理、增补及修订等工作的开展
不足:①类目是隐含的,与体系分类法相比直观性不强
②分类检索工具中的类目是根据组配方式建立的,各个学科门类的类目数量分布不均衡
③组配方式及规则较复杂,标引难度大,对分类标引人员的专业素养有较高的要求
④号码冗长,不适用于组织信息资源排架,主要用于组织分类检索工具
3.5 分类法的结构体系
由类目体系、标记符号、说明与注释、类目索引四部分组成。
⊙ 类目体系 定义:是根据类目内在关系和一定原则建立起来的类目集合,是分类法的主体,是分类语言进行词汇控制的依据。
类目体系由主表和复分表构成。
主表由基本大类、简表和详表构成。
复分表定义:复分表是将主表中按相同标准划分某些类所产生的一系列相同子目抽取出来,配以特定号码,单独编制成表,供主表有关类目再进一步复分用的类目表。
类型:
通用复分表:一种供整个文献分类法有关类共同使用的表,通常集中在类表的前部或后部。
专类复分表:一种只适用于某一基本大类或专门学科的复分表,一般设置于相应门类之中。
仿分:是指利用某一类的子目做进一步细分的依据:
复分表作用:1.缩小类表的篇幅2.加强类表的灵活性3.增强类表的规律性
⊙ 类目索引 定义:也称分类表索引,是从类目名称字顺途径查找相应分类号的工具,为分类法的有效使用提供了便利。
作用:1.可以从表达主题的词语出发,找到相应的分类号,克服了类目查找的困难。2.便于用户查找分类表中,被分散在各个学历学科门类的有关同一事物的类目及分类表中未列出的有关新概念。
类目索引包括:直接索引,相关索引,主题词索引
直接索引是一种直接通过类名或同义词查找对应类目的索引。从类目名称查找对应分类号。
相关索引是一种不仅可以从主题名称出发查找对应的类目,还可以将被分类体系分散的该主题各方面的类目加以集中.
主题词索引是一种将分类法与主题法结合的索引类型。提供了从主题词出发查找和使用类目的途径。
3.6分类法类目体系的建立——从总到分的划分方法
1.类目划分的问题
类目划分,是指依据一定的属性或特征对类目的外延进行区分,生成一组子目的过程。
2.引用次序问题
引用次序,也称为组配次序,指复合主题标引和检索时,各个主题因素的组合次序。
在分类法中,引用次序是指类目划分标准使用的次序或不同分面的概念在组配时被引用的先后次序。
3.建立类目方法:归纳方法、划分方法
3.7分类法的标记系统
一.标记符号,亦称分类号,是分类法中用于标识类目的代号。
作用:固定类目次序,显示类目之间的关系
分类:单纯号码,混合号码
性能:容纳性、表达性、简明性、助记性
二.标记制度:分类号码的编制方法,即为类目配置号码的方式
(1)层累标记制是一种能够显示类目之间的等级关系和结构的标记制度。类目结构与类目关系的显示主要是通过号码与类目的对应性来体现的。
优点:揭示类目的等级结构,在机检系统中通过标记逐级显示分类体系。
缺点:①类目划分等级较深,号码过长;
②同位类较多,超过号码的基数,无法严格按等级编号;
③在顺序配号的两个同位类之间出现新类时,号码的扩充也会有问题。
(2)顺序标记制是一种只反映类目的先后顺序而不反映类目的层次结构的标记制度。
顺序标记制分为字母顺序标记制和数字顺序标记制。
①仅从类号无法判断类目体系中类目之间的内在关系②能够依据类目的数量较为平衡地进行号码分配,标记结果简短,容纳性强③不能够揭示类目体系的结构,无法在机检系统中通过标记按等级显示
(3)顺序—层累标记制
(4)分面标记制
三.标记方法
1)八分法、2)双位制、3)借号法、4)预留空号法、5)双位加点法、6)字母标记法、7)对应编号法
3.8国内外常用分类法
1.《杜威十进分类法》DDC
是美国的,是层累,等级体系式分类法
不足:①由基本大类构成的类目体系,对不同学科门类之间所具有的内在联系,反映得不够充分,影响了整个类目体系的学科系统性。②大类的设置不能适应现代科学的发展,不少已经过时的类目结构与现实文献的学科内容相脱离。③过于突出美国中心的特征,在使用和发展方面具有一定的局限性。④小数层累标记制度使类号冗长,不利于文献排架
2:国际十进法分类制
3:冒号分类法
只有冒号分类法是分面组配式其他都是等级体系分类
4;中国图书馆分类法
类目体系:是根据毛泽东关于知识分类的思想,将人类全部知识划分为哲学,社会科学,自然科学,三个部分。5个基本部类:马克思主义,列宁主义,毛泽东思想。哲学。社会科学。自然科学。综合性图书。共22个基本大类
3.9主题法 定义:是指直接以表达主题内容的语词作为检索标识,以字顺为主要检索途径,以参照系统等方法揭示词间关系的标引和检索信息资源的方法。
主题法原理:1直接以语词作为主题标识。2以字顺序列作为主要检索途径。3以主题为中心集中信息资源。4通过参照系统等方式揭示词间关系
主题法类型:标题法,元词法,叙词法,分类主题一体化语言
叙词之间的关系:
等同关系:正式叙词与非正式叙词之间的关系
等级关系:上位概念主题词与下位概念主题词之间的一种关系,对等级关系的揭示有助于扩大或缩小查找范围
相关关系:又称类缘关系,是序词之间除了等同关系等级关系之外,语义相关的一种关系。相关关系是用于揭示叙词之间的各种关系,扩大检索范围,进行相关资料查找的主要手段。
按是否对主题词进行控制划分的类型
受控主题法:依据特定主题词表揭示信息资源的组织方法
非受控主题词法:是直接使用信息资源或用户检索使用的自然语言语词进行组织的方法
3.10网络环境下,自然语言是否会取代规范语言
不会,他俩并存。自然语言的特点:1摆脱规范语言反繁复的分析转换过程,降低标引负担和成本;2达到足够的专指度,不存在内幕或词汇更新滞后的问题;3符合检索者的习惯,简便易行;4具有通用性,不存在规范语言的统一兼容问题;5便于计算机自动处理;缺点:一是如何从自然语言文本中抽取最能准确、充分地表达文献有价值内容的词,以及这些词语检索需求有效匹配的问题;二是如何克服自然语言由于不规范和缺乏语义关联性而对检索不利的问题。规范语言优点:为信息加工者与检索者提供一种共同语言。能有效避免漏检、误检。有标引功能,揭示功能,整序功能,比较功能;缺点:难度大`速度慢`词汇更新滞后`对标引和检索人员要求过高等弊端。后控制词表使其两两互补。
4.1著录 含义:原意是指在簿籍上的记载,后来用以泛指在任何载体上的记载。《中国文献编目规则》对著录的定义:编制文献目录时,按照一定的规则对文献的形式特征和内容特征进行分析`选择和记录的方法和过程款目:款目是指依据一定的规则和方法,对文献特征与编目业务信息所做的记录。记录:记录是指表述事物的特征,具有完整的含义,从内容和使用的角度能被作为一个整体来识别的一组相关数据项的组合。
著录信息源 划分主要信息源参考消息源八大著录项目:题名与责任说明项,版本项,文献特殊细节项,出版发行项,载体形态项,丛编项,附注项,文献标准编号与获得方式项。描述项目的作用:1.客观描述文献信息特征2.概略反应文献全貌3.提供识别与选择文献的主要依据
ISBD编制的总体目的是:促进国际书目信息交流,实现文献信息资源共享。具体目的是:使各国的书目著录具有互换性,各国的书目记录易于识别,传统的手工目录易于转换为机读目录。
《文献著录总则》的著录格式
正题名=并列题名:副题名及说明题名文字[文献类型标识]/责任第一说明;责任其他说明.--版本类型或版次/与本版有关的责任者.--文献特殊细节项.--出版发行地:出版发行者,出版发行日期文献数量:图表;尺寸-.--(丛编名:;编次/丛编责任者)附注项国际标准书号(装订):定价提要项排检项
4.2美国MARC:MARC是“机器可读目录”,是以代码形式结构和特定结构记录在计算机存储载体上的,可用计算机识别与阅读的目录。MARC21书目数据格式组成由记录头标区,地址目次区和可变长字段,每个记录均以记录终止符结束。记录头标区位于每个记录的起始位置。
4.3元数据 定义:又叫做“描述数据”或“诠释数据”。简单来说,元数据就是“关于数据的数据”。
功能:1描述2定位3检索4选择5评估6管理7保存001(必备)记录标识号;005记录处理时间标识;010国际标准书号$aISBN $b限定 $d获得方式和价格的注释 $z错误的ISBN;011国际标准连续出版物号;100(必备)通用处理数据;101作品语种,指示符1:0=原著1=译著2=含译文,$a正文语种 $b中间语种 $c原作语种;102出版或制作国别$a出版或制作国家 $b出版地区;106编码数据字段:文字资料-形态特征;105编码数据字段:文字资料`专著;110编码数据字段:连续出版物;200(必备)题名与责任说明$a正题名$b一般资料标识$c另一著者的正题名$d并列题名$e其他题名信息$f第一责任说明$g其他责任说明$z并列题名语种$v卷标识$9正题名汉语拼音;205版本说明$a版本说明$b版次和附加版本说明$d并列版本说明$版本的责任说明$g版本的次要责任说明;210出版发行$a出版发行地$b出版者`发行者地址$c出版者`发行者名称$d出版`发行日期;215载体形态项$a特种资料标识和文献数量及单位$c其他形态细节$d尺寸$e附件;225从编$a丛编题名$d并列丛编题名$e其他题名信息$f责任说明;230资料特殊细节项; 510并列题名;517其他题名;600个人名称主题;606学科名称主题$a款目要素$j形式复分$x学科主题复分;608形式、类型或物理特性标目;620出版地制作地检索点;690中国图书馆分类法分类号;700个人名称-主要知识责任;701个人名称-等同知识责任;702个人名称-次要知识责任;801(必备)记录来源$a国家$b机构名称和代码$c处理日期;905馆藏信息
5.1标引 定义:是通过对文献或信息资源的分析,选用确切的检索标识,如类号、主题词、关键词、人名,地名等,用以反映该文献或资源内容的过程。
分类标引定义:又称为归类,是指依据一定的分类语言,对信息资源的内容特征进行分析、判断、选择,赋予分类标识的过程。
通过对信息资源赋予分类标识,信息机构就可以将各种资源纳入相应的知识门类,建立起相应的分类检索系统。
分类标引规则
一.基本分类规则
(1)根据信息资源的性质、特点进行分类标引
(2)必须能够体现出分类法的逻辑性、等级性、次第性
(3)必须将特定的信息资源归入最切合其内容的类
(4)必须将特定的信息资源归入用途最大的类
(5)不能单凭题名、篇名的意义归类
(6)适当体现分类标引的思想性
二.一般分类规则
(1)单主题信息资源的分类标引
(2)多主题信息资源的分类标引
(3)丛书,多卷书的分类标引
(4)词典、百科全书、年鉴、手册的分类标引
(5)目录、索引、文摘的分类标引
(6)关于对著作的研究、注释文献的标引
(7)特种文献的分类标引
(8)非书资料的分类标引
(9)网络信息资源的分类标引
5.2主题标引是依据一定的主题词表或主题标引规则,赋予信息资源语词标识的过程。
主题标引分为受控标引和自由标引两类。
主题标引方式有整体标引,全面标引,对口标引,综合标引,分析标引。
主题标引程序,一查找利用已有的标引成果,二主题分析,三主题概念的转换,四主题标引记录,五审核
主题标引方法:主题分析方法
(1)主题类型的分析
(2)主题结构的分析
A主体因素—B通用因素—C位置因素—D时间因素—E文献类型因素
A1对象—A2方面—A3方法—A4结果—A5条件
主题标引规则:一.选词规则(优先),
(1)选正式叙词(2)选最专指的叙词标引 (3)组配标引(4)上位词标引 (5)靠词标引(6)增词标引(7)自由词标引
二.组配规则
(1)叙词组配必须是概念组配;(2)叙词组配应优先采用交叉组配; (3)不能越级组配; (4)叙词组配必须概念清楚、确切、具有单义性; (5)叙词组配次序
5.3主题标引与分类标引的比较。
1、主题标引与分类标引的标引对象相同,但揭示信息资源内容的角度不同。
2、主题标引与分类标引在标引时所使用的标识符号不同,使得主题标引具有直观性,分类标引具有间接性。
3、由于主题法和分类法的体系结构不同,主题标语具有专指性,灵活性,分类标引具有系统性,稳定性。
5.4关键词语言的类型 题内关键词索引,题外关键词索引,双重关键词索引
5.5自动标引的过程
本文地址:http://sicmodule.glev.cn/quote/8659.html 歌乐夫 http://sicmodule.glev.cn/ , 查看更多